본문 바로가기

IT/AI

🤖 강화학습, 이제 800단어로 이해하는 시대

강화학습이 어렵다고요? 사실 놀랍도록 단순합니다

저도 처음엔 강화학습(Reinforcement Learning)이라고 하면 복잡한 수식과 마르코프 결정 과정(MDP) 같은 개념들이 먼저 떠올랐어요. 머리가 지끈거리는 느낌? 그런데 최근 벤 레흐트(Ben Recht) 교수가 제시한 정의를 보고 나니, 강화학습의 본질이 얼마나 단순한지 새삼 깨닫게 되더라구요.

특히 인지과학자인 리오르 폭스(Lior Fox)와의 논의를 통해 더욱 명확해진 이 정의는, 컴퓨터가 아닌 심리학에서 출발한다는 점이 흥미로워요. 컴퓨터가 백개먼을 두기 한참 전부터, 심리학자들은 이미 피드백 기반의 학습 이론을 만들고 있었거든요.

심리학에서 시작된 강화학습의 핵심

손다이크(Thorndike)의 효과 법칙을 떠올려보세요. 강화학습의 본질은 정말 간단합니다.

첫째, 지금 내가 얼마나 잘하고 있는지 외부에서 평가를 받아요.

둘째, 그 평가를 바탕으로 다음번엔 더 잘할 수 있게 조정하는 거죠.

이게 전부예요. 인간이나 동물이 실제로 이렇게 학습하는지와는 별개로, 컴퓨터 과학에서의 강화학습은 정확히 이 과정을 따른다고 보시면 됩니다. 마치 아이가 자전거를 배울 때 넘어지고 일어서면서 균형을 찾아가는 것처럼요.

컴퓨터는 어떻게 강화학습을 하나요?

좀 더 구체적으로 들어가볼까요. 컴퓨터 프로그램이 평가 환경과 상호작용하면서 학습하는 과정을 상상해보세요.

먼저 컴퓨터가 일련의 테스트에 대한 응답을 생성합니다. 그러면 외부 평가자가 이 응답들에 숫자로 점수를 매기죠. 컴퓨터는 이 점수를 받아서 내부 소프트웨어를 업데이트하고, 다음 평가를 준비해요. 이 과정이 계속 반복되면서 프로그램은 점점 더 높은 평균 점수를 얻을 수 있게 발전하는 거예요.

정리하면 이렇습니다. 평가 시나리오에 대한 응답을 생성하고, 그 응답에 대한 점수를 받고, 점수를 바탕으로 코드를 업데이트하는 거죠. 결국 강화학습은 최적화의 한 분야라고 볼 수 있어요. 더 나아지기 위한 끊임없는 반복, 그게 핵심이에요.

실생활 속 강화학습 사례들

이런 방식으로 작동하는 예시를 떠올리기는 어렵지 않아요. 비디오 게임을 하는 AI 에이전트를 생각해보세요. 여러 번 게임을 플레이하면서 매 라운드의 점수를 바탕으로 전략을 조정하잖아요. 처음엔 서툴다가 점점 고수가 되어가는 과정이죠.

자율주행 레이싱 드론도 마찬가지예요. 코스를 돌면서 새로운 기동을 시도하고, 기록을 개선하려고 반복적으로 학습하죠. 최근 화제가 되고 있는 대규모 언어 모델도 비슷한 방식이에요. 원격지의 작업자들이 매긴 점수를 바탕으로 사용자 선호도에 맞춰 미세 조정되는 거거든요.

실제로 오픈AI의 GPT 시리즈나 앤트로픽의 클로드 같은 모델들이 바로 이런 방식으로 학습하고 있어요. 글로벌 시장조사기관에 따르면 2024년 기준 전 세계 AI 시장 규모가 약 1,840억 달러에 달한다고 해요. 강화학습이 얼마나 실용적인 기술인지 실감이 나시죠?

개혁적 강화학습이란 무엇인가요?

여기서 '개혁적 강화학습(Reformist RL)'이라는 개념이 등장해요. 이건 업데이트 단계를 아주 특별한 방식으로 구현한 건데요.

핵심은 컴퓨터 코드가 생성 모델이라는 점이에요. 이 모델은 평가 환경으로부터 입력을 받아서 무작위 샘플의 시퀀스를 반환하죠. 비디오게임 플레이어는 다음 움직임을 무작위로 선택하고, 드론은 이전 방향을 무작위로 조정하고, 언어 모델은 다음 토큰을 무작위로 생성하는 식이에요.

일반적으로 데이터에서 생성 모델을 만들 때는 주어진 데이터셋의 확률을 최대화하는 게 목표잖아요. 그런데 개혁적 강화학습에서는 생성 모델이 스스로 데이터를 만들어내요. 평가 단계에서 기록된 데이터와 받은 점수가 바로 훈련 데이터가 되는 거죠.

그리고 여기서 핵심 전략이 나와요. 긍정적인 점수를 받은 데이터로만 모델을 업데이트하는 거예요. 높은 점수를 받았을 때마다 같은 테스트에서 같은 방식으로 응답할 확률을 높이는 거죠. 잘한 걸 더 자주 반복하게 만드는 셈이에요.

대규모 언어 모델에서 왜 각광받나요?

이미 생성 모델을 만드는 코드가 있다면, 강화학습 에이전트로 바꾸는 건 정말 쉬워요. 평가 단계에서 받은 점수에 비례해서 업데이트에 가중치만 추가하면 되거든요. 이게 바로 '정책 경사(Policy Gradient)'라고 불리는 방법이에요.

구현이 이렇게 간단하니까 대규모 언어 모델에서 개혁적 강화학습이 각광받는 거예요. 사전학습용 코드를 살짝만 수정하면 사후학습에 바로 활용할 수 있으니까요. 모델들은 인터넷의 텍스트 시퀀스로 사전학습되고, 다양한 평가 환경에서 생성된 텍스트 시퀀스로 사후학습되는 거죠.

업계 보고서에 따르면 2023년 기준으로 전 세계 자연어 처리(NLP) 시장 규모가 약 200억 달러를 넘어섰다고 해요. 이런 기술이 얼마나 빠르게 성장하고 있는지 알 수 있는 대목이죠. 챗GPT가 출시된 지 불과 2년 만에 월간 활성 사용자가 2억 명을 돌파했다는 사실만 봐도, 강화학습 기반 언어 모델의 파급력이 실감나시죠?

그럼 MDP는 어디로 갔나요?

AI 수업 들어보신 분들은 마르코프 결정 과정(MDP)으로 고생하신 기억이 있으실 거예요. 저도 그랬거든요. 그런데 개혁적 강화학습에서는 MDP를 부차적인 개념으로 봐요. 행동주의 심리학처럼 말이죠.

MDP는 아주 특수한 평가 환경에서 나타나는 거예요. 컴퓨터가 일련의 테스트로 점수를 받고, 평가 환경이 현재 테스트와 컴퓨터의 현재 답변만을 기반으로 다음 테스트를 선택하고, 각 테스트가 전체 점수에서 점진적으로 낮은 가중치를 받는(할인) 경우죠.

많은 문제를 이런 방식으로 표현할 수 있지만, 이건 강화학습 문제의 전체가 아니라 일부일 뿐이에요. 마치 자동차를 이해하는 데 엔진의 작동 원리를 모두 알 필요는 없는 것처럼요.

왜 이 정의가 중요한가요?

이런 강화학습과 개혁적 강화학습의 특성화는 제가 아는 모든 사례를 포괄해요. 머신러닝의 다른 분야들과도 자연스럽게 연결되고요.

무엇보다 한 번의 수업으로 가르칠 수 있다는 게 큰 장점이죠. 벤 레흐트 교수의 강화학습 서베이 논문은 27페이지에서 809단어로 줄어들었다고 해요. 경험을 통해 배운 결과라고 하더라구요. 복잡한 걸 간단하게 만드는 게 진짜 실력이잖아요.

실제로 스탠퍼드 대학이나 MIT 같은 주요 대학들에서도 강화학습 커리큘럼을 점점 더 실용적이고 이해하기 쉬운 방향으로 개편하고 있어요. 시장조사 자료에 따르면 2024년 기준 전 세계 AI 교육 시장이 약 50억 달러 규모로 성장했다고 하니, 이런 접근 방식이 얼마나 필요한지 알 수 있죠.

결국 강화학습의 본질은

복잡한 수식과 이론에 가려져 있던 강화학습의 본질은 사실 놀랍도록 단순해요. 평가받고, 점수 받고, 개선하는 것. 이 세 단계의 반복이 전부예요.

개혁적 강화학습은 여기에 생성 모델의 강력함을 더했고, 그 결과 우리가 매일 사용하는 ChatGPT나 Claude 같은 놀라운 AI 서비스들이 탄생한 거죠. 앞으로도 이 기술은 더욱 발전해서 우리 삶의 더 많은 영역에서 활용될 거예요.

어렵게만 느껴졌던 강화학습이 이렇게 명쾌하게 정리되니, 이제 더 많은 사람들이 이 기술에 접근할 수 있을 것 같아요. 기술의 진짜 가치는 결국 얼마나 많은 사람이 이해하고 활용할 수 있느냐에 달려 있으니까요.

300x250
반응형