본문 바로가기

IT/AI

🤖 AI 학습 비용 90% 절감! 작은 모델이 거대 AI를 이기는 놀라운 비결

 

왜 지금 '작은 AI'가 주목받고 있을까요?

요즘 AI 업계에서 정말 뜨거운 화제가 하나 있어요. 바로 '온-폴리시 디스틸레이션(On-Policy Distillation)'이라는 기술인데요. 이게 뭐냐고요? 쉽게 말하면, 작은 AI 모델이 큰 선생님 모델한테 배우는 방식인데 기존 방법보다 훨씬 효율적이라는 거예요!

사실 요즘 AI 모델들 보면 정말 거대하잖아요. GPT-4나 클로드 같은 모델들은 엄청난 컴퓨팅 파워를 요구하고, 그만큼 비용도 어마어마하죠. 2024년 기준으로 대규모 AI 모델 하나를 학습시키는 데 수백억 원이 들어간다고 해요. 하지만 실제로 우리가 일상에서 사용하려면 작고 가벼운 모델이 필요한 게 현실이에요.

작은 모델의 장점은 명확해요. 로컬에서 직접 돌릴 수 있어서 개인정보 보호가 가능하고, 계속 업데이트하기도 쉽고, 무엇보다 추론 비용이 훨씬 저렴하죠. 실제로 서울 판교와 강남에 있는 많은 스타트업들도 이런 이유로 작은 모델을 선호하고 있어요. 한국AI협회 보고서에 따르면 국내 AI 스타트업의 70% 이상이 클라우드 비용 부담을 가장 큰 애로사항으로 꼽는다고 하더라고요.

기존 AI 학습 방법은 왜 비효율적일까?

지금까지 AI를 학습시키는 방법은 크게 두 가지였어요.

첫 번째는 강화학습이에요. 학생 모델이 스스로 문제를 풀어보고, 정답이면 보상을 받는 방식이죠. 문제는 이게 너무 비효율적이라는 거예요. 수학 문제를 예로 들면, "21은 틀렸어"라는 피드백만 받지, 어디서 실수했는지는 못 배우는 거죠. 마치 체스를 배우는데 승패 결과만 알려주고 어떤 수가 좋았는지는 안 알려주는 것과 같아요. 이 방식으로 학습시키면 GPU 시간이 엄청나게 소모되는데, 최근 조사에 따르면 한국에서 GPU 시간당 비용이 미국보다 20~30% 비싸다고 해요.

두 번째는 오프-폴리시 디스틸레이션이에요. 선생님 모델이 푼 문제를 그대로 따라 배우는 건데, 문제가 있어요. 선생님은 실수를 안 하니까, 학생이 실수했을 때 어떻게 해야 할지 모르는 거죠. 초보 체스 선수가 그랜드마스터의 게임만 보고 배우는 격이에요. 실제 초보끼리 두면 전혀 다른 상황이 펼쳐지잖아요?

온-폴리시 디스틸레이션, 두 마리 토끼를 잡다

싱킹 머신즈(Thinking Machines)가 발표한 온-폴리시 디스틸레이션은 이 두 가지 방법의 장점만 쏙쏙 뽑았어요. 학생 모델이 직접 문제를 풀고, 선생님이 매 단계마다 점수를 매겨주는 거예요.

실제 사례를 볼까요? 큐웬3(Qwen3) 8B 모델을 수학 문제 풀이로 학습시킨 결과가 정말 놀라워요. AIME'24라는 어려운 수학 시험에서 60%에서 70%로 성적을 올리는 데 필요한 비용을 비교해봤어요.

기존 방식으로는 200만 개의 문제가 필요했어요. 강화학습은 17,920 GPU 시간이 들었고요. 그런데 온-폴리시 디스틸레이션은? 고작 1,800 GPU 시간만에 74.4%까지 올렸어요! 비용으로 따지면 9배에서 30배까지 절감된 셈이죠. 이 정도면 중소 스타트업도 충분히 감당할 수 있는 수준이에요.

더 재미있는 건, 큐웬 팀의 보고서에 따르면 기존 오프-폴리시 방식이 55%에 머물렀던 GPQA-Diamond 벤치마ーク에서도 온-폴리시 방식은 63.3%를 달성했다는 거예요. 성능도 더 좋고, 비용도 훨씬 저렴하니 일석이조죠.

실전 사례: 회사 내부 AI 비서 만들기

이론은 그렇다 치고, 실제로 어떻게 쓸 수 있을까요? 회사 내부 문서를 학습한 AI 비서를 만드는 사례를 볼게요.

일반적으로 AI에게 회사 내부 지식을 가르치면 기존에 배웠던 대화 능력이 망가져요. 마치 새로운 과목 공부하느라 이전에 잘하던 과목을 까먹는 것처럼요. IF-eval이라는 지시 따르기 평가에서 85%였던 성적이 45%까지 떨어지는 일도 흔해요.

하지만 온-폴리시 디스틸레이션을 쓰면 어떻게 될까요? 내부 문서 지식은 36%에서 41%로 올리면서, 대화 능력도 79%에서 83%로 회복시킬 수 있었어요. 두 마리 토끼를 다 잡은 거죠! 이게 왜 중요하냐면, 네이버나 카카오 같은 대기업뿐 아니라 작은 스타트업들도 자체 AI를 만들 수 있게 되는 거거든요.

효율성의 비밀은 무엇일까?

비밀은 바로 피드백의 밀도에 있어요. 강화학습은 한 에피소드당 O(1) 비트의 정보만 가르쳐주지만, 디스틸레이션은 O(N) 비트를 가르쳐줘요. 여기서 N은 토큰의 개수예요. 쉽게 말하면, 강화학습이 "틀렸어"라고만 말한다면, 디스틸레이션은 "이 단계에서 이렇게 하는 게 더 좋아"라고 매 단계마다 알려주는 거죠.

실험 결과를 보면 더 명확해요. 같은 초기 상태에서 시작했을 때, 온-폴리시 디스틸레이션은 강화학습보다 7~10배 빠르게 학습했어요. 컴퓨팅 효율로 따지면 50~100배 차이가 나는 거죠!

더 놀라운 건 데이터 효율성이에요. 단 하나의 수학 문제만으로도 선생님 모델의 성능을 거의 복제할 수 있었어요. 같은 문제를 5,120번 다른 방식으로 풀어보면서 배우는 거죠. 강화학습으로는 불가능한 일이에요. 최근 조사에 따르면 이런 데이터 효율성 덕분에 학습 데이터 수집 비용까지 90% 이상 줄어든다고 하더라고요.

지속적 학습, 이제 현실이 되다

AI를 실전에 배치하면 계속 업데이트해야 하잖아요? 새로운 정보를 배우면서도 기존 능력을 잃지 않아야 하는데, 이게 정말 어려운 문제예요.

연구팀은 흥미로운 실험을 했어요. 큐웬3-32B 모델이 자기 자신의 샘플로 학습하면 어떻게 될까요? 놀랍게도 성능이 떨어졌어요! 이론적으로는 KL 발산이 0이어야 하는데, 실제로는 배치마다 약간씩 다른 분포를 보이면서 점점 원래 성능에서 멀어진 거죠.

하지만 온-폴리시 디스틸레이션은 항상 선생님 모델에 수렴하면서 안정적으로 학습해요. 이게 바로 지속적 학습에 유용한 이유예요. 보안이 중요한 금융권이나 의료 분야에서는 이미 이런 기술에 관심을 보이고 있다고 해요.

한국 AI 생태계에 주는 기회

한국은 AI 인프라 비용이 상대적으로 높은 편이에요. 클라우드 GPU 시간당 비용만 봐도 미국보다 20~30% 비싸죠. 이런 상황에서 학습 비용을 90% 가까이 줄일 수 있다면 정말 큰 차이를 만들 수 있어요.

특히 네이버나 카카오 같은 대기업뿐 아니라, 판교와 강남의 스타트업들에게도 희소식이에요. 제한된 예산으로도 특화된 AI 모델을 만들 수 있게 되는 거니까요. 2024년 한국 AI 시장 규모가 약 15조 원을 넘었다는 통계가 있는데, 이런 기술이 보급되면 더 많은 기업들이 AI를 도입할 수 있을 거예요.

실제로 싱킹 머신즈의 Tinker API를 사용하면 누구나 이 기술을 쉽게 적용할 수 있어요. 코드도 공개되어 있고, 쿡북 형태로 단계별 가이드까지 제공하고 있어요.

지금 바로 시작할 수 있는 실전 팁

그렇다면 여러분이 당장 이 기술을 활용하려면 어떻게 해야 할까요?

먼저 명확한 목표를 설정하세요. 수학 문제 풀이처럼 정답이 명확한 작업일수록 효과가 좋아요. 고객 응대, 코드 작성, 문서 요약 같은 작업도 좋은 후보예요.

다음으로 좋은 선생님 모델을 찾으세요. 꼭 가장 큰 모델일 필요는 없어요. 해당 작업을 잘 수행하는 모델이면 충분해요. 큐웬3-32B나 클로드 소네트 같은 오픈 웨이트 모델도 훌륭한 선택이에요.

마지막으로 작게 시작해서 점진적으로 확장하세요. 처음부터 큰 데이터셋으로 시작하지 말고, 100~200개 정도의 대표적인 예제로 시작해보세요. 온-폴리시 디스틸레이션은 데이터 효율이 좋아서 작은 데이터로도 충분히 학습할 수 있어요.

온-폴리시 디스틸레이션은 단순히 비용을 절감하는 기술이 아니에요. AI를 더 많은 사람들이, 더 다양한 목적으로 사용할 수 있게 만드는 핵심 기술이죠. 싱킹 머신즈가 공개한 이 연구는 학계와 산업계 모두에게 큰 영향을 미칠 거예요. 특히 한국처럼 AI 인프라 비용이 높은 환경에서는 더욱 가치가 크고요. 앞으로 여러분의 회사나 프로젝트에서도 이 기술을 활용해보시길 바라요. 작은 모델로도 큰 임팩트를 만들 수 있다는 걸 직접 경험하실 수 있을 거예요!

 

300x250
반응형