🤖 AI가 인간의 92%만 못하다고? 그걸 뒤집은 마누스의 비밀

안녕하세요! 오늘은 최근 AI 업계를 완전히 뒤흔들고 있는 마누스라는 AI 에이전트에 대해 이야기해보려고 해요.

여러분은 GAIA 벤치마크라고 들어보셨나요? AI 에이전트들의 실력을 측정하는 일종의 수능 같은 건데요. 놀랍게도 인간은 92%의 점수를 받는 반면, GPT-4는 고작 15%밖에 못 받았다고 해요. 그런데 마누스는 레벨 1에서 86.5%, 레벨 2에서 70.1%, 레벨 3에서는 57.7%라는 놀라운 점수를 기록했답니다.

도대체 어떻게 이런 일이 가능했을까요? 오늘은 마누스 개발팀이 직접 공개한 비하인드 스토리를 통해 그 비밀을 파헤쳐보려고 해요.

📊 마누스, 도대체 어떤 회사가 만들었을까?

마누스는 중국 우한에 본사를 둔 스타트업 버터플라이 이펙트가 2022년에 설립해 개발한 범용 AI 에이전트예요. 2025년 3월 6일 정식으로 출시됐는데, 출시 전부터 엄청난 화제를 모았죠.

특히 공동 창업자인 샤오훙 대표와 지이차오 수석 과학자가 모두 1990년대 초반생 청년이라는 점이 더욱 놀라워요.

마누스는 2025년 4월 미국 벤치마크 캐피털이 주도한 시리즈 B 투자 라운드에서 약 1,080억 원 규모의 투자를 유치했어요. 이로써 기업 가치가 약 7,200억 원으로 평가받았죠. 텐센트와 홍산 캐피털, 젠펀드 등이 기존 투자자로 참여했고요.

출시 초기 초대 코드가 있어야만 사용할 수 있었는데, 중국 리셀 전문 애플리케이션에서는 초대 코드가 약 1,000만 원에서 2,000만 원에 거래될 정도로 인기가 폭발했어요. 허깅페이스의 제품 총괄 빅터 무스타르는 "마누스는 이제껏 사용해 본 AI 도구 중 가장 인상적"이라며 극찬했답니다.

🎯 새로 만들까, 기존 걸 활용할까? - 첫 번째 선택

마누스 팀이 처음 마주한 고민은 우리 개발자들이라면 누구나 한 번쯤 해봤을 그 고민이었어요.

"새로 모델을 훈련시킬까, 아니면 기존의 좋은 모델을 잘 활용해볼까?"

솔직히 BERT 시절만 해도, 벌써 7년 전이네요! 새로운 작업을 위해서는 반드시 파인튜닝을 해야 했고, 이 과정은 몇 주씩 걸렸어요. 제품 시장 궁합을 찾기도 바쁜 스타트업에게는 정말 치명적이었죠.

실제로 마누스 창립자도 이전 스타트업에서 처음부터 모델을 훈련시켰다가 GPT-3가 나오자마자 모든 게 무의미해진 쓰라린 경험이 있었다고 해요.

그래서 내린 결론이 바로 '컨텍스트 엔지니어링'이었어요.

몇 주가 아닌 몇 시간 만에 개선사항을 배포할 수 있고, 새로운 모델이 나와도 그 발전과 함께 성장할 수 있는 전략이죠. 실제로 마누스는 앤트로픽의 클로드 3.5 소네트를 기반으로 여러 도구를 적용해 멀티 에이전트 협업 구조를 만들어냈어요.

💾 KV-캐시: 보이지 않는 성능의 핵심

자, 여기서 정말 중요한 이야기가 나와요. 마누스 팀이 가장 중요하게 생각하는 지표가 바로 'KV-캐시 히트율'이에요.

일반적인 에이전트가 어떻게 작동하는지 생각해보세요. 사용자가 입력을 주면 에이전트가 도구를 사용하고, 그 결과를 관찰하고, 다시 다음 행동을 결정하는 이런 루프가 계속 반복되잖아요.

여기서 문제는 매번 컨텍스트가 길어지는데 출력은 짧다는 거예요. 마누스의 경우 평균 입력 대 출력 토큰 비율이 100:1 정도라고 해요.

그런데 클로드 소네트 기준으로 캐시된 입력 토큰은 100만 토큰당 약 400원인데, 캐시되지 않은 토큰은 4,000원이에요. 무려 10배 차이가 나죠!

그래서 발견한 황금 법칙들

프롬프트 접두사를 절대 건드리지 마세요

시스템 프롬프트 앞에 타임스탬프, 특히 초 단위 같은 걸 넣지 마세요. 단 하나의 토큰만 달라도 그 이후 모든 캐시가 날아가버려요.

컨텍스트는 추가 전용으로

이전 작업이나 관찰을 수정하지 마세요. JSON 직렬화할 때 키 순서가 바뀌지 않도록 주의해야 해요.

🎭 도구 관리의 철학: 마스킹하되 제거하지 마라

AI 에이전트가 발전할수록 사용할 수 있는 도구가 엄청 많아져요. 요즘 유행하는 MCP 같은 걸 도입하면 사용자들이 온갖 도구를 다 연결해버리죠.

자연스러운 생각은 "필요한 도구만 동적으로 로드하자!"인데요. 마누스는 이걸 강력하게 반대해요.

왜냐하면 도구 정의가 바뀌면 KV-캐시가 전부 날아가고, 이전에 사용한 도구가 갑자기 없어지면 모델이 완전히 혼란스러워하거든요.

대신 이들이 사용하는 방법은 '토큰 로짓 마스킹'이에요. 도구는 그대로 두고, 특정 상황에서 특정 도구를 사용할 수 없도록 디코딩 단계에서 막는 거죠.

예를 들어 마누스는 모든 브라우저 관련 도구를 browser_로, 명령줄 도구는 shell_로 시작하도록 명명 규칙을 만들었어요. 이렇게 하면 상황에 따라 특정 그룹의 도구만 선택하도록 쉽게 제한할 수 있거든요.

💾 파일 시스템 = 궁극의 컨텍스트

요즘 대규모 언어 모델들이 128K 토큰 이상의 긴 컨텍스트를 지원한다고 하지만, 실제로는 여전히 부족해요.

문제점들

웹페이지나 PDF 같은 관찰은 엄청 클 수 있어요. 컨텍스트가 길어지면 모델 성능이 떨어지고, 긴 입력은 비용이 많이 들죠.

그래서 많은 시스템들이 컨텍스트를 자르거나 압축하는데, 이건 정보 손실이 불가피해요. 10단계 후에 어떤 관찰이 중요해질지 누가 알겠어요?

마누스의 해답

마누스의 해답은 "파일 시스템을 최종적인 컨텍스트로 사용하기"예요.

크기 제한이 없고, 영속적이며, 에이전트가 직접 조작할 수 있죠. 모델은 필요에 따라 파일을 읽고 쓰는 법을 학습해요. 단순한 저장소가 아닌 구조화된 외부 메모리로 활용하는 거예요.

그리고 압축은 항상 복원 가능하게 설계했어요. URL이 보존되면 웹페이지 내용은 제외할 수 있고, 파일 경로가 있으면 내용을 생략할 수 있죠.

📝 할 일 목록의 숨은 의미

마누스를 써보신 분들은 아실 텐데요. 복잡한 작업을 할 때 todo.md 파일을 만들어서 계속 업데이트해요. 완료된 항목을 체크하면서요.

이게 그냥 귀여운 기능이 아니에요. 바로 '어텐션 조작'을 위한 의도적인 메커니즘이랍니다.

마누스의 평균적인 작업은 약 50개의 도구 호출이 필요해요. 이렇게 긴 루프에서는 모델이 중간에 길을 잃거나 원래 목표를 잊어버리기 쉽죠.

할 일 목록을 계속 다시 작성함으로써 자신의 목표를 컨텍스트 끝에 계속 암송하고 있는 거예요. 이렇게 해서 모델의 주의를 작업 목표로 편향시키는 거죠.

🚨 실패도 학습의 재료

가장 인상적인 인사이트 중 하나가 바로 이거였어요. "잘못된 것도 유지하세요."

에이전트는 실수를 해요. 그게 현실이고요. 자연스러운 반응은 이런 오류를 숨기거나 정리하는 건데, 마누스는 정반대로 접근해요.

실패를 지우면 증거가 제거되고, 증거 없이는 모델이 적응할 수 없다는 철학이죠.

모델이 실패한 행동과 그 결과를 볼 때 암묵적으로 내부 신념을 업데이트해요. 같은 실수를 반복할 확률을 낮추는 거죠.

실제로 오류 복구가 진정한 에이전트적 행동의 가장 명확한 지표라고 생각한다고 해요.

⚠️ 퓨샷 프롬프팅의 함정

마지막으로 재미있는 발견이 하나 더 있어요. 일반적으로 좋다고 알려진 '퓨샷 프롬프팅'이 에이전트에서는 오히려 해가 될 수 있다는 거예요.

언어 모델은 뛰어난 모방자라서 컨텍스트에 있는 패턴을 따라 하려고 해요. 비슷한 행동-관찰 쌍이 가득하면, 더 이상 최적이 아닐 때도 그 패턴을 계속 따라 하죠.

예를 들어 20개의 이력서를 검토할 때 에이전트가 리듬에 빠져서 단순히 컨텍스트에서 본 것처럼 유사한 행동을 반복하게 돼요. 이게 표류나 환각으로 이어질 수 있어요.

🎬 실제 세계에서의 성과는?

이런 원칙들을 바탕으로 만들어진 마누스는 실제로 어떤 성과를 보여주고 있을까요?

GAIA 벤치마크에서 모든 난이도 레벨에서 최고 수준 성능을 달성했고, GPT-4를 크게 앞서고 있어요. 인간이 92% 점수를 받는 GAIA 테스트에서 GPT-4는 15%에 그쳤지만, 마누스는 레벨 1에서 86.5%, 레벨 2에서 70.1%, 레벨 3에서 57.7%의 정확도를 달성했답니다.

MIT 테크놀로지 리뷰는 "매우 지능적이고 효율적인 인턴과 협업하는 느낌"이라고 평가했어요. 물론 아직 완벽하지는 않고, 때로는 데이터를 잘못 해석하거나 실행에서 실수를 하기도 해요.

마누스가 할 수 있는 일들

이력서 스크리닝과 인재 추천 리스트 작성, 여행 계획 수립, 주식 분석 대시보드 생성, 금융 리포트 분석, 웹사이트 제작, 데이터 처리 및 분석, 문서 변환, SEO 감사 보고서 생성 등 정말 다양한 작업을 수행할 수 있어요.

특히 주목할 점은 '마누스 컴퓨터' 창을 통해 마누스가 현재 무슨 작업을 하고 있는지 실시간으로 볼 수 있고, 필요하면 중간에 사용자가 개입해서 수정도 가능하다는 거예요.

🌏 마누스의 현재와 미래

하지만 마누스의 여정이 순탄하기만 한 건 아니에요.

2025년 8월, 버터플라이 이펙트는 중국 사업을 접고 본사를 싱가포르로 이전했어요. 핵심 개발 인력 40명을 제외한 직원 80여 명을 해고하는 대규모 구조조정도 단행했죠.

중국 정부가 AI 서비스를 무료로 개방하라고 압박하면서 수익화가 어려워졌고, 미국 재무부가 벤치마크의 투자에 대한 조사를 시작하면서 글로벌 확장에도 제동이 걸렸어요.

하지만 이런 어려움 속에서도 마누스는 2025년 5월 대기자 명단을 폐지하고 서비스를 전면 개방했어요. 모든 사용자는 하루 1개의 문제를 해결할 수 있는 300크레딧을 무료로 받을 수 있고, 오픈 기념으로 1,000크레딧을 추가로 지급했답니다.

유료 요금제는 월 약 27,000원, 56,000원, 285,000원 3가지로 운영되고 있어요.

💡 개발자들을 위한 인사이트

이 글을 읽는 여러분 중에도 AI 에이전트를 개발하고 계신 분들이 있을 텐데요. 마누스 팀의 경험에서 얻을 수 있는 핵심 교훈들을 정리해보면 이렇답니다.

속도가 생명이에요

몇 주가 아닌 몇 시간 내에 개선할 수 있는 방법을 선택하세요.

캐시 히트율을 최우선으로

비용과 성능 모두에 직결되거든요.

안정성이 유연성보다 중요해요

동적 변경보다는 마스킹으로 제어하세요.

실패를 숨기지 마세요

오류도 학습의 재료랍니다.

파일 시스템을 활용하세요

컨텍스트 한계를 우아하게 극복할 수 있어요.

✨ 마무리하며

AI 에이전트의 미래는 단순히 더 큰 모델에 있지 않아요. 똑똑한 컨텍스트 엔지니어링에 있는 것 같아요.

마누스가 보여준 건 결국 '어떻게 사용하느냐'가 '무엇을 가지고 있느냐'만큼 중요하다는 거예요. 기존의 강력한 모델을 영리하게 활용하고, 컨텍스트를 효율적으로 관리하며, 실패로부터 배우는 시스템을 만드는 것. 이것이 진짜 차이를 만들어내는 비결이었답니다.

여러분은 어떻게 생각하시나요? 현재 개발하고 계신 에이전트에 이런 원칙들을 적용해볼 계획이 있으신가요?

300x250

'IT > AI' 카테고리의 다른 글

🚀 팀워크의 시대가 열렸다, ChatGPT가 회사 전체의 동료가 된다는 것 (1)	2025.10.06
2025년, 정말 필요한 AI 도구는 왜 아직도 없을까요? 🤔 (0)	2025.10.06
구글의 AI가 2개월 만에 세계를 뒤흔든 비밀 (0)	2025.10.05
AI한테 월 3만원 내는데 왜 답답할까? 비밀은 이것이었습니다 (0)	2025.10.05
🤖 당신의 AI 활용 실력, 진짜 몇 점인가요? (2)	2025.09.26

고팀장의 일잘러 이야기

🤖 AI가 인간의 92%만 못하다고? 그걸 뒤집은 마누스의 비밀

📊 마누스, 도대체 어떤 회사가 만들었을까?

🎯 새로 만들까, 기존 걸 활용할까? - 첫 번째 선택

💾 KV-캐시: 보이지 않는 성능의 핵심

그래서 발견한 황금 법칙들

🎭 도구 관리의 철학: 마스킹하되 제거하지 마라

💾 파일 시스템 = 궁극의 컨텍스트

문제점들

마누스의 해답

📝 할 일 목록의 숨은 의미

🚨 실패도 학습의 재료

⚠️ 퓨샷 프롬프팅의 함정

🎬 실제 세계에서의 성과는?

마누스가 할 수 있는 일들

🌏 마누스의 현재와 미래

💡 개발자들을 위한 인사이트

✨ 마무리하며

'IT > AI' 카테고리의 다른 글

티스토리툴바

🤖 AI가 인간의 92%만 못하다고? 그걸 뒤집은 마누스의 비밀

📊 마누스, 도대체 어떤 회사가 만들었을까?

🎯 새로 만들까, 기존 걸 활용할까? - 첫 번째 선택

💾 KV-캐시: 보이지 않는 성능의 핵심

그래서 발견한 황금 법칙들

🎭 도구 관리의 철학: 마스킹하되 제거하지 마라

💾 파일 시스템 = 궁극의 컨텍스트

문제점들

마누스의 해답

📝 할 일 목록의 숨은 의미

🚨 실패도 학습의 재료

⚠️ 퓨샷 프롬프팅의 함정

🎬 실제 세계에서의 성과는?

마누스가 할 수 있는 일들

🌏 마누스의 현재와 미래

💡 개발자들을 위한 인사이트

✨ 마무리하며

'IT > AI' 카테고리의 다른 글

'IT/AI' Related Articles

티스토리툴바