본문 바로가기
IT/AI

🤖 Qwen3.6이 왔다! 오픈소스 AI가 Claude를 이긴다고?

by DrKo83 2026. 5. 23.
300x250
반응형

"3B가 30B를 이긴다"는 말, 처음엔 낚시인 줄 알았어요

솔직히 말하면, 저도 처음에 이 말을 보고 그냥 지나쳤어요. "오픈소스가 클로드를 이긴다고? 또 마케팅이겠지." 그런데 막상 파고들어 보니 이건 그냥 과장이 아니었습니다.

2026년 4월, 중국 알리바바의 Qwen 팀이 Qwen3.6을 연달아 공개했어요. 4월 2일에 Qwen3.6-Plus, 4월 16일에 오픈소스 버전인 35B-A3B, 4월 20일에는 Max-Preview까지. 한 달도 안 되는 사이에 세 개를 쏟아냈는데, 그 숫자들이 심상치 않았습니다. AI 커뮤니티가 들썩인 이유가 있었어요.

오늘은 Qwen3.6이 정확히 무엇이고, 왜 개발자들이 흥분하고 있는지, 그리고 이게 우리한테 실제로 어떤 의미인지 솔직하게 풀어드릴게요.

알리바바 Qwen, 사실 꽤 오래됐어요

Qwen 시리즈는 2023년부터 시작됐습니다. 처음 나왔을 때는 솔직히 "중국산 오픈소스 모델 하나 더 나왔네" 정도의 반응이었어요. 그런데 Qwen2, Qwen2.5, Qwen3로 올라오면서 분위기가 완전히 달라졌습니다.

Qwen3.5 기준으로 허깅페이스 누적 다운로드가 10억 회를 돌파했고, 파생 모델 수도 20만 개가 넘었어요. 메타의 Llama 시리즈를 넘어선 수치입니다. 이게 얼마나 대단한 숫자냐면, Llama는 전 세계 개발자들이 기본 베이스로 쓰는 오픈소스 LLM의 대명사거든요. 그걸 다운로드 수에서 추월했다는 건 커뮤니티 신뢰도가 그만큼 쌓였다는 뜻이에요.

"3B만 깨워서 30B를 이긴다"는 게 어떻게 가능한가

여기서 핵심이 MoE(Mixture of Experts) 구조예요. 이름이 어렵게 들리는데 개념은 간단합니다.

Qwen3.6-35B-A3B라는 이름을 보면 35B는 전체 파라미터가 350억 개, A3B는 실제 추론할 때 활성화되는 파라미터가 30억 개라는 뜻이에요. 전체 256개의 전문가 하위 네트워크 중에서 레이어당 딱 8개만 깨우는 방식입니다.

쉽게 비유하면 이렇습니다. 회사에 전문가 256명이 있는데, 매 업무마다 해당 분야 전문가 8명만 투입하는 거예요. 조직 전체 역량은 256명 분이지만, 실제로 일하는 사람은 8명이니 비용이 훨씬 저렴하겠죠. 덕분에 추론 비용이 기존 대형 모델 대비 약 90% 절감된다고 합니다.

여기에 하이브리드 어텐션 구조까지 더해졌어요. Gated DeltaNet(선형 어텐션)과 Gated Attention(전체 어텐션)을 3:1 패턴으로 교차하는 방식입니다. 선형 어텐션은 빠르지만 긴 문맥에서 약한 단점이 있는데, 전체 어텐션이 주기적으로 이를 보완해줘요. 속도와 정확도를 동시에 잡으려는 설계입니다.

벤치마크 숫자들이 심상치 않습니다

실제로 나온 수치들을 보면 단순히 흥미로운 수준을 넘어서요.

SWE-bench Verified에서 오픈소스 버전인 35B-A3B가 73.4%를 기록했습니다. 이 벤치마크는 실제 깃허브 이슈를 AI가 자율적으로 해결하는 능력을 재는데, 실제 버그 10개 중 7개 이상을 자동으로 수정할 수 있는 수준입니다. 클로즈드 버전인 Qwen3.6-Plus는 78.8%로 더 높은데, Claude Opus 4.6의 80.8%와 불과 2점 차이예요.

가격 비교가 더 충격적입니다. Claude Opus 4.6 대비 입력 비용이 30분의 1 수준이라는 분석도 나왔어요. 성능은 2점 차이인데 가격은 30배 차이라면, 비용 민감한 팀 입장에서는 진지하게 고민할 수밖에 없겠죠.

Terminal-Bench 2.0에서는 Qwen3.6-Plus가 61.6%로 Claude Opus 4.6(59.3%)을 실제로 앞섰습니다. 프론트엔드 코드 생성 벤치마크인 QwenWebBench에서는 Max-Preview가 ELO 1558점을 기록했는데, Claude Opus 4.5의 1182점과 비교하면 격차가 상당합니다.

다만 이 수치들 중 상당 부분이 알리바바 자체 발표이거나 아직 독립 검증이 충분하지 않은 점은 감안해야 해요. 실제 커뮤니티 체감 성능과 벤치마크 사이의 간극은 언제나 존재합니다.

개발자들이 진짜 흥분하는 이유, 벤치마크가 아닙니다

벤치마크보다 더 중요한 이야기가 있어요.

첫째, 로컬 실행이 됩니다. Q4 양자화 버전 기준으로 약 21GB라서 맥북 프로 M5에서도 돌릴 수 있어요. 커뮤니티 테스트에서는 M2 Max 맥북에서 활성 파라미터가 3B라 초당 30토큰 이상의 속도가 나온다는 결과도 있었습니다. 클라우드 API 비용 걱정 없이 내 컴퓨터에서 프론티어급 모델을 돌릴 수 있다는 건 정말 의미 있는 변화예요.

둘째, 기존 툴과 그대로 호환됩니다. OpenAI, Anthropic API 규격을 모두 지원해서 Claude Code, Cline 같은 코딩 도구들과 바로 연결돼요. 코드 두 줄만 바꾸면 모델만 교체할 수 있습니다. 기존 워크플로를 유지하면서 비용만 줄이는 전략이 가능해진 거죠.

셋째, 컨텍스트 윈도우가 어마어마해요. 기본 262,144 토큰에 최대 100만 토큰까지 확장 가능합니다. 수백 개 파일로 구성된 모노레포 전체를 한 번에 넣고 분석하는 게 가능한 수준이에요. 대규모 레거시 코드 리팩토링이나 긴 문서 기반 코드 생성 워크플로에서는 경쟁자가 없다는 평가도 나오고 있습니다.

넷째, 'preserve_thinking' 기능이 있어요. 대화 히스토리에서 이전 추론 맥락을 유지하는 기능인데, 반복적인 개발 과정에서 모델이 이전 생각의 흐름을 기억하고 이어갑니다. 코딩 에이전트로 쓸 때 특히 유용해요.

한국 개발자, 스타트업 입장에서 이게 뭘 의미하는가

핀테크, 헬스케어, 법무 쪽 코드를 다루는 팀이라면 오픈소스 모델의 장점이 특히 크게 다가옵니다. 민감한 코드를 외부 API에 올리지 않고 로컬이나 프라이빗 서버에서 돌릴 수 있으니까요. 실제로 "OpenAI API 쓰자니 보안 때문에 못 올리는 데이터가 있어서 고민"이라는 목소리는 개발자 커뮤니티에서 꾸준히 나오는 얘기입니다.

비용 전략도 달라질 수 있어요. 비용 민감한 배치 작업이나 코드 리뷰에는 Qwen3.6 오픈소스를 로컬로 돌리고, 더 정교한 판단이 필요한 최종 의사결정이나 복잡한 설계에는 Claude나 GPT를 쓰는 혼합 전략이 가능해졌습니다. AI 도구 비용이 더 이상 스타트업의 진입 장벽이 되지 않는 시대가 오고 있는 거예요.

한국어 성능도 주목할 만합니다. 커뮤니티 테스트에 따르면 한국어 문장 자연스러움이 GPT-4o 수준에 근접한다는 평이 있어요. 아시아권 언어에서는 Llama 계열보다 Qwen 시리즈가 훨씬 자연스럽다는 의견이 지배적이라고 합니다.

알리바바의 투트랙 전략, 앞으로는 어떻게 될까

흥미로운 건 알리바바가 오픈소스와 클로즈드 모델을 동시에 굴리는 전략을 쓴다는 점이에요. 오픈소스 소형 모델로 개발자 커뮤니티에서 인지도를 쌓고, 대형 클로즈드 모델로 엔터프라이즈 수익을 만드는 구조입니다.

실제로 Bloomberg 보도에 따르면 알리바바는 5년간 AI 매출 1,000억 달러를 목표로 하고 있어요. 바이트댄스와의 클라우드 사업 경쟁이 격화되는 상황에서 오픈소스 전략만으로는 목표를 달성하기 어렵다고 판단한 것으로 보입니다. Qwen3.6-Plus는 자체 챗봇 앱과 엔터프라이즈 AI 서비스 "Wukong"에 통합될 예정이에요.

주의할 부분도 있습니다. Qwen 팀의 핵심 개발자가 2026년 3월에 사임했고, 내부 조직 개편 관련 불안 요소가 있다는 이야기도 나왔어요. 좋은 모델이 지속적으로 업데이트되고 지원받으려면 팀의 안정성이 중요한데, 이 부분은 계속 지켜볼 필요가 있습니다.

중국 기업의 오픈소스 모델이라는 점에서 데이터 프라이버시와 지정학적 리스크를 고려하는 팀도 있을 거예요. 무료 API 사용 기간에 입력된 데이터가 모델 개선에 쓰일 수 있다는 점도 민감한 정보를 다루는 팀이라면 꼭 확인해야 하는 부분입니다.

오픈소스의 반격은 계속된다

DeepSeek이 2025년 초 "오픈소스도 GPT-4와 경쟁한다"는 걸 증명했고, Qwen이 그 흐름을 이어가고 있어요. MoE 구조에 하이브리드 어텐션까지 더한 이 아키텍처 조합은 2026년 효율 AI의 새로운 표준이 되어가고 있습니다.

AI 모델 선택의 기준이 "얼마나 강력한가"에서 "얼마나 효율적인가, 그리고 어디서 실행할 수 있는가"로 이동하고 있어요. 1년 전만 해도 프론티어급 코딩 성능은 월 구독비를 내거나 비싼 API 비용을 써야만 누릴 수 있었는데, 이제는 내 맥북에서 돌리는 선택지가 생긴 겁니다.

코딩 에이전트나 비전 언어 작업에 관심 있는 분이라면 Qwen3.6-35B-A3B를 허깅페이스에서 받아서 한 번 직접 돌려보세요. 오픈소스 AI의 수준이 어디까지 왔는지 체감하는 가장 빠른 방법입니다.

마무리

Qwen3.6은 "더 적은 자원으로 더 많이"라는 방향을 가장 명확하게 구현한 모델 중 하나예요. 35B 전체 파라미터 중 3B만 활성화해서 30B짜리 모델을 이기고, 로컬 실행이 가능하고, Apache 2.0 라이선스로 상업적 활용도 자유롭습니다. 클로즈드 버전인 Qwen3.6-Plus는 Claude Opus 4.6과 불과 2점 차이의 코딩 성능을 30분의 1 가격에 제공하고 있어요.

AI 도구 선택의 기준이 달라지고 있습니다. 최고 성능 하나를 비싸게 쓰는 시대에서, 용도에 맞게 조합해서 효율적으로 쓰는 시대로 넘어가고 있어요. 지금이 바로 자신의 AI 도구 스택을 점검할 타이밍입니다.

300x250
반응형