
ChatGPT 없이도 AI가 돌아간다고요?
솔직히 저도 처음엔 믿기 어려웠어요. 스마트폰에서 AI 돌린다는 게 그냥 마케팅 멘트 아닌가 싶었거든요.
근데 요즘 실제로 써보면 진짜 다르더라고요. 인터넷 없이도, 클라우드 서버 거치지 않고도, 내 폰 안에서 바로 AI 응답이 나와요. 그것도 꽤 빠르고 자연스럽게요.
이걸 '온디바이스 AI'라고 부르는데요. 지금 AI 업계에서 가장 뜨거운 키워드 중 하나가 됐어요. 왜 이렇게 주목받는 건지, 그리고 우리 일상에 어떤 변화를 가져올지 오늘 제대로 짚어볼게요.
온디바이스 AI, 도대체 뭔가요?
쉽게 말하면 이래요. 기존 ChatGPT나 Claude 같은 AI는 질문을 입력하면 그게 인터넷 너머 서버로 날아가서 거기서 처리되고 결과가 돌아와요. 이 왕복에 200~500밀리초가 걸리는데, 체감상으론 짧아 보여도 실시간 번역이나 AR 오버레이 같은 서비스엔 치명적이에요.
온디바이스 AI는 그 모든 과정을 내 스마트폰 안에서 끝내요. 서버 없이, 인터넷 없이요. 짧은 문맥에서 토큰당 20밀리초 이하로 처리가 가능하니까 체감 속도가 완전히 달라지죠.
삼일PwC경영연구원은 이걸 인터넷 보급, 스마트폰 대중화에 이은 제3의 IT 혁명이라고 표현했어요. 과장이 아닌 게, 기술이 다시 한번 우리 손 안으로 들어오는 구조적인 변화거든요.
3년 만에 이게 가능해진 이유
2022년만 해도 스마트폰에서 언어 모델 돌리는 건 그냥 장난감 수준이었어요. 일관된 텍스트를 생성하려면 최소 70억 개 파라미터가 필요하다는 게 업계 상식이었고, 폰 안에 그걸 다 구겨 넣는 건 불가능에 가까웠죠.
근데 지금은요? 10억 개 미만 모델도 실용적인 작업을 처리해요. 심지어 1억 2,500만 개짜리가 아이폰에서 초당 50토큰 속도로 돌아가면서 기본 작업을 꽤 잘 처리하더라고요.
이게 가능해진 건 칩이 빨라진 것도 있지만, 모델을 만들고 압축하는 방식 자체를 완전히 바꿨기 때문이에요. 아키텍처, 학습 방법론, 데이터 품질 세 가지가 동시에 진화했거든요.
요즘 플래그십 스마트폰 칩 성능이 어느 정도냐면요. 애플 A19 프로 뉴럴 엔진이 약 35 TOPS, 퀄컴 스냅드래곤 8 엘리트 5세대가 약 60 TOPS예요. 참고로 2017년 데이터센터용 V100 GPU가 125 TOPS였으니, 손안에 든 기기가 거의 그 수준에 근접한 거예요.
사람들이 잘 모르는 것 — 메모리 대역폭이 진짜 문제
그런데 여기서 많이들 착각하는 게 있어요. TOPS 숫자가 높으면 다 된다고 생각하거든요. 근데 실제론 메모리 대역폭이 훨씬 중요해요.
모바일 기기의 메모리 대역폭은 50~90GB/s인데, 데이터센터 GPU는 2~3TB/s예요. 30~50배 차이가 나죠. LLM 추론은 토큰 하나 생성할 때마다 전체 모델 가중치를 메모리에서 불러와야 하거든요. 그래서 아무리 연산 유닛이 많아도 메모리 기다리느라 노는 거예요.
그래서 양자화가 중요한 거예요. 16비트로 학습한 모델을 4비트로 압축하면 단순히 용량이 4분의 1이 되는 게 아니라, 토큰 생성할 때 메모리에서 읽어오는 양이 4분의 1로 줄어요. 이게 처리 속도로 바로 직결되죠.
지금은 4비트 양자화가 사실상 표준이 됐어요. 학습은 16비트로, 배포는 4비트로 하는 방식인데 모델 품질의 대부분을 유지하면서 메모리를 4분의 1로 줄일 수 있거든요.
주요 빅테크는 이미 뛰어들었어요
글로벌 AI 연구소들도 온디바이스 방향으로 빠르게 수렴하고 있어요.
메타의 Llama 3.2는 10억, 30억 파라미터 크기로 출시됐고 퀄컴, 미디어텍 최적화가 기본으로 들어갔어요. 구글 Gemma 3은 2억 7천만부터 시작하는데 작은 사이즈에서 극도로 효율적이에요. 마이크로소프트 Phi-4는 38억짜리 미니 버전이 수학에서 o1-mini급 추론 성능을 냈고요. 알리바바 Qwen2.5는 5억, 15억 크기로 다국어 커버리지가 강력해요.
삼성은 갤럭시S26에 1초 만에 이미지를 생성하는 엣지퓨전 기술을 온디바이스 AI로 탑재할 예정이고, 빅스비를 퍼플렉시티와 연동해 대화형 AI 에이전트로 업그레이드 중이에요. 애플도 자체 파운데이션 모델을 구글 제미나이로 고도화하는 작업을 진행 중이고요.
시장 규모도 무섭게 커지고 있어요. 글로벌 온디바이스 AI 시장은 연평균 약 28%씩 성장해서 2031년에는 167조 원 규모에 달할 것으로 예측되고 있어요. 2025년 말에는 새로 출시되는 스마트폰의 30% 이상이 생성형 AI를 지원할 거라는 전망도 나왔고요.
작은 모델도 진짜 생각할 수 있을까요?
온디바이스 AI의 가장 흥미로운 논쟁 중 하나가 이거예요. "작은 모델이 과연 추론을 할 수 있냐"는 거죠.
초기엔 부정적인 시선이 많았어요. 복잡한 다단계 문제는 큰 모델만 풀 수 있다는 상식이 있었거든요.
근데 최근 결과들이 이 상식을 뒤집고 있어요. DeepSeek-R1 증류 방식으로 만든 8억 파라미터 모델이 수학 벤치마크에서 훨씬 큰 베이스 모델들을 뛰어넘었고, Qwen3-4B가 추론 작업에서 Qwen2.5-72B-Instruct급 성능을 냈어요. 파라미터가 18분의 1인데도요.
핵심은 이래요. 추론 능력은 순전히 파라미터 개수의 함수가 아니라는 거예요. 강한 추론 모델에서 사고 과정 데이터를 뽑아 작은 모델을 파인튜닝하는 증류 방식, 그리고 강화학습 기반 후처리가 결합되면 작은 모델도 놀라운 추론 능력을 발휘해요.
더 역설적인 발견도 있어요. 허깅페이스 연구에 따르면, Llama 3.2 1B짜리가 추론 시간에 더 많은 계산을 쓰면 8B 모델을 뛰어넘는다는 거예요. 3B가 70B를 능가하기도 하고요. 더 오래 생각하는 1B 모델이 즉시 답하는 7B를 이길 수 있다는 말이에요. 모델 크기의 천장이 파라미터 수가 암시하는 것보다 훨씬 높을 수도 있다는 거죠.
온디바이스 AI가 바꿀 세 가지 미래
이 기술이 본격화되면 어떤 변화가 올지, 지금 업계에서 가장 주목받는 방향 세 가지를 짚어볼게요.
첫 번째는 개인화예요. 지금 AI 개인화는 대부분 클라우드에서 이뤄지는데, 데이터가 서버로 올라가야 하죠. 온디바이스 파인튜닝이 가능해지면 내 글쓰기 스타일, 선호도, 전문 어휘를 클라우드 없이 내 기기 안에서만 학습할 수 있어요. 데이터가 절대 바깥으로 안 나가는 개인화죠.
두 번째는 건강·금융 데이터 처리예요. 가장 민감한 정보인데, 클라우드로 올리기엔 찜찜하잖아요. 온디바이스면 이 고민이 사라져요. 이미 일부 헬스케어 영역에선 규제 요건이 되고 있어요.
세 번째는 상시 가용성이에요. 인터넷이 없어도, 심지어 비행기 안에서도 AI가 돌아가요. 자율주행차, 실시간 번역기, 오프라인 의료 보조 장비 같은 끊김 없이 작동해야 하는 분야에서 온디바이스 AI는 선택이 아닌 필수예요.
실제 쓸 수 있는 도구들은 어디 있냐고요?
막 시작하려는 분들에게 실용적인 팁을 드리자면요.
지금 당장 온디바이스 AI를 직접 체험해보려면 허깅페이스에서 GGUF 포맷의 Llama 3.2나 Gemma 3 모델을 받아서 llama.cpp로 돌려보는 게 가장 간단해요. 별도 GPU 없이 노트북에서도 돼요.
프로덕션 모바일 앱 개발이 목표라면 메타의 ExecuTorch가 현재 가장 안정적인 선택이에요. 2025년 10월에 1.0 GA를 찍었고, 인스타그램·왓츠앱·메신저 전체에서 이미 수십억 사용자에게 서비스하고 있어요.
맥 사용자라면 애플의 MLX가 편해요. 애플 실리콘 통합 메모리를 최대한 활용해서 꽤 좋은 성능을 보여주거든요.
한 가지 팁을 드리자면, 에뮬레이터나 시뮬레이터는 성능이 정확하지 않아요. 반드시 실제 하드웨어에서 일찍 프로파일링 해보세요.
마무리
AI가 클라우드에서 내 손안으로 들어오는 건 단순한 기술 진화가 아니에요. 어디서나 쓸 수 있고, 내 데이터가 밖으로 안 나가고, 인터넷 없이도 돌아가는 AI의 시대가 지금 열리고 있는 거예요.
2028년이면 전체 스마트폰 시장의 60%가 AI를 탑재할 것으로 전망돼요. 우리가 쥐고 있는 이 작은 기기가, 조용히 세상을 바꾸고 있는 거죠.
내 스마트폰이 이미 그 미래를 품고 있다는 거, 이제 조금 실감이 되시나요?
'IT > AI' 카테고리의 다른 글
| AI 프로토타이핑, 이제 기획서 대신 작동하는 제품을 만드는 시대 (0) | 2026.03.10 |
|---|---|
| 🤖 AI 제품, 왜 70%만 완성해도 출시하는 걸까? (0) | 2026.03.09 |
| Claude Code가 회의를 사랑하게 만든 이유 (0) | 2026.03.06 |
| 🎯 제미나이 P&E 패턴, AI가 스스로 계획 세우는 프롬프트 비법 (0) | 2026.03.06 |
| MCP는 잊어라, 진짜 고수는 CLI로 LLM을 부린다 (0) | 2026.03.06 |