본문 바로가기

IT/AI

📱 2026년, AI가 스마트폰 안으로 들어왔다

300x250
반응형

클라우드 밖으로 나온 AI, 그 진짜 이유

AI 하면 보통 ChatGPT나 Claude 같은 클라우드 서비스를 먼저 떠올리시죠? 저도 그랬어요. 근데 요즘 조용히, 하지만 꽤 빠르게 일어나고 있는 변화가 있어요. AI 모델이 아예 여러분의 스마트폰 안으로 직접 들어오기 시작했다는 거예요.

3년 전만 해도 스마트폰에서 언어 모델을 돌린다는 건 그냥 데모용 장난감 수준이었어요. 근데 지금은 어떨까요? 10억 개가 넘는 파라미터를 가진 모델이 플래그십 스마트폰에서 실시간으로 돌아가고 있어요. 이게 가능해진 건 단순히 칩이 빨라져서가 아니에요. 모델을 만들고, 압축하고, 배포하는 방식 자체를 완전히 다시 생각했기 때문이에요.

시장도 이 변화를 숫자로 증명하고 있어요. 가트너에 따르면 2025년 전 세계 AI 스마트폰 관련 최종 사용자 지출이 약 2,982억 달러에 달할 것으로 전망됐고, 2026년엔 약 3,933억 달러로 32% 가량 더 성장할 것으로 보여요. IDC도 비슷한 흐름을 예측했는데, 2025년 GenAI 스마트폰 출하량이 전년 대비 73% 이상 증가할 거라고 했어요. 이제 온디바이스 AI는 특정 기업의 이야기가 아닌, 전 산업의 흐름이 됐어요.


굳이 스마트폰 안에서? 온디바이스 AI의 4가지 이유

온디바이스 AI가 주목받는 이유는 크게 네 가지예요.

첫째는 속도예요. 클라우드 왕복 시간만 200~500밀리초가 걸리는데, AR 오버레이나 실시간 번역, 음성 비서 같은 서비스에선 이 지연이 치명적이에요. 반면 온디바이스는 짧은 문맥에서 토큰당 20밀리초 이하로 생성할 수 있어요. 체감상 차이가 꽤 커요.

둘째는 프라이버시예요. 기기 밖으로 나가지 않는 데이터는 전송 중 유출되거나 서버 로그에 남을 일이 없어요. 건강 데이터, 금융 정보, 개인적인 대화를 다룰 땐 이게 정말 중요하죠. 실제로 일부 국가나 산업에선 이미 규제 요구사항으로 자리 잡기 시작했어요.

셋째는 비용이에요. 대규모 클라우드 추론은 쿼리 하나하나가 돈이거든요. 온디바이스는 그 비용을 사용자가 이미 가지고 있는 하드웨어로 전환시켜요. 대용량 애플리케이션에선 경제성이 확실히 매력적이에요.

넷째는 가용성이에요. 온디바이스 AI는 인터넷 연결 없이도 항상 사용 가능해요. 지하철, 비행기, 해외 로밍 중에도 그냥 돌아가는 거죠.


생각보다 훨씬 강해진 모바일 칩

흔히들 엣지 디바이스는 컴퓨팅 파워가 부족하다고 생각하시는데요, 사실 그렇지 않아요. 요즘 모바일 NPU들은 진짜 대단해요. 2017년 데이터센터 GPU 수준에 꽤 가까워졌거든요.

애플 A19 프로 뉴럴 엔진은 약 35 TOPS, 퀄컴 스냅드래곤 8 엘리트 5세대는 약 60 TOPS, 미디어텍 디멘시티 9400+는 약 50 TOPS예요. 참고로 2017년 V100 GPU가 125 TOPS였으니, 생각보다 많이 따라잡은 거죠. 가트너도 2027년이면 프리미엄 GenAI 스마트폰에서 NPU 성능이 40 TOPS 이상이 표준이 될 것으로 예측하고 있어요.

다만 TOPS 숫자만으론 전체 이야기를 알 수 없어요. 진짜 문제는 메모리 대역폭이에요. 모바일 기기는 50~90기가바이트 수준인데, 데이터센터 GPU는 2~3테라바이트예요. 30~50배 차이가 나는 거죠. LLM 추론에서 이 격차가 결정적인 이유는, 디코딩이 메모리 바운드 작업이라서 토큰 하나 생성할 때마다 전체 모델 가중치를 로드해야 하기 때문이에요.

그래서 모델 압축이나 멀티 토큰 예측 기법이 모바일에서 엄청난 효과를 내는 거예요. 16비트에서 4비트로 가는 건 단순히 용량이 4분의 1이 되는 게 아니에요. 토큰당 메모리 트래픽이 4분의 1이 되는 거고, 이게 바로 처리 속도로 직결되는 거죠.


작아도 너무 강한 모델들의 반란

가장 많이 받는 질문이에요. "언어 모델이 얼마나 작아질 수 있나요?" 이 답이 극적으로 바뀌었어요.

2022년엔 일관된 텍스트 생성을 하려면 최소 70억 개 파라미터가 필요하다는 게 상식이었어요. 근데 지금은 10억 개 미만 모델도 실용적인 작업들을 척척 처리해요. 저도 처음엔 놀랐어요.

메타의 Llama 3.2는 10억, 30억 크기로 출시됐고 128K 컨텍스트에 퀄컴·미디어텍 최적화까지 됐어요. 구글 Gemma 3은 2억 7천만부터 270억까지 다양한데 작은 사이즈에서 극도로 효율적이고요. 마이크로소프트 Phi-4는 38억 미니 버전이 수학 벤치마크에서 o1-mini급 추론 성능을 보여줬어요. 허깅페이스 SmolLLM2는 1억 3,500만부터 17억까지 범위인데 11조 개 학습 토큰으로 Llama 3.2 10억 모델을 능가해요. 알리바바 Qwen2.5는 5억, 15억 크기로 다국어 커버리지도 뛰어나요.

이 모델들의 공통점이 있어요. 데이터 품질과 학습 방법론이 아키텍처만큼, 아니 그보다 더 중요하다는 거예요. Phi-4는 고품질 합성 데이터셋을 쓰고, SmolLLM2는 특화된 수학·코드 데이터셋을 활용했어요. Gemma 3은 큰 모델에서 지식 증류를 해요.

실무적인 팁이에요. 요약, 간단한 Q&A, 텍스트 포맷팅, 기본 코드 지원 같은 많은 애플리케이션에선 10억 미만 모델로 충분해요. 큰 모델이 필요하다고 처음부터 가정하지 마시고, 작게 시작해서 필요할 때만 확장하세요.


작은 모델도 생각할 수 있을까 — 추론 능력의 진화

온디바이스 활용 사례 중 일부는 단순 패턴 매칭 이상이 필요해요. 개인 문서 분석, 건강 데이터 추론, 메시지 분류 같은 거요. 작은 모델이 실제로 이런 다단계 문제를 해결할 수 있을까요? 초기 증거는 긍정적이에요. 단, 조건부로요.

추론 모델에서의 증류가 잘 작동해요. DeepSeek-R1 증류는 15억부터 700억 파라미터까지 모델을 만들었는데 강력한 추론 능력을 유지했어요. 증류된 80억 모델이 훨씬 큰 베이스 모델들을 수학 벤치마크에서 뛰어넘기도 했고요.

Qwen3 작은 모델들도 비슷한 결과를 보여줬어요. Qwen3-4B가 추론 작업에서 Qwen2.5-72B급 성능을 냈고, Qwen3-30B-A3B MoE 모델은 30억만 활성화하면서도 QwQ-32B를 능가했어요. 활성 파라미터가 10분의 1인데도요.

이 결과들이 보여주는 건 추론이 순전히 파라미터 개수의 함수가 아니라는 거예요. 학습 방법론이 핵심이에요. 강한 추론 모델에서의 증류와 강화학습 기반 후처리가 작은 모델을 완전히 다른 수준으로 끌어올려요.

다만 한계는 분명히 있어요. 작은 모델은 긴 추론 체인, 새로운 문제 유형, 광범위한 세계 지식이 필요한 작업에선 아직 어려워해요. 어떤 작업을 로컬에서 처리하고 어떤 걸 클라우드로 보낼지 신중하게 설계해야 하는 이유예요.


4비트가 새로운 표준이 된 이유 — 양자화의 세계

아키텍처가 기본 능력을 결정한다면, 양자화는 모델이 실제로 기기 안에 들어갈 수 있는지를 결정해요.

배포를 위한 표준 레시피가 이제 수렴했어요. 16비트로 학습하고, 배포할 땐 4비트로 양자화하는 거예요. 2022년 GPTQ와 2023년 AWQ가 이 방식으로도 모델 품질 대부분을 보존하면서 메모리를 4분의 1로 줄일 수 있다는 걸 증명했어요. AWQ만 해도 허깅페이스에서 1,900만 다운로드가 넘었을 정도로 이제 완전히 표준으로 자리 잡았어요.

문제는 예외 케이스예요. 순진한 양자화는 이상치 활성화에서 망가지거든요. MIT HAN Lab의 SmoothQuant는 양자화 난이도를 활성화에서 가중치로 이전해서 이상치를 부드럽게 만들어요. 학습 없이도 8비트에서 잘 작동하는 방법이에요. 메타의 SpinQuant는 한발 더 나가서 활성화 분포를 재구성하는 회전 행렬을 학습해요. 결과는 가중치, 활성화, KV 캐시를 모두 4비트로 양자화해도 정확도 손실이 3% 미만이에요. 기존 방법들이 25% 이상 떨어뜨린 작업에서요.

최근 애플 A19 프로 같은 엣지 하드웨어에서 mxfp4 지원이 등장하기 시작하면서, 우수한 포맷 덕분에 양자화 손실을 더 줄여주는 방향으로도 발전하고 있어요.


더 빠르게, 더 스마트하게 — 추론 최적화의 핵심

압축을 넘어서, 어떻게 추론을 실행하느냐가 무엇을 실행하느냐만큼 중요해요.

긴 시퀀스에선 어텐션이 병목이에요. FlashAttention이 어텐션을 IO 인식으로 만들어서 GPU 메모리와 고속 메모리 간 읽기/쓰기를 타일링으로 줄였어요. FlashAttention-2는 A100에서 최대 72% 모델 활용률, FlashAttention-3는 H100에서 최대 75%, 그리고 2025년에 발표된 FlashAttention-4는 블랙웰용으로 20% 추가 속도 향상을 냈어요.

온디바이스에선 구체적인 구현보다 원칙이 더 중요해요. 메모리 트래픽 최소화, 빠른 메모리에 맞도록 계산 타일링, 가용 리소스 전체에 걸친 병렬화가 핵심이에요.

추측 디코딩도 빠질 수 없는 기술이에요. 작은 드래프트 모델로 여러 토큰을 미리 제안한 뒤, 타겟 모델로 병렬 검증하는 방식이에요. 프린스턴의 Medusa는 바닐라 디코딩 대비 2.2~3.6배 속도 향상을 냈고, SafeAI Lab의 EAGLE-3는 저·중·고 수준 의미 특성을 융합해서 더 나은 드래프트 품질을 제공해요. 온디바이스에선 어차피 작은 모델을 이미 가지고 있는 경우가 많아서 추측 디코딩이 특히 매력적이에요.


어떤 프레임워크를 골라야 할까 — 실전 선택 가이드

최적화 기법들을 알았다면, 이제 실제로 어떤 소프트웨어로 모델을 돌릴지 정해야 해요.

메타의 ExecuTorch는 2025년 10월에 1.0 정식 출시를 마쳤어요. 런타임 기본 크기가 50킬로바이트이고 마이크로컨트롤러부터 고급 스마트폰까지 모두 지원해요. 12개 이상 하드웨어 백엔드를 지원하고, 허깅페이스에서 인기 있는 엣지 LLM의 80% 이상이 바로 작동해요. 메타는 이미 인스타그램, 왓츠앱, 메신저, 페이스북 전체에서 ExecuTorch를 써서 수십억 사용자에게 서비스하고 있어요.

llama.cpp는 CPU 추론의 정석으로 남아 있어요. 간단하고 이식 가능하며 지속적으로 최적화되고 있어요. GPU 없이 노트북, 데스크톱, 서버에서 LLM을 돌리기엔 이 프레임워크를 이기기 어려워요. GGUF 포맷이 양자화된 모델 배포의 사실상 표준이 됐고요.

애플의 MLX는 애플 실리콘용으로 최적화됐어요. 맥 환경에서 개발하신다면 NumPy 스타일의 친숙한 API로 좋은 성능을 뽑아낼 수 있어요. 통합 메모리 덕분에 CPU와 GPU 조율이 효율적이에요.

막 시작하신다면 이 순서를 추천해요. 허깅페이스에서 GGUF 포맷의 Llama 3.2나 Gemma 3을 가져와서 llama.cpp로 돌려보고, 유스케이스가 작동하는지 검증한 뒤, 모바일 프로덕션 배포가 필요하면 ExecuTorch로 옮기세요. 그리고 에뮬레이터 말고 꼭 실제 하드웨어에서 일찍 프로파일링하세요. 시뮬레이터는 성능 면에서 정확하지 않아요.


앞으로 펼쳐질 미래 — 아직 절반도 오지 않았다

MoE(전문가 혼합 모델)가 엣지에서 실용화되려면 아직 갈 길이 있어요. 희소 활성화에도 불구하고 여전히 모든 전문가를 메모리에 저장해야 하거든요. 그래서 EdgeMoE 같은 접근법이 전문가를 외부 스토리지로 파티셔닝하고 필요할 때만 가져오는 방식으로 메모리를 5~18% 줄이면서 추론을 최대 2.7배 개선하고 있어요. 그래도 10와트 미만, 8기가바이트 미만 환경에서 MoE를 진정 실용적으로 만드는 아키텍처는 아직 존재하지 않아요.

역설적인 발견도 있어요. 작은 모델이 추론 시간에 더 많은 계산을 쓰면 큰 모델을 능가할 수 있다는 거예요. 허깅페이스 연구에서 Llama 3.2 10억 모델이 다양한 검증 트리 탐색을 활용하면 80억 모델을, 30억 모델이 700억 모델을 능가하는 걸 보여줬어요. 더 오래 생각하는 1억짜리 모델이 즉시 답하는 70억짜리 모델을 이길 수도 있다는 뜻이에요.

온디바이스 개인화도 흥미로운 방향이에요. 온디바이스 파인튜닝이 가능해지면 데이터를 클라우드로 보내지 않고도 개인화가 가능해져요. 여러분 기기가 클라우드 학습 없이 여러분의 선호도, 작문 스타일, 도메인 어휘를 자체적으로 학습하는 거예요. 테스트 타임 트레이닝처럼, 모델이 실사용 중 데이터에서 스스로 최적화하면서 사용자 컨텍스트를 가중치로 옮기는 방향도 활발하게 연구되고 있어요.

온디바이스 AI 시장은 2025년 약 266억 달러에서 2032년 약 1,240억 달러로 연평균 24.6%씩 성장할 것으로 전망되고 있어요. 그리고 지금 이 시장을 이끌고 있는 건 다름 아닌 스마트폰이에요.


핵심 요약

AI가 클라우드를 벗어나 스마트폰 안으로 들어오는 흐름은 이제 거스를 수 없는 대세가 됐어요. 속도, 프라이버시, 비용, 가용성이라는 네 가지 이유가 이 변화를 이끌고 있고, 양자화·모델 증류·추측 디코딩 같은 기술 혁신이 그 기반을 만들고 있어요. 큰 모델 없이도 작은 모델이 강력해질 수 있다는 것, 학습 방법론이 파라미터 개수만큼 중요하다는 것, 그리고 더 오래 생각하는 작은 모델이 크고 빠른 모델을 이길 수도 있다는 것이 2026년 온디바이스 AI 씬의 핵심 교훈이에요. 지금 여러분 손 안의 스마트폰은, 이미 그 미래를 품고 있어요.

300x250
반응형