본문 바로가기

IT/AI

🔍 구글을 넘어서는 AI 검색의 비밀, 퍼플렉시티는 어떻게 만들어졌을까?

 

우연한 시작이 만든 검색의 혁명

여러분은 궁금한 게 생기면 어떻게 하세요? 아마 대부분 구글에 검색하실 거예요. 그런데 요즘 검색 시장에 정말 흥미로운 변화가 일어나고 있어요. 바로 '퍼플렉시티(Perplexity AI)'라는 서비스가 구글의 아성에 도전장을 내밀고 있거든요.

퍼플렉시티는 매달 무려 4억 건 이상의 검색 쿼리를 처리하면서, 기존 검색 엔진과는 완전히 다른 방식으로 사용자들에게 답변을 제공하고 있어요. 단순히 파란색 링크 몇 개를 보여주는 게 아니라, 웹을 직접 읽고 이해해서 하나의 명확한 답변을 만들어주는 '답변 엔진'이죠. 2023년 1월 기준으로 이미 천만 명 이상의 월간 활성 사용자를 확보했고, 2024년에는 약 7천억 원의 기업 가치를 인정받았어요.

사실 퍼플렉시티는 처음부터 검색 엔진을 만들려고 했던 건 아니에요. 원래는 일반 사람들이 쓰는 평범한 말을 데이터베이스 쿼리로 바꿔주는 기술적인 도구를 개발하고 있었거든요. 그런데 2022년 말 챗GPT가 등장하면서 모든 게 바뀌었어요.

사람들이 챗GPT에 대해 가장 많이 불만을 제기했던 부분이 뭐였을까요? 바로 '출처가 없다'는 거였어요. 그 순간 퍼플렉시티 팀은 깨달았죠. 자신들이 내부적으로 만들어둔 프로토타입이 이미 이 문제를 해결하고 있다는 걸요! 그래서 과감하게 4개월 동안 작업했던 프로젝트를 완전히 접고, 웹 기반 답변 엔진을 만드는 데 모든 역량을 집중했어요. 이 결정이 지금의 퍼플렉시티를 만든 거죠.

5단계로 작동하는 RAG 파이프라인의 마법

퍼플렉시티의 심장부에는 'RAG(Retrieval-Augmented Generation)' 파이프라인이라는 게 있어요. 쉽게 말하면 '검색해서 가져온 정보를 바탕으로 답변을 생성하는 시스템'이에요. 이 시스템은 총 5단계로 작동하는데, 하나씩 살펴볼게요.

첫 번째는 질문 의도 파악이에요. 사용자가 질문을 던지면, 단순히 키워드만 보는 게 아니라 대형 언어 모델을 활용해서 질문의 진짜 의도를 깊이 있게 이해해요. "오늘 날씨 어때?"라고 물으면, 단순히 '날씨'라는 키워드만 찾는 게 아니라 현재 시점의 기상 정보를 원한다는 맥락까지 파악하는 거죠.

두 번째는 실시간 웹 검색이에요. 의도를 파악한 후에는 즉시 웹을 뒤져서 관련 페이지들을 찾아요. 여기서 중요한 건 '실시간'이라는 거예요. 옛날 데이터가 아니라 바로 지금 시점의 최신 정보를 가져오죠. 퍼플렉시티는 무려 2천억 개가 넘는 URL을 추적하면서, 매초 수만 건의 인덱스 업데이트를 처리하고 있어요.

세 번째는 핵심 내용 추출이에요. 검색된 웹페이지 전체를 AI에게 넘기는 게 아니라, 질문과 관련된 가장 중요한 문단이나 문장만 골라내요. 이렇게 하면 AI가 더 정확하고 빠르게 답변을 만들 수 있어요. 이 과정에서 AI 기반 콘텐츠 이해 모듈이 웹사이트마다 동적으로 파싱 규칙을 생성하고 적용하는데, 더 놀라운 건 이 시스템이 스스로 개선된다는 거예요.

네 번째는 답변 생성이에요. 추출한 핵심 내용을 바탕으로 자연스러운 문장으로 답변을 만들어요. 여기서 가장 중요한 원칙이 있는데요, 바로 "검색해서 찾지 못한 내용은 절대 말하지 않는다"는 거예요. 그래서 AI가 마음대로 지어내는 '환각' 현상을 막을 수 있죠. 게다가 모든 문장마다 출처를 달아서 사용자가 직접 확인할 수 있게 해요.

다섯 번째는 대화 개선이에요. 한 번의 질문으로 끝나는 게 아니라, 사용자가 후속 질문을 하면 이전 대화 맥락을 기억하면서 더 정교한 답변을 만들어내요.

38명의 엔지니어가 만든 효율의 비밀

퍼플렉시티가 더욱 놀라운 이유는, 이 모든 걸 단 38명의 엔지니어로 운영하고 있다는 거예요. 구글의 수천 명 엔지니어 조직과 경쟁하면서 말이죠. 어떻게 이게 가능할까요?

비결은 '똑똑한 만들 것과 살 것의 선택'이에요. 퍼플렉시티는 베스파(Vespa) AI라는 플랫폼을 검색 엔진으로 사용해요. 만약 이런 시스템을 직접 만들려고 했다면, 구글이나 야후 같은 회사들이 수십 년 동안 수조 원을 투자해서 만든 걸 다시 만들어야 했을 거예요. 대신 검색 엔진 부분은 베스파에 맡기고, 자신들만의 강점인 RAG 파이프라인 최적화, 소나 모델 파인튜닝, ROSE 추론 엔진 개발에 집중했어요.

베스파는 의미 기반 벡터 검색, 키워드 기반 검색, 필터링, 머신러닝 기반 순위 매기기 등을 모두 한 곳에서 처리할 수 있어요. 400페타바이트 이상의 저장공간을 운영하면서도 검색 성능을 떨어뜨리지 않고 인덱스를 실시간으로 업데이트하죠. 1페타바이트가 천 테라바이트인데, 400페타바이트면 상상이 안 될 정도로 어마어마한 양이에요.

또 하나의 비결은 여러 AI 모델을 상황에 맞게 똑똑하게 활용하는 시스템이에요. 간단한 질문이 들어오면 자체 개발한 작고 빠른 '소나' 모델을 사용해요. 하지만 복잡한 질문이나 깊은 사고가 필요한 질문이 들어오면, 오픈AI의 GPT 시리즈나 앤트로픽의 클로드 같은 최고급 모델을 사용하죠. 작은 분류 모델이 먼저 질문을 분석해서 난이도와 복잡도를 판단하고, 가장 적절하고 비용 효율적인 모델로 질문을 보내는 거예요.

이런 전략은 단순히 기술적인 최적화가 아니에요. 사업적으로도 엄청나게 중요한 결정이죠. AI 모델 시장은 빠르게 변하고 있고, 한 회사의 API에만 의존하면 가격 변동이나 서비스 중단 같은 위험에 노출될 수 있거든요. 퍼플렉시티는 이런 위험을 미리 차단한 거예요.

속도와 비용, 두 마리 토끼를 잡은 ROSE 엔진

AI 모델을 실행하는 건 정말 비싸요. 특히 수백만 명의 사용자에게 빠른 서비스를 제공하려면 엄청난 컴퓨팅 파워가 필요하죠. 퍼플렉시티는 이 문제를 해결하기 위해 ROSE라는 자체 추론 엔진을 만들었어요.

ROSE는 두 가지 목표를 가지고 있어요. 첫째는 유연성이에요. 새로운 AI 모델이 나올 때마다 빠르게 적용할 수 있어야 해요. 둘째는 극한의 최적화예요. 같은 모델이라도 더 빠르고 저렴하게 실행할 수 있어야 하죠.

ROSE는 주로 파이썬과 파이토치로 만들어졌는데, 성능이 정말 중요한 부분은 러스트로 옮기고 있어요. 러스트는 C++만큼 빠르면서도 메모리 안전성이 뛰어나거든요. 이 모든 시스템은 AWS 클라우드에서 엔비디아 H100 GPU로 돌아가요. H100은 AI 작업을 위해 특별히 설계된 최첨단 칩이에요.

직접 시스템을 만든 덕분에 퍼플렉시티는 평균 응답 시간을 밀리초 단위로 유지하면서도 비용을 크게 절감할 수 있었어요. 다른 회사의 API만 쓰는 것보다 훨씬 유리한 위치를 확보한 거죠. 사용자가 서비스를 쓸 때마다 더 많은 데이터가 쌓이고, 이 데이터로 소나 모델을 계속 개선해요. 시간이 지날수록 더 똑똑해지는 선순환 구조예요.

퍼플렉시티의 성공 비결은 하나의 마법 같은 AI 모델이 아니에요. 대신 여러 시스템을 정교하게 조합하고 최적화한 결과죠. 세계적 수준의 검색 엔진, 똑똑한 모델 선택 시스템, 극한으로 최적화된 추론 엔진. 이 세 가지가 완벽하게 조화를 이루면서 빠르고 정확하며 비용 효율적인 서비스를 만들어내고 있어요. 앞으로 AI 검색 시장은 더욱 치열해질 거예요. 하지만 퍼플렉시티가 보여준 '똑똑한 아키텍처'의 힘은 앞으로도 계속 유효할 것 같아요. 여러분도 한번 퍼플렉시티를 써보세요. 단순히 링크를 클릭하는 대신, 바로 답을 얻는 경험이 얼마나 편리한지 느껴보실 수 있을 거예요!

 

300x250
반응형