본문 바로가기

IT/AI

AI 제품, 왜 자꾸 이상한 답변을 할까? 🤖

 

프롬프트만 잘 써도 반은 성공인 시대

여러분, 혹시 ChatGPT나 Claude한테 이메일 써달라고 했다가 영 아닌 답변 받아서 당황한 적 있으세요? 저는 수도 없이 많습니다. 그런데 이게 개인이 쓸 때도 이런데, 만약 수백만 명이 사용하는 서비스에 AI를 넣는다면? 상상만 해도 아찔하죠.

오늘은 AI 서비스를 만드는 기업들이 어떻게 AI의 품질을 관리하는지, 그리고 그 과정에서 브레인트러스트라는 회사가 어떤 역할을 하는지 알려드릴게요.

노션, 램프, 에어테이블, 스트라이프 같은 회사들. 이름만 들어도 쟁쟁하죠? 이 회사들의 공통점이 뭘까요? 바로 AI를 제품에 깊숙이 통합했다는 거예요. 그런데 문제가 있어요. AI 모델은 일반 코드와 완전히 달라요. 같은 질문을 해도 매번 다른 답변이 나올 수 있거든요. 전문 용어로는 비결정적이라고 하는데, 쉽게 말하면 예측 불가능하다는 뜻이에요.

개발자들이 AI를 제품에 넣을 때 가장 중요한 게 바로 프롬프트예요. 프롬프트가 뭐냐고요? AI한테 주는 지시문이라고 보시면 돼요. 노션을 예로 들어볼게요. 노션에서는 AI 검색, AI 글쓰기 도우미, 리서치, 회의록 작성 등 여러 기능을 제공하는데요. 각각의 기능마다 다른 프롬프트가 필요해요. 회사 규모가 커질수록 관리해야 할 프롬프트가 수백 개가 될 수도 있죠.

재밌는 건, 어떤 프롬프트는 수만 단어에 달한다는 거예요. 더 구체적으로, 더 많은 맥락을 줄수록 AI가 더 정확하게 답변하거든요. 물론 그만큼 비용도 많이 들지만요. 최근 업계 보고서에 따르면, 기업들이 AI 프롬프트 엔지니어링에 투자하는 비용이 전년 대비 300퍼센트 이상 증가했다고 해요. 그만큼 중요해진 거죠.

은행 챗봇의 악몽과 평가 시스템의 필요성

뱅크오브아메리카가 고객 상담 챗봇을 만든다고 상상해볼게요. 이 챗봇은 잔액 조회, 계좌 이체 같은 일을 해야 하는데요. 만약 이 챗봇이 실수한다면 어떻게 될까요?

저축 계좌 잔액을 잘못 알려줘서 고객이 내 평생 모은 돈이 어디 갔어 라고 외치게 되거나, 엉뚱한 계좌로 돈을 보내거나, 금액을 잘못 입력하거나, 심지어 고객한테 무례한 말투로 답변할 수도 있어요. 은행이잖아요? 오류가 있으면 안 되는 거죠. 그런데 AI는 본질적으로 완벽할 수 없어요. 그럼 어떡하죠?

그래서 나온 게 바로 이밸이에요. 영어로는 Evaluations, 한국말로 하면 평가 시스템이죠. 이밸은 학교에서 보는 시험이랑 비슷해요. 정답지를 만들어두고, AI가 실제로 낸 답변이랑 비교해서 점수를 매기는 거예요.

브레인트러스트에서 이밸을 만들 때는 세 가지가 필요해요. 첫째, 데이터셋입니다. 테스트할 질문들과 입력 데이터를 준비하는 거죠. 둘째, 작업이에요. 테스트하려는 AI 기능을 정의하는 단계예요. 셋째, 채점 함수입니다. AI 답변이 좋은지 나쁜지 판단하는 기준을 만드는 거죠.

예를 들어볼게요. 은행 챗봇이 계좌 잔액 알려줘 라는 질문을 받았을 때, 정확한 잔액을 보여줘야 하는 게 정답이잖아요? 그럼 실제로 AI가 뭐라고 답했는지 확인하고, 정답이랑 얼마나 가까운지 점수를 매기는 거죠.

여기서 정말 신기한 점이 있어요. AI의 답변을 평가할 때, 다른 AI를 쓴다는 거예요. 정확성이나 형식은 코드로 체크할 수 있지만, 말투나 친절도 같은 건 주관적이잖아요? 그래서 이 답변의 말투가 적절한가를 평가하는 전용 AI를 따로 만들어서 돌리는 거예요. AI 감독관이 있는 셈이죠.

브레인트러스트 문서에 나온 예시를 보면, 오픈소스 제품팀이 깃 커밋 메시지를 바탕으로 변경 로그를 잘 만들었는지 평가하는 프롬프트가 있어요. 이 평가용 AI는 변경 로그가 포괄적인가, 정확한가, 유익한가를 체크하고, 빠진 내용이나 추가된 내용을 찾아내서 0부터 1 사이의 점수를 매겨요.

실제 데이터로 계속 개선하는 선순환 구조

테스트 환경에서만 평가하면 끝일까요? 아니에요. 실제 사용자들이 쓸 때 어떻게 작동하는지 계속 모니터링해야 해요. 브레인트러스트에서는 로그 기능을 통해 실제 사용자의 입력과 AI 출력을 전부 기록해요. 그리고 사용자한테 직접 피드백을 받기도 하죠. 엄지 척, 엄지 내림 같은 간단한 방식으로요.

최근 통계에 따르면, AI 제품 개발 시장은 2024년 기준으로 약 250억 달러 규모이며, 2028년까지 연평균 35퍼센트 성장할 것으로 전망된다고 해요. 그중에서도 AI 품질 관리 도구 시장은 가장 빠르게 성장하는 분야 중 하나라고 하더라구요. 그만큼 기업들이 AI 품질 관리에 진지해졌다는 뜻이에요.

이렇게 모은 실제 데이터로 다시 이밸을 돌려요. 실제 환경에서도 AI가 제대로 답변했나 확인하는 거죠. 뭔가 문제가 보이면 프롬프트를 수정하고, 다시 테스트하고, 또 배포하고. 이 사이클을 계속 반복하면서 AI 품질을 높여나가는 거예요.

브레인트러스트는 2024년 안드레센 호로위츠라는 유명 벤처캐피털로부터 시리즈A 투자로 약 500억 원을 받았어요. 실리콘밸리에서 가장 주목받는 스타트업 중 하나죠. 이 회사의 강점은 개발 속도예요. 고객이 이 기능 추가해주세요 라고 하면, 엔지니어가 20분만 주세요 라고 답해요. 정말로 20분 후에 미리보기 링크를 보내주고요.

어떻게 이게 가능하냐고요? 버셀이라는 플랫폼 덕분이에요. 버셀은 코드 변경이 있을 때마다 자동으로 미리보기 사이트를 만들어줘요. 그래서 실제로 배포하기 전에 고객이 직접 새 기능을 써볼 수 있는 거죠.

실제 사례가 있어요. 어떤 잠재 고객이 계약을 진행하던 중에 버그를 발견했어요. 브레인트러스트 엔지니어는 한 시간 안에 버그를 고치고, 버셀 미리보기 링크를 보내서 고객이 직접 확인하게 했어요. 코드가 정식으로 배포되기도 전에요. 그 고객은 같은 날 안심하고 서비스를 만들기 시작했고, 계약도 순조롭게 진행됐죠.

바이브로는 안 되는 시대, 체계적 관리가 필수

재밌는 건, 이제 엔지니어뿐만 아니라 기획자들도 이밸을 배워야 한다는 거예요. AI 제품을 제대로 만들려면 기술적인 이해가 필수가 됐거든요. 예전에는 이 기능 만들어주세요 하고 끝이었다면, 이제는 이 AI가 이런 상황에서 이렇게 답변하게 만들어주세요. 이 경우엔 이 톤으로요 까지 구체적으로 요청할 수 있어야 해요.

초기에는 많은 팀들이 그냥 바이브로 해요. 엑셀에 프롬프트 적어두고, 대충 잘 작동하는 것 같으면 배포하는 거죠. 하지만 서비스가 커지면 이건 불가능해져요. 사용자가 수백만 명이 되면, 대충 잘 되는 것 같아로는 안 되거든요. 체계적인 평가 시스템이 필요한 거예요.

브레인트러스트 같은 도구를 쓰면, 각 프롬프트마다 입력값, 기대하는 출력값, 실제 출력값, 점수를 한눈에 볼 수 있어요. 어떤 프롬프트가 문제인지, 어디를 개선해야 하는지 명확해지는 거죠.

소프트웨어 테스팅이 새로운 개념은 아니에요. 개발자들은 수십 년간 코드를 테스트하는 정교한 방법들을 만들어왔어요. 데이터독이나 센트리 같은 모니터링 도구들도 있고요. 하지만 AI는 달라요. 코드는 입력이 같으면 출력도 같지만, AI는 매번 달라질 수 있어요. 그래서 새로운 접근이 필요한 거죠.

브레인트러스트는 이 새로운 세계에 맞는 도구를 만든 거예요. 테스트 환경에서의 평가, 실제 사용자 모니터링, 피드백 수집, 품질 게이트, 그리고 심지어 이밸을 자동으로 만들어주는 AI 에이전트까지. 넥스트JS로 만든 프론트엔드는 버셀 위에서 돌아가고, 문서화도 전부 버셀 생태계 안에 있어요. 이렇게 현대적인 개발 스택을 활용해서 빠르게 움직이는 거죠.

핵심 요약

AI는 이제 우리 제품 곳곳에 스며들고 있어요. 하지만 그냥 AI 넣으면 되겠지 하는 시대는 끝났어요. 브레인트러스트 같은 회사가 주목받는 이유는, AI 제품의 품질을 체계적으로 관리할 수 있게 해주기 때문이에요. 노션, 램프, 스트라이프 같은 회사들이 이 도구를 쓴다는 건, 그만큼 검증됐다는 뜻이기도 하고요.

여러분이 만약 AI를 활용한 서비스를 기획하거나 개발하고 있다면, 이밸에 대해 한 번쯤 진지하게 고민해보세요. 대충 잘 되는 것 같아에서 정확히 이렇게 작동해로 넘어가는 순간, 여러분의 제품은 진짜 경쟁력을 갖게 될 거예요.

 

300x250
반응형