본문 바로가기

IT/AI

🤖 AI 제품, 왜 70%만 완성해도 출시하는 걸까?

300x250
반응형

 

요즘 IT 업계 분위기가 묘하게 달라졌어요.

예전이라면 절대 세상에 내놓지 않았을 수준의 완성도로 베타 서비스를 오픈하는 회사들이 늘고 있거든요. 처음엔 저도 "왜 이렇게 섣불리 출시하지?"라고 생각했는데, 들여다보니 이게 단순히 성급한 결정이 아니라 완전히 새로운 제품 전략이더라고요.

오늘은 프로덕트보드(Productboard)라는 회사가 AI 제품 'Spark'를 개발하면서 얻은 진짜 인사이트를 중심으로, AI 시대의 제품 출시 전략이 어떻게 바뀌고 있는지 이야기해 볼게요. IT 기획자나 스타트업 대표분들이라면 꼭 읽어보셨으면 해요.

사용자는 자동화를 원한다고 말하지만, 진짜로는 신뢰를 원한다

AI 제품 개발하면서 가장 먼저 맞닥뜨리는 역설이 있어요. 사용자한테 물어보면 "AI가 내 일을 다 해줬으면 좋겠어요"라고 해요. 근데 막상 AI가 자동으로 뭔가를 만들어주면, 정작 그 결과물을 잘 안 써요. 신뢰가 안 가는 거예요.

프로덕트보드 CEO 후버트 팔란이 이 지점을 정확히 짚었어요. "PM들한테 필요한 건 AI가 문서를 대신 써주는 게 아니에요. 고객 니즈, 경쟁 상황, 비즈니스 맥락을 함께 고민해주는 파트너예요."

그래서 그들이 내린 결론이 '가이딩(Guiding)'이 '자동화(Automating)'보다 훨씬 중요하다는 거였어요. AI가 일을 대신 처리하는 게 아니라, 더 나은 판단을 내릴 수 있게 옆에서 도와주는 거죠. 이게 사용자 입장에서는 훨씬 자연스럽게 신뢰가 생기고, 서비스 품질 기준도 달성하기 쉬워진대요.

사실 이건 AI 서비스 전반에 해당하는 이야기예요. ChatGPT나 Claude 같은 서비스도 결국 사람이 최종 판단을 내리는 구조잖아요. AI가 제안하고, 사람이 검토하고 수정하는 흐름. 이게 현재 단계에서 가장 현실적인 설계예요.

AI 제품엔 '제3의 개발 차원'이 존재한다

기존 소프트웨어 개발은 단순했어요. 프론트엔드 만들고, 백엔드 만들고, QA 거치면 끝이었죠. 근데 AI 제품에는 여기에 하나가 더 붙어요. 바로 'AI 품질'이라는 차원이에요.

프로덕트보드의 AI 제품 매니저 도미닉 일리흐만은 이렇게 말했어요. "UI랑 백엔드는 2주 만에 완성했는데, AI 품질 개선에만 2개월이 걸렸어요. 처음엔 이 시간을 전혀 예상 못 했죠."

개발 일정을 짜본 분들은 바로 공감하실 거예요. AI 품질은 코드처럼 작동 여부를 바로 확인하기가 어렵거든요. 같은 질문에도 답변이 달라질 수 있고, 특정 케이스에서만 이상한 결과가 나오기도 하죠. 이 불확실성을 관리하는 게 AI 제품 개발의 핵심 과제예요.

실제로 프로덕트보드가 처음 만든 Pulse라는 제품은 응답 품질이 일정하지 않아서 사용자 신뢰를 얻는 데 어려움을 겪었대요. 지금은 95% 정확도를 달성했고, 곧 99%까지 올릴 예정이라고 하는데요. 이 과정에서 축적한 노하우가 Spark를 만들 때 엄청난 자산이 됐다고 해요.

40%에서 85%로 올리는 체계적인 AI 품질 개선 방법

그럼 AI 품질을 어떻게 높이는 걸까요? 프로덕트보드가 사용한 방법을 들어보면 꽤 실용적이에요.

먼저 실제 고객이 물어볼 만한 질문 20~50개를 뽑아요. 이 질문들은 진짜 사용 맥락에서 나온 거여야 해요. 그리고 각 질문에 대한 '골든 앤서'를 미리 만들어두는 거예요. 여기서 중요한 포인트가 있는데, 이 정답을 만드는 사람이 반드시 해당 분야 전문가여야 한다는 거예요. 얕은 이해로 만든 평가 기준은 결국 일관성 없는 품질로 이어지거든요.

그다음은 자동화된 평가 도구로 AI 응답을 계속 테스트해요. 보통 시작 단계에서는 40~50% 정확도에서 출발한다고 해요. 목표는 80~90%예요. 프롬프트를 바꾸고, 맥락을 추가하고, 구조를 변형하면서 반복하는 거죠.

여기에 내부 테스터들의 정성적 피드백도 병행해요. 슬랙 채널을 하나 만들어서 "오늘 이런 답변이 이상했어요"라는 문제점을 공유하면, 팀이 바로바로 수정하는 식이에요. 자동 평가가 잡지 못하는 엣지 케이스들을 사람이 잡아내는 거죠.

이 두 가지 방식을 병행하면 시간이 지날수록 정확도가 올라가는 걸 눈으로 확인할 수 있대요. 처음에 40%였던 게 2~3개월 만에 80%대에 도달하는 경우도 있다고 해요.

출시 타이밍의 기준: 알파, 베타, GA 단계를 나누는 법

그럼 언제 출시하는 게 맞을까요? 프로덕트보드는 단계별로 아주 명확한 기준을 세웠어요.

알파 단계는 정확도 40~60% 수준이에요. 이때는 "AI가 과제를 제대로 이해하고 있나?", "왜 실패하는지 설명할 수 있나?" 같은 걸 확인하는 내부 검증 단계예요. 외부에 보여주는 건 금물이에요.

베타 단계는 70~85% 정확도예요. 여기서 던지는 질문은 달라져요. "사용자가 이 결과를 실제로 믿을 수 있나?", "이게 업무 속도를 진짜로 높여주나?", "실패했을 때 회복 가능한가?" 이 기준이 통과되면 실제 고객들과 함께 테스트를 시작해요.

GA(정식 출시)는 85% 이상이에요. 모든 케이스에서 일관된 품질을 보여줘야 하고, 사용자 수가 늘어나도 이 수준을 유지할 수 있어야 해요.

재밌는 건, 요즘 고객들은 70~80% 정확도도 꽤 잘 받아들인다는 거예요. 단, 조건이 있어요. 매주 눈에 띄게 개선되는 게 보여야 한다는 거죠. ChatGPT 같은 서비스를 쓰면서 사람들이 "AI는 원래 발전하는 거야"라는 걸 체감했기 때문이에요.

"일단 내보내고 고치는" 전략이 왜 지금은 통할까

예전 엔터프라이즈 소프트웨어는 출시 시점에 완벽해야 했어요. 1년에 한 번 업데이트가 고작이었으니까요. 근데 AI 제품은 이 공식을 완전히 뒤집어버렸어요.

"쓸모 있으면 일단 출시하고, 대중 앞에서 개선하고, 발전 과정을 투명하게 보여줘라." 이게 새로운 공식이에요.

2025년 기준 국내 기업의 AI 도입 비율은 빠르게 올라가고 있어요. 딜로이트 리포트에 따르면 AI를 활용한 기업에서 생산성이 평균 45~55% 증가하는 성과가 관측됐고, 시장 진입 기간도 20~50% 단축되는 효과가 나타났다고 해요. 이런 수치들이 쌓이면서 기업들은 완성도보다 출시 속도를 선택하는 경향이 강해지고 있어요.

가장 빠르게 배운 팀이 이긴다는 논리인 거죠. 완벽하게 만들고 출시하는 데 1년을 쓰는 동안, 빠르게 출시하고 고쳐나가는 팀은 수백 번의 피드백 루프를 돌리고 있으니까요.

채팅창만으로는 부족한 이유: UI 설계의 함정

많은 팀이 AI 제품 만들 때 채팅 인터페이스부터 생각해요. ChatGPT가 워낙 유명하다 보니 자연스럽게 그 형태를 따라가게 되더라고요. 근데 프로덕트보드는 여기서 중요한 교훈을 얻었대요. "인터페이스를 작업 유형에 맞춰야 한다"는 거예요.

대화형 인터페이스가 잘 맞는 경우는 탐색이나 텍스트 생성, 열린 질문, 개인 단위 작업처럼 맥락이 유동적인 경우예요.

반면 비교·분석, 팀 협업, 우선순위 결정, 워크플로우 관리처럼 정보를 구조화해서 다 함께 봐야 하는 작업은 구조화된 인터페이스가 훨씬 효과적이에요.

후버트 CEO가 이렇게 비유했어요. "영업 팀원들이 각자 다른 화면의 세일즈포스를 본다면 협업이 가능하겠어요?" 다 제각각이면 대화 자체가 안 되는 거잖아요. AI 제품도 마찬가지예요. 팀이 정보를 일관되게 보고 같은 기준으로 판단할 수 있는 구조가 필요해요.

가장 가치 있는 AI 제품은 대개 두 가지를 모두 필요로 한대요. 그래서 UI 설계의 트레이드오프를 처음부터 고민하지 않으면, 나중에 엄청난 비용을 들여 다시 만들어야 하는 상황이 생겨요.

고객보다 앞서가는 것, 두려워하지 않아도 되는 이유

AI 제품을 만드는 회사들이 공통적으로 직면하는 딜레마가 있어요. 아직 AI를 받아들일 준비가 안 된 고객들을 두고 계속 앞으로 나아가도 되는가 하는 거예요.

프로덕트보드의 결론은 냉철했어요. 얼리어답터와 대다수 고객을 동시에 만족시키는 건 불가능하다는 거예요. 얼리어답터는 불완전한 AI도 받아들이고 피드백을 줘요. 대다수 고객은 완벽하고 예측 가능한 결과물을 기대하죠.

그래서 그들이 기존 고객들을 설득한 방식이 흥미로워요. "AI 시대를 이끌 회사에 투자하세요. 당신이 준비됐을 때, 우리는 이미 성숙하고 믿을 만한 AI를 제공하고 있을 거예요." 지금 당장 쓰지 않아도 괜찮다는 거예요. 하지만 결국 그 시점이 오면, 이미 수년간 학습한 시스템이 기다리고 있다는 거죠.

SAS가 발표한 2025년 AI 트렌드 분석에서도 비슷한 맥락이 나왔어요. AI에 대한 과도한 기대감은 사라지고, 이제는 실질적인 비즈니스 가치를 창출하는 데 집중하는 단계로 이동하고 있다고 해요. 완벽한 AI를 기다리는 것보다, 지금 가능한 수준에서 시작하고 계속 발전시키는 쪽이 훨씬 현실적인 전략인 거예요.

팀 구조도 AI 제품처럼 진화해야 한다

AI 제품을 만들 때는 팀 구조도 단계에 따라 달라져야 한다는 게 프로덕트보드의 경험이에요.

초기 3~5명 규모 팀에서는 모든 맥락을 다 아는 소수가 빠르게 결정하고 주 단위로 출시하는 게 최선이에요. 문제는 이 시기에 문서화가 잘 안 된다는 거예요. 다 머릿속에만 있거든요.

10~15명 규모로 확장될 때가 가장 혼란스러워요. 새 팀원은 맥락이 없고, 소통 비용은 올라가고, 속도는 느려지고, 품질은 들쭉날쭉해지죠. 이 시기에 필요한 게 강력한 제품 비전이에요. 12개월 로드맵은 어렵더라도 최소한 3개월 단위의 구체적 목표와 1년 단위의 큰 방향은 있어야 해요.

20~30명 이상이 되면 팀을 나눠야 해요. 네비게이션, 편집 경험, 에이전트 개발, 오케스트레이션 등으로요. 여기서 중요한 포인트가 있어요. 이 시점에서 AI는 더 이상 별도 팀의 전유물이 아니에요. 모든 PM이 AI PM이 되고, 모든 팀이 AI를 기본으로 다루는 구조가 되는 거죠. 딜로이트가 2025년 AI 트렌드 리포트에서 강조한 것처럼, AI를 IT 부서에만 맡기는 기업은 이미 경쟁에서 뒤처지기 시작하고 있어요.

결국 기본기가 변하지 않는 이유

AI 제품을 몇 년간 만들어보고 나서 프로덕트보드가 내린 결론은 의외로 단순해요. 제품 관리의 본질은 바뀌지 않는다는 거예요.

고객의 진짜 문제 파악하기, 명확한 워크플로우 정의하기, 품질을 염두에 두고 만들기, 피드백 기반으로 개선하기, 팀 전체가 공유된 맥락 위에서 일하기. 이 원칙들은 AI 시대에도 여전히 좋은 제품을 만드는 핵심이에요.

달라진 건 이 기본기가 발현되는 방식이에요. AI는 새로운 품질 프레임워크를 요구하고, 팀 구조는 더 빠르게 진화하고, 일정 산정도 'AI 품질 반복 기간'을 반드시 포함해야 해요.

도미닉 AI 제품 매니저는 이렇게 말했어요. "Spark 작업은 제가 해본 것 중 가장 신나는 프로젝트예요. 처음부터 제가 PM으로서 실제로 겪었던 문제를 풀고 있었거든요." 자기가 쓰고 싶은 걸 만들 때 가장 좋은 제품이 나온다는 말, 공감이 가시죠?

마무리

AI 제품은 완벽해서 이기는 게임이 아니에요. 가장 빠르게 배우는 팀이 이기는 게임이에요.

70% 완성도로 출시하는 건 무책임한 게 아니에요. 실패에서 배우는 사이클을 더 빠르게 돌리는 전략이에요. 사용자 신뢰를 쌓는 건 완벽한 첫인상이 아니라, 꾸준하고 투명한 발전이라는 걸 이미 시장이 증명하고 있어요.

AI 제품을 만들고 있거나 준비 중이시라면, 지금 당장 '언제 출시할지'보다 '어떻게 빠르게 배울지'를 먼저 설계해 보세요. 그게 결국 더 좋은 제품, 더 빠른 성장으로 이어진대요.

300x250
반응형