본문 바로가기

비즈니스/마케팅

🎯 A/B 테스트의 역설: 전환율은 올랐는데 매출은 왜 떨어졌을까?

 

"더 눈에 띄면 더 잘 팔린다"는 믿음이 무너진 순간

서비스 기획이나 마케팅을 하다 보면 이런 확신이 생기죠. "CTA 버튼을 화면에 고정시키면 전환율이 오를 거야." "할인 정보를 더 크게 보여주면 주문이 늘 거야." 저도 오랫동안 그렇게 믿어왔어요. 그런데 중동 최대 배달 플랫폼 Talabat의 실험 결과를 보고 나서, 그 믿음이 완전히 흔들렸습니다.

2024년 말, Talabat은 두 가지 스티키 CTA(화면 하단 고정 버튼) 실험을 진행했습니다. 하나는 대성공, 하나는 예상과 정반대의 결과. 같은 회사, 같은 시기, 같은 디자인 패턴인데 왜 이런 일이 벌어졌을까요? 오늘은 이 실제 케이스를 통해 A/B 테스트가 왜 중요한지, 우리가 놓치기 쉬운 함정은 무엇인지 파헤쳐볼게요.

스티키 CTA, 이미 검증된 패턴 아닌가요?

맞아요. 여러 글로벌 사례 연구에서 스티키 CTA는 효과가 있다고 보고된 패턴입니다. Evidoo라는 플랫폼이 모바일 환경에서 600만 명 이상을 대상으로 24건의 테스트를 진행한 결과, 62.5%의 승률과 평균 3.4%의 전환율 개선을 기록했다고 해요. GoodUI라는 패턴 라이브러리에는 22건의 실험이 등록되어 있고, 평균 4.45%의 긍정적 효과를 보였다고도 하죠.

이 정도면 "스티키 CTA = 성공 공식"이라고 생각하기 쉽겠죠? 하지만 여기에 큰 함정이 숨어 있었습니다.

사실 글로벌 A/B 테스트 도구 시장은 2024년 기준 약 12억 달러 규모로 평가되며, 2033년까지 연평균 12.5% 성장이 예상된다는 점에서 데이터 기반 의사결정의 중요성은 전 세계적으로 커지고 있는 추세예요. 많은 기업들이 경험적 직관에서 벗어나 실험 문화로 전환 중이라는 의미기도 합니다.

Talabat은 어떤 회사인가요?

Talabat은 중동 및 북아프리카 지역 최대의 음식 배달 및 퀵커머스 플랫폼입니다. Delivery Hero의 자회사로, 8개 시장에서 운영되며 제품과 기술 부문에만 약 450명의 인력을 보유하고 있어요. 2024년 11월 IPO를 통해 기업 가치 약 32조 원에 달하는 평가를 받았습니다.

이 정도 규모의 플랫폼이라면 A/B 테스트 인프라도 매우 정교하겠죠. 실제로 Talabat은 Eppo라는 실험 플랫폼을 사용하며, CUPED라는 분산 감소 기법을 적용해 통계적 신뢰도를 높입니다. 수백만 명의 실제 사용자 데이터를 기반으로 한 과학적 검증이라는 점에서, 이들의 실험 결과는 단순한 참고 사례가 아니라 실무에서 직접 적용할 수 있는 인사이트입니다.

실험 1: 할인 정보를 더 크게 보여줬더니 오히려 주문이 줄었다?

첫 번째 실험은 정말 놀라웠어요. Talabat은 레스토랑 메뉴 화면 하단에 할인 혜택을 강조하는 스티키 푸터를 추가했습니다. 기존에도 할인가는 취소선으로 표시되고 있었지만, 새 버전에서는 화면 하단에 고정된 바를 통해 "지금 얼마나 절약할 수 있는지"를 진행률 바와 함께 시각적으로 보여줬죠.

상식적으로 당연히 전환율이 올라야겠죠? 실험 설계도 탄탄했어요. 2024년 10월 29일부터 12월 17일까지 7주간 진행되었고, 총 812만 명이 참여했습니다. 50 대 50으로 완벽하게 분할되었고, 0.3%의 변화를 감지할 수 있는 통계적 검정력도 갖췄어요.

그런데 결과가 충격이었습니다. 전체 음식 주문 수가 0.13% 감소한 거예요. 신뢰구간은 -0.25%에서 -0.01%, p-value는 0.042로 통계적으로 유의미한 감소였습니다. 더 놀라운 건 사용자당 전체 매출도 0.18% 하락했다는 점이에요.

"그래도 할인 상품 주문은 늘지 않았나요?" 하고 물으실 수 있는데요. 맞아요. 할인 상품만 따로 보면 0.35% 증가했어요. 사용자들은 분명히 그 스티키 푸터를 보고 반응했습니다. 할인 혜택이 있는 메뉴는 더 많이 주문했죠. 그런데 전체적으로는 주문도, 매출도 줄었다는 게 역설입니다.

왜 이런 역설이 생겼을까요?

Talabat 팀의 가설은 이렇습니다. 화면 하단에 고정된 푸터가 오히려 사용자의 주의를 분산시키거나, 할인이 없는 메뉴를 주문하려던 사용자에게 심리적 마찰을 일으켰을 가능성이 있다는 거예요.

"이 메뉴는 할인이 안 되네? 그럼 다른 거 찾아볼까?" 하는 생각이 들게 만들었을 수도 있고, 화면 공간을 차지하면서 메뉴 탐색 경험 자체가 나빠졌을 수도 있다는 거죠. 눈에 잘 보이게 만든 것이 오히려 사용자의 의사결정을 방해한 셈이에요.

이건 서비스 기획에서 정말 중요한 포인트입니다. 정보를 더 보여주는 것이 항상 좋은 건 아니에요. 때로는 적게 보여주는 것이 더 부드러운 사용자 경험을 만들 수 있습니다.

실험 2: 같은 패턴, 완전히 다른 결과

두 번째 실험은 정반대의 결과를 보여줍니다. Talabat은 "Postpaid", 즉 지금 주문하고 나중에 결제하는 후불 결제 기능을 홍보하기 위해 스티키 CTA를 추가했어요. 할인 정보가 없는 메뉴 화면에서, 아직 이 기능을 써본 적 없는 사용자들에게만 노출했습니다.

2024년 11월 12일부터 26일까지 2주간 진행된 이 실험에는 약 70만 명이 참여했어요. 목표는 Postpaid 가입자를 5% 이상 늘리는 것이었습니다.

결과는 폭발적이었어요. Postpaid 가입률이 무려 40.2% 증가했습니다. p-value는 0.00001 미만, Z-score는 14.4로 통계적으로 압도적인 성공이었어요. Postpaid 관련 매출과 주문도 모두 약 9% 증가했고, 역시 p-value는 0.00001 미만이었습니다.

같은 스티키 CTA라는 디자인 패턴인데, 결과는 하늘과 땅 차이였어요.

맥락이 전부다: 두 실험이 다른 이유

핵심은 맥락입니다. 첫 번째 실험에서는 이미 할인 정보가 메뉴에 표시되고 있었어요. 스티키 푸터는 그걸 "한 번 더" 강조한 겁니다. 사용자 입장에서는 정보의 중복이자 화면 공간의 낭비로 느껴졌을 수 있어요.

반면 두 번째 실험은 완전히 새로운 옵션을 제안한 겁니다. 많은 사용자가 Postpaid 기능의 존재 자체를 몰랐을 가능성이 크거든요. 스티키 CTA는 이들에게 "이런 선택지도 있어요"라고 알려주는 역할을 했고, 그게 실제 행동 변화로 이어진 거예요.

같은 도구도 어디에, 어떤 맥락으로 쓰느냐에 따라 완전히 다른 결과를 만들어냅니다. 이게 바로 A/B 테스트 없이 패턴만 복사해서 쓰는 게 위험한 이유예요.

많은 기획자들이 놓치는 함정: 대리 지표의 유혹

만약 Talabat이 실험 없이 그냥 스티키 푸터를 배포했다면 어땠을까요? 첫 번째 케이스에서는 "할인 상품 주문이 늘었네, 성공이야!"라고 착각했을 겁니다. 실제로는 전체 매출이 줄고 있는데도 말이죠.

이게 바로 대리 지표의 함정입니다. 우리는 측정하기 쉬운 지표에 집중하다가, 정작 중요한 비즈니스 목표를 놓치기 쉽습니다. 클릭률, 참여율 같은 건 올라갔는데 실제 구매나 매출은 그대로이거나 오히려 떨어지는 경우가 생각보다 많아요. 마이크로소프트의 빙 검색 엔진도 광고 헤드라인 A/B 테스트를 통해 사용자 경험 지표를 지키면서 수익을 12% 끌어올린 사례가 있는데요, 이처럼 제대로 된 지표를 잡는 것이 실험의 핵심입니다.

두 번째 케이스는 반대예요. 40%라는 엄청난 성과를 정량화하지 않았다면, 이 기능의 장기적 가치를 제대로 평가할 수 없었을 겁니다. "아마 좀 늘었겠지"와 "정확히 40.2% 증가했고 매출도 9% 올랐다"는 의사결정의 질이 완전히 다르니까요.

단기 성과만 보면 안 되는 이유

Talabat 연구진이 두 번째 실험에 대해 남긴 흥미로운 조언이 있어요. Postpaid CTA는 분명 성공적이었지만, 사용자가 이 CTA 때문에 짜증을 느꼈는지 측정할 지표가 없다는 겁니다.

단기적으로는 가입률이 올라도, 만약 사용자가 "자꾸 이런 거 띄우면 성가신데"라고 느낀다면 장기적으로는 앱 이탈로 이어질 수 있어요. 그래서 연구진은 노출 빈도 제한이나 추가 조건 설정 같은 안전장치를 권장했습니다.

좋은 실험은 단순히 "이게 효과 있나?"를 넘어서, "어떤 부작용이 있을까?"까지 함께 봐야 한다는 것. 이게 정말 중요한 인사이트예요.

A/B 테스트를 잘하는 조직과 못하는 조직의 차이

사실 A/B 테스트 자체가 어려운 건 아닙니다. 어려운 건 "제대로 된 질문을 던지는 것"이에요. Talabat의 두 실험이 보여주는 것처럼, 어떤 지표를 주요 성과 지표로 설정하느냐에 따라 실험의 성패 판단이 완전히 달라집니다.

못하는 조직은 이렇게 합니다. 보기 좋은 지표만 봐요. 클릭률, 오픈율, 팔로워 수. 이런 지표들은 올리기도 쉽고 보고하기도 좋죠. 하지만 이게 실제 비즈니스 성과로 이어지는지는 확인하지 않습니다.

잘하는 조직은 반대로 합니다. 먼저 "우리가 진짜 원하는 결과가 뭐지?"를 묻고, 거기서부터 역으로 지표를 설계해요. Talabat처럼 수백만 명 규모로, 충분한 기간 동안, 통계적으로 신뢰할 수 있는 방식으로 실험하고, 불편한 결과라도 있는 그대로 받아들입니다.

이 두 실험이 우리에게 주는 교훈

Talabat의 케이스에서 얻을 수 있는 교훈은 명확합니다.

첫째, 검증된 패턴도 맥락에 따라 완전히 다른 결과를 냅니다. "다른 곳에서 성공했으니 우리도 되겠지"는 위험한 생각이에요.

둘째, 표면적인 참여 지표가 올라간다고 해서 무조건 좋은 건 아닙니다. 진짜 중요한 건 최종 비즈니스 성과예요.

셋째, 단기 성과와 장기 영향을 함께 봐야 합니다. 지금 당장 수치가 좋아 보여도, 사용자 경험을 해친다면 나중에 대가를 치르게 됩니다.

넷째, 실험 설계가 전부입니다. 올바른 지표를 설정하고, 충분한 표본과 기간을 확보하고, 반대 지표까지 함께 측정해야 해요.

마무리

데이터가 직관을 이깁니다. Talabat의 스티키 CTA 실험은 우리에게 중요한 메시지를 던집니다. 아무리 그럴듯해 보이는 아이디어라도, 실제 사용자 데이터 앞에서는 겸손해야 한다는 것. 그리고 성공과 실패는 종이 한 장 차이일 수 있다는 것.

같은 디자인 패턴도 상황에 따라 40% 성장을 만들기도 하고, 매출을 깎아먹기도 합니다. 여러분의 다음 프로젝트에서는 "이게 잘 될 것 같은데?"라는 직관에만 기대지 마세요. 실험하세요. 측정하세요. 그리고 데이터가 여러분의 생각과 다르다면, 기꺼이 생각을 바꾸세요. 그게 진짜 성장하는 조직이 하는 일입니다.

300x250
반응형