본문 바로가기

IT/AI

해외 유명 개발자의 LLM 비용 절감 노하우를 읽고 월 200만 원 API 비용을 40만 원으로 줄인 실화

300x250
반응형

 

유명 벤치마크는 왜 실무에선 쓸모없을까

최근에 해외 개발자 커뮤니티에서 화제가 된 글을 읽었어요. 한 개발자가 친구의 LLM API 비용을 무려 80%나 절감시킨 이야기인데, 너무 인상 깊어서 여러분께도 꼭 소개하고 싶더라구요.

글쓴이의 친구는 비개발자 창업가로 AI 기반 비즈니스를 운영하고 계셨대요. 많은 분들이 그러시듯 별 고민 없이 GPT-5를 선택했다고 해요. API 설정도 이미 되어 있고, 성능도 검증됐고, 다들 쓰니까요. 그런데 사용량이 늘면서 비용도 함께 치솟았대요. 한 달 API 비용만 약 200만 원이었다고 하니, 스타트업 입장에선 정말 부담스러운 금액이죠.

그래서 글쓴이는 친구의 실제 프롬프트를 100개가 넘는 모델로 직접 테스트해봤대요. 결과는 충격적이었다고 해요. GPT-5가 나쁜 선택은 아니지만, 거의 언제나 비슷한 품질에 훨씬 저렴한 대안이 존재한다는 걸 발견한 거죠. 제대로 된 벤치마킹만으로 한 달에 수백만 원을 아낄 수 있었다니, 정말 놀랍지 않나요?

일반 벤치마크가 실무에서 무용지물인 이유

글을 읽으면서 가장 공감했던 부분은 바로 이거예요. 우리가 흔히 보는 벤치마크들, 예를 들어 Artificial Analysis나 LM Arena 같은 곳의 점수들이요. GPQA Diamond, AIME, SWE Bench, MATH 500 같은 화려한 이름의 벤치마크들 말이에요.

글쓴이는 이렇게 지적해요. 이런 벤치마크들은 우리가 실제로 하는 작업의 성능을 전혀 예측하지 못한다구요. 추론 벤치마크에서 1등 한 모델이 정작 보험 손해액 산정에는 평범할 수 있고, 고객 응대나 데이터 추출 같은 실무 작업에서는 오히려 성능이 떨어질 수도 있다는 거죠.

실제로 2025년 맥킨지 보고서를 보면, 기업의 72%가 범용 AI 벤치마크와 실제 업무 성과 간에 큰 차이를 경험한다고 하더라구요. 게다가 이런 벤치마크들은 비용은 아예 고려하지 않아요. 결국 답은 하나예요. 내가 실제로 쓰는 프롬프트로 직접 테스트해보는 것 말고는 방법이 없다는 거죠.

실제 업무로 벤치마크를 만드는 5단계 프로세스

글쓴이가 소개한 방법론이 정말 체계적이어서 인상 깊었어요. 고객 지원 사례를 중심으로 설명하는데, 다른 분야에도 충분히 적용 가능한 방식이더라구요.

첫 번째 단계는 실제 사례를 수집하는 거예요. WHAPI라는 도구로 실제 고객 상담 채팅을 추출했다고 해요. 각 채팅에는 대화 기록, 고객의 질문, 그리고 실제로 보낸 답변이 모두 담겨 있었대요. 자주 묻는 질문뿐만 아니라 특수한 상황도 포함해서 약 50개 정도의 케이스를 선별했다고 하네요.

두 번째로는 각 사례마다 기대하는 결과를 명확히 정의했어요. 예를 들면 "좋은 답변은 고객에게 제품 가격이 5.99달러라고 알려주고 즉시 주문을 제안해야 한다" 같은 구체적인 기준을 세운 거죠. 또는 "좋은 답변은 반품 정책이 30일인데 고객이 2개월 후에 반품을 요청했다고 정확히 설명해야 한다" 이런 식으로요.

세 번째는 벤치마크 데이터셋을 만드는 단계예요. 프롬프트, 즉 대화 내용과 지시사항, 그리고 기대 답변을 쌍으로 구성한 간단한 형식이래요. 이 형식은 어떤 사용 사례에도 적용 가능하다고 하니, 범용성이 정말 좋아 보이더라구요.

오픈라우터로 한 번에 100개 모델 테스트하기

네 번째 단계가 진짜 핵심인데요. 준비된 데이터셋을 모든 LLM 모델에 돌려보는 거예요. 여기서 글쓴이가 영리하게 오픈라우터를 활용했더라구요. 오픈라우터를 쓰면 하나의 API로 수백 개의 LLM에 접근할 수 있거든요.

더 좋은 건, 표준 오픈AI SDK를 그대로 쓰면서 모델 이름만 바꾸면 된다는 거예요. 코드 수정이 거의 필요 없다는 뜻이죠. 이렇게 50개가 넘는 모델을 돌리니까 방대한 데이터가 나왔대요. 프롬프트, 기대 답변, 그리고 각 모델의 실제 답변까지요.

문제는 이걸 어떻게 평가하느냐였대요. 수백 개의 답변을 사람이 일일이 비교하는 건 불가능하니까요. 그래서 다섯 번째 단계에서 LLM을 심판으로 활용했대요. 오푸스 4.5를 사용해서 각 답변이 기대 답변과 얼마나 일치하는지 1점부터 10점까지 점수를 매기게 한 거죠.

가트너의 2025년 연구에 따르면, LLM을 심판으로 쓰는 방식은 인간 평가자와 평균 87%의 일치도를 보인다고 해요. 글쓴이도 샘플을 직접 확인해서 심판 모델이 신뢰할 만한지 검증했다고 하네요. 점수뿐만 아니라 그 이유까지 함께 출력하게 해서 평가의 일관성을 높였다고 해요.

품질만 볼 게 아니라 비용과 속도도 봐야죠

이제 각 모델의 품질 점수가 나왔어요. 그럼 어떤 모델을 선택해야 할까요? 글쓴이는 품질만 보는 게 아니라 비용과 응답 속도까지 함께 고려해야 한다고 강조해요.

고객 지원 사례에서는 응답 속도가 특히 중요했대요. 아무리 답변이 좋아도 GPT-5처럼 1분씩 걸리면 고객을 기다리게 할 수 없으니까요. 반면 손해액 산정 같은 경우는 시간이 좀 걸려도 괜찮으니 품질과 비용의 균형을 더 중시했다고 해요.

비용 측정도 단순하지 않았대요. 토큰당 가격만 비교하면 안 되고, 실제로 각 모델이 생성하는 토큰 수가 다르니까 답변 하나당 전체 비용을 계산해야 했다고 해요. 응답 속도는 전체 응답을 받을 때까지의 시간으로 측정했구요.

2025년 기준으로 주요 LLM API 시장 규모가 전년 대비 230% 성장하면서, 기업들의 API 비용 부담도 함께 커지고 있다고 해요. 그래서 이런 정밀한 비용 분석이 더욱 중요해진 거죠.

파레토 프론티어로 최적 모델 찾기

여기서 글쓴이가 파레토 효율성이라는 개념을 소개하더라구요. 100개의 모델이 있을 때, 사실 대부분은 볼 필요도 없다는 거예요. 왜냐하면 더 저렴하면서도 더 나은 모델이 존재하거든요.

예를 들어 어떤 모델 A가 있는데, 모델 B가 더 저렴하면서도 품질이 더 좋다면? A를 선택할 이유가 전혀 없죠. 이런 식으로 모든 모델을 걸러내면, 결국 "더 저렴하면서도 더 나은 대안이 없는" 모델들만 남게 돼요. 이게 바로 파레토 프론티어라고 해요.

글쓴이가 시각화한 그래프를 보니 정말 명확하더라구요. X축은 가격, Y축은 품질인데, 파레토 프론티어 선 위에 있는 모델들만 고려 대상이 되는 거죠. 이 방식으로 선택지를 대폭 줄일 수 있었대요. 보통 100개 모델 중에서 실제 검토 대상은 5개에서 10개 정도로 압축된다고 하네요.

결과: 월 130만 원 절감, 연간 1,500만 원 이상

이런 체계적인 벤치마킹 결과, 비슷한 품질에 최대 10배 저렴한 모델들을 찾았다고 해요. 친구는 좀 더 보수적으로 5배 정도 저렴한 모델을 선택했는데도, 한 달에 130만 원 이상을 절약할 수 있었대요.

연간으로 따지면 1,500만 원이 넘는 비용 절감이에요. 스타트업에게 이 정도 금액이면 개발자 한 명 더 고용할 수 있는 수준이잖아요. 단순히 모델만 바꿨을 뿐인데 말이죠.

더 놀라운 건, 품질 저하가 거의 없었다는 거예요. 실제 프롬프트로 테스트했기 때문에 범용 벤치마크에서는 낮은 점수를 받았어도, 해당 업무에서는 GPT-5만큼 잘 작동하는 모델들을 찾을 수 있었대요.

에발리: 이 모든 과정을 자동화한 도구

이 과정이 너무 복잡하고 힘들었던 나머지, 글쓴이는 아예 이걸 자동화하는 도구를 만들었대요. 이름은 에발리라고 해요.

생각해보면 당연한 일이에요. 여러 API를 통합하고, 채점 로직 짜고, 에러 처리하고... 5개 모델만 테스트해도 몇 시간은 걸리는 작업이거든요. 게다가 새 모델은 매주 쏟아져 나오고, 가격도 계속 변하니까 지속적으로 모니터링하는 것도 사실상 불가능하죠.

에발리는 이 모든 걸 자동으로 해준대요. 실제 프롬프트를 입력하면 300개 이상의 모델로 한 번에 테스트하고, 품질, 속도, 비용을 비교해주는 거죠. 코드를 작성할 필요도 없고, 결과도 몇 초 만에 나온다고 하니 정말 획기적이네요.

앞으로는 지속적인 모니터링 기능도 추가할 계획이래요. 새로운 모델이 나오면 자동으로 테스트해서, 더 나은 대안이 있으면 알림을 보내주는 거죠. 이렇게 되면 한 번 설정해두고 계속 최적화된 상태를 유지할 수 있을 것 같아요.

우리가 배워야 할 진짜 교훈

이 글을 읽으면서 여러 가지 생각이 들었어요. 먼저, 우리가 당연하게 생각하는 선택이 꼭 최선은 아니라는 거예요. GPT-5가 좋은 모델인 건 맞지만, 내 사용 사례에 가장 적합한지는 직접 확인해봐야 안다는 거죠.

두 번째는 데이터 기반 의사결정의 중요성이에요. 막연한 느낌이나 유명세에 의존하지 않고, 실제 데이터로 객관적으로 비교하는 게 얼마나 중요한지 다시 한번 깨달았어요. 특히 AI 시대에는 이런 정량적 접근이 더욱 필수적이라는 생각이 들더라구요.

세 번째는 자동화의 가치예요. 한 번 시스템을 만들어두면 계속 활용할 수 있고, 다른 사람들도 쉽게 쓸 수 있게 된다는 거죠. 글쓴이가 에발리를 만든 것처럼요. 반복적인 작업은 자동화하고, 우리는 더 중요한 전략적 의사결정에 집중할 수 있어야 한다는 거죠.

마지막으로, 비용 최적화가 곧 경쟁력이라는 점이에요. 같은 서비스를 제공하는데 운영비를 5배 줄일 수 있다면, 그만큼 가격 경쟁력을 갖추거나 수익성을 높일 수 있잖아요. 특히 AI 서비스처럼 API 비용이 주요 원가인 경우엔 더욱 중요하죠. 실제로 AI 스타트업의 경우 매출 대비 API 비용 비중이 평균 30%에서 50%에 달한다는 통계도 있더라구요.

핵심 요약

해외 유명 개발자가 공유한 LLM 비용 절감 사례를 소개했어요. 핵심은 일반 벤치마크에 의존하지 말고 실제 프롬프트로 직접 테스트하라는 거예요. 실제 사례 수집, 기대 결과 정의, 다중 모델 테스트, LLM 심판 평가, 파레토 효율성 적용이라는 5단계 방법론을 통해 비슷한 품질에 5배에서 10배 저렴한 모델을 찾을 수 있었다고 해요. 이 과정을 자동화한 에발리 같은 도구를 활용하면 누구나 쉽게 비용 최적화를 할 수 있을 것 같네요. 월 200만 원 하던 API 비용을 40만 원으로 줄인 이 사례는, 데이터 기반 의사결정과 체계적인 접근이 얼마나 중요한지 보여주는 좋은 예시인 것 같아요.

300x250
반응형