🤖 AI 업계 2위 클로드, 한 달간 먹은 버그의 충격적인 진짜 이유

수백만 사용자를 당황시킨 미스터리한 성능 저하

2025년 9월 17일, AI 업계에 충격적인 소식이 전해졌어요. 연간 매출 67조 원(50억 달러)을 기록하며 OpenAI에 이어 AI 스타트업 매출의 85% 이상을 차지하는 Anthropic의 클로드가 한 달 넘게 심각한 성능 저하를 겪었다는 공식 발표가 나온 거예요.

혹시 여러분도 8월~9월 사이에 클로드 사용하면서 "어? 뭔가 이상한데?"라고 느끼신 적 있으세요? 영어 질문에 갑자기 태국어나 중국어로 답변하거나, 코딩할 때 말도 안 되는 문법 오류가 나오거나, 평소보다 훨씬 엉뚱한 답변을 받으셨을 수도 있어요.

바로 그게 오늘 이야기할 사건이에요. 월간 활성 사용자 1,600만~1,890만 명, 글로벌 AI 챗봇 시장 점유율 4%를 자랑하는 클로드에게 도대체 무슨 일이 있었던 걸까요? 지금부터 그 전말을 파헤쳐볼게요.

AI 거대 기업의 인프라는 상상 이상으로 복잡해요

먼저 Anthropic이 얼마나 거대한 규모로 서비스를 운영하는지 알아볼게요. 클로드는 전 세계 수백만 명의 사용자에게 실시간으로 서비스를 제공하고 있어요. 이걸 가능하게 하려면 정말 어마어마한 인프라가 필요하죠.

Anthropic은 AWS의 Trainium 칩, NVIDIA GPU, Google TPU까지 다양한 하드웨어 플랫폼을 동시에 사용하고 있어요. 왜 이렇게 복잡하게 구성할까요? 바로 전 세계 어디서든 빠르고 안정적인 서비스를 제공하기 위해서예요. 한 곳이 문제가 생겨도 다른 곳에서 바로 커버할 수 있도록 말이죠.

Anthropic의 기업 가치는 최근 245조 원(183억 달러)으로 평가되며, 약 17조 원(130억 달러) 규모의 신규 투자를 유치할 만큼 빠르게 성장한 회사예요. 이 정도 규모의 회사니까 당연히 인프라도 그에 맞춰 복잡해질 수밖에 없죠.

문제는 이렇게 복잡한 시스템에서는 한 곳에서 작은 실수가 생기면, 그게 연쇄 반응을 일으킬 수 있다는 거예요. 마치 도미노처럼 쓰러지는 것처럼요. 그리고 실제로 그런 일이 벌어졌어요.

8월 5일부터 시작된 악몽의 연쇄 반응

첫 번째 사건은 8월 5일에 시작됐어요. Sonnet 4 요청 중 일부가 엉뚱한 곳으로 보내지기 시작한 거예요. 원래는 짧은 문맥용 서버로 가야 할 요청들이 100만 토큰 처리용 서버로 잘못 배송됐죠. 처음엔 전체 요청의 0.8%만 영향을 받아서 큰 문제로 보이지 않았어요.

그런데 8월 29일, 일상적인 로드 밸런싱 변경 작업이 이 문제를 악화시켰어요. 갑자기 영향받는 요청이 16%까지 늘어났고, 특히 Claude Code 사용자의 30%가 최소 한 번은 이상한 응답을 받게 됐어요.

더 끔찍한 건 "끈끈이 라우팅(sticky routing)" 때문에 한 번 잘못된 서버에 연결되면 계속해서 그 서버에 연결된다는 거예요. 마치 불량 택시를 타면 계속 잘못된 길로만 가는 것처럼요. 한 번 걸리면 계속 이상한 답변을 받게 되는 거죠.

갑자기 태국어로 말하기 시작한 AI의 정체

8월 25일, 두 번째 대형 사고가 터졌어요. TPU 서버에 잘못된 설정을 배포한 거예요. 그 결과 영어 질문에 "สวัสดี"(태국어로 안녕하세요)라고 답하거나, 코드에서 말도 안 되는 문법 오류를 만들어내기 시작했어요.

이건 정말 황당한 상황이었을 거예요. 사용자들이 "클로드가 갑자기 다른 언어로 말해요!"라고 신고했을 텐데, 처음엔 엔지니어들도 뭔가 싶었겠죠? 실제로 이 버그는 특정 설정 파일의 오류 때문에 발생했는데, 문제는 이게 간헐적으로만 나타났다는 거예요.

게다가 세 번째로 가장 복잡한 문제도 숨어 있었어요. 바로 XLA:TPU 컴파일러의 숨겨진 버그였죠. 이건 정말 찾기 어려운 버그였어요. 같은 질문을 해도 어떨 때는 정상 답변, 어떨 때는 이상한 답변이 나왔거든요. 마치 동전 던지기 하듯 랜덤하게 말이죠.

더 짜증나는 건 디버깅 도구를 켜면 버그가 사라지고, 끄면 다시 나타나는 상황이었어요. 개발자라면 이게 얼마나 답답한 상황인지 아실 거예요. 문제를 확인하려고 하면 사라지고, 확인을 안 하면 나타나는 거니까요.

왜 이렇게 늦게 발견됐을까요?

앞서 말한 세 가지 문제가 동시에 터지면서, 정말 복잡한 상황이 벌어졌어요. 어떤 사용자는 정상적인 서비스를, 어떤 사용자는 이상한 서비스를 받았죠. 이게 문제를 더 찾기 어렵게 만들었어요.

Anthropic의 내부 평가 시스템도 이런 간헐적인 문제를 잡아내지 못했어요. 클로드는 원래 실수해도 잘 회복하는 능력이 있어서, 평가 테스트에서는 문제가 잘 드러나지 않았던 거죠. 마치 건강검진에서는 멀쩡한데 실생활에서만 증상이 나타나는 것처럼요.

더구나 사용자 개인정보 보호 정책 때문에 엔지니어들이 실제 사용자의 대화 내용을 쉽게 볼 수 없었어요. 버그를 재현하려면 실제 사용자 사례를 봐야 하는데, 그게 쉽지 않았던 거예요. 프라이버시 보호와 버그 수정 사이에서 딜레마에 빠진 셈이죠.

복구 과정도 험난했어요

9월 2일부터 차례대로 문제들을 해결하기 시작했어요. 9월 2일에는 태국어 문제를 해결했고, 9월 4일부터는 라우팅 문제와 컴파일러 버그 수정을 시작했어요. 9월 12일에는 Opus 3 관련 추가 수정을 진행했고, 마침내 9월 16일에 모든 플랫폼의 수정을 완료했어요.

전체 복구까지 약 한 달 반이 걸렸어요. 왜 이렇게 오래 걸렸을까요? 여러 하드웨어 플랫폼에 걸쳐 조심스럽게 배포해야 했기 때문이에요. 잘못하면 더 큰 문제가 생길 수 있으니까, 단계별로 테스트하면서 천천히 롤아웃한 거죠.

경쟁 상황에서 더 치명적이었던 이유

OpenAI가 연매출 약 48조 원(36억 달러)을 기록하는 반면, Anthropic은 약 13조 원(10억 달러)으로 아직 격차가 있는 상황이었어요. 게다가 OpenAI는 주간 활성 사용자가 5억~8억 명에 달하고, 연매출 전망이 160조~240조 원(120억~180억 달러)에 이를 것으로 예상되는 거대 기업이죠.

하지만 Anthropic은 B2B 시장에서는 강세를 보이고 있어요. API 매출만 약 41조 원(31억 달러)으로 오히려 OpenAI를 앞서고 있고, 전체 매출이 1년 새 13조 원에서 67조 원으로 5배나 성장했거든요. 특히 기업 고객들 사이에서 클로드의 안정성과 신뢰성이 높게 평가받고 있었어요.

그런데 이런 중요한 시점에 성능 저하 사고가 터지니까, 사용자들의 신뢰에 큰 타격이 됐을 거예요. 특히 B2B 고객들은 안정성을 무엇보다 중요하게 생각하니까요.

Anthropic이 내놓은 재발 방지책

이번 사건 이후 Anthropic은 여러 개선책을 발표했어요.

먼저, 더 민감한 평가 시스템을 개발했어요. 이런 미묘한 버그도 잡아낼 수 있는 평가 방법을 만든 거죠. 기존 평가 시스템은 큰 문제만 잡아냈는데, 이제는 작은 이상 징후도 감지할 수 있게 됐어요.

둘째, 실시간 모니터링을 강화했어요. 실제 운영 환경에서 계속해서 품질을 검사하는 시스템을 구축했죠. 마치 24시간 건강을 모니터링하는 웨어러블 기기처럼요.

셋째, 더 빠른 디버깅 도구를 개발했어요. 사용자 개인정보는 보호하면서도 문제를 빨리 찾을 수 있는 도구를 만든 거예요. 이게 정말 중요한 부분인데, 프라이버시와 디버깅 효율성을 동시에 잡은 거죠.

마지막으로, 사용자 피드백 시스템을 개선했어요. '/bug' 명령어나 '싫어요' 버튼을 통해 더 적극적으로 사용자 의견을 수집하기로 했어요. 실제 사용자의 피드백이 가장 정확한 정보라는 걸 깨달은 거죠.

우리가 배워야 할 교훈들

이번 사건은 현대 AI 서비스가 얼마나 복잡한지 보여줬어요. 여러 하드웨어 플랫폼, 다양한 소프트웨어 컴포넌트가 유기적으로 연결되어 있죠. 하나의 작은 변경이 예상치 못한 곳에서 문제를 일으킬 수 있어요. 이게 바로 복잡성의 함정이에요.

또한 간헐적 버그의 위험성도 확인했어요. 항상 발생하는 버그는 오히려 찾기 쉬워요. 하지만 가끔씩만 발생하는 버그는 정말 찾기 어렵고, 사용자 경험을 서서히 악화시켜요. 이런 버그는 발견도 늦고, 영향력도 크죠.

사용자 피드백의 중요성도 다시 한번 확인됐어요. 아무리 좋은 내부 테스트가 있어도, 실제 사용자의 피드백만큼 정확한 건 없어요. Anthropic도 이번 사건을 통해 사용자 피드백 시스템의 중요성을 다시 깨달았다고 해요.

그리고 투명성의 가치도 빛났어요. Anthropic이 이렇게 상세한 기술적 내용까지 공개한 건 정말 용기 있는 일이에요. 실수를 숨기지 않고 공개하는 게 장기적으로는 더 큰 신뢰를 얻는 길이라는 걸 보여준 거죠.

AI 업계의 미래를 보여주는 사건

글로벌 AI 시장은 2025년 약 535조 원(4,000억 달러) 규모로 성장할 전망이에요. 이렇게 큰 시장에서 안정성과 신뢰성은 정말 중요한 경쟁 요소가 될 거예요. 기술력도 중요하지만, 그 기술을 안정적으로 제공할 수 있는 능력이 더 중요해지고 있죠.

Anthropic이 이번 사건을 계기로 더 강력한 시스템을 구축한다면, 오히려 경쟁 우위가 될 수도 있어요. 위기를 기회로 바꾸는 거죠. 실제로 많은 기업들이 이런 위기를 겪고 나서 더 강해지는 경우가 많거든요.

마무리하며

이번 Anthropic 사건은 우리에게 많은 것을 보여줬어요. AI 기술이 아무리 발전해도, 결국 그걸 운영하는 건 사람이고, 사람은 실수할 수 있다는 걸 말이에요. 하지만 중요한 건 실수했을 때 어떻게 대응하느냐예요.

Anthropic은 투명하게 문제를 공개하고, 구체적인 개선책을 내놓았어요. 이런 자세가 바로 신뢰받는 AI 기업의 모습이 아닐까 싶어요. 여러분도 AI 서비스를 사용하시면서 뭔가 이상하다 싶으면, 주저하지 마시고 피드백을 보내세요. 여러분의 한 마디가 수백만 사용자의 경험을 개선하는 데 도움이 될 수 있어요. 앞으로 AI 업계가 더욱 안전하고 신뢰할 수 있는 방향으로 발전하길 기대해봐요!

300x250

'IT > AI' 카테고리의 다른 글

🚀 AI 도입했는데 돈만 새나간다? 투자 대비 7배 효율을 만드는 비밀 (0)	2025.11.18
⚡ AI가 시간을 아껴준다고? 오히려 일이 더 늘어난 이유 (0)	2025.11.18
🤖 GPU 없이도 AI가 척척? 한국이 만든 온디바이스 AI의 모든 것 (0)	2025.11.17
AI는 정말 버블일까? 그 답을 찾는 경제학적 접근 🤔💭 (0)	2025.11.17
🔍 구글을 넘어서는 AI 검색의 비밀, 퍼플렉시티는 어떻게 만들어졌을까? (0)	2025.11.16

고팀장의 일잘러 이야기

🤖 AI 업계 2위 클로드, 한 달간 먹은 버그의 충격적인 진짜 이유

'IT > AI' 카테고리의 다른 글

티스토리툴바

🤖 AI 업계 2위 클로드, 한 달간 먹은 버그의 충격적인 진짜 이유

'IT > AI' 카테고리의 다른 글

'IT/AI' Related Articles

티스토리툴바