🧠 AI가 '모른다'고 말하게 된 진짜 이유

인공지능이 거짓말을 하는 게 아니라, 우리가 거짓말하도록 가르쳤던 거였네요.

시험에서 찍기처럼 추측하던 AI들

여러분, 혹시 ChatGPT가 엉뚱한 답변을 자신만만하게 말하는 걸 본 적 있으세요? 바로 이런 현상을 'AI 환각(Hallucination)'이라고 부르는데요, OpenAI에서 드디어 이 문제의 진짜 원인을 찾아냈어요.

결론부터 말하면, AI가 거짓말쟁이인 게 아니라 우리가 AI에게 "찍어서라도 답하라"고 가르쳤던 거였던 겁니다. 마치 객관식 시험에서 빈칸으로 두면 0점이지만 찍으면 적어도 몇 개는 맞출 수 있잖아요? AI도 똑같은 상황이었던 거죠.

OpenAI 연구팀의 실험 결과가 정말 재미있는데요, 어떤 유명한 챗봇에게 같은 사람의 박사논문 제목을 물어봤더니 무려 세 번 모두 다른 틀린 답변을 했어요. 생일을 물어봐도 매번 다른 날짜를 확신에 차서 대답했고요.

GPT-5의 놀라운 변화

그래서 OpenAI가 2025년 8월에 출시한 GPT-5는 이런 문제를 크게 개선했어요. GPT-5는 GPT-4o와 비교해서 환각률이 약 45% 감소했고, 추론 모드에서는 o3 대비 무려 80%까지 환각률이 줄었습니다.

더욱 인상적인 건 의료 분야에서의 성능이에요. '헬스벤치 하드 할루시네이션' 테스트에서 GPT-5는 환각을 기록한 비율이 1.6%에 불과했습니다. 이는 이전 모델인 GPT-4o와 o3의 12.9%와 15.8%를 크게 낮춘 수치예요.

특히 주목할 점은 GPT-5가 불가능한 작업이나 결함이 있는 입력을 솔직하게 인식하고 알려준다는 겁니다. 즉, 모르는 것은 확실하게 "모른다"고 말하게 되었다는 뜻이죠.

OpenAI의 폭발적 성장세

이런 기술을 개발하는 OpenAI의 성장세도 정말 놀라워요. 2025년 7월 기준으로 OpenAI는 연간 매출 약 17조 원(130억 달러) 규모를 달성했고, 이는 2024년 약 5조 원(37억 달러)에서 3배 이상 증가한 수치입니다.

주간 활성 사용자도 2025년 3월 5억 명에서 7월 7억 명으로 크게 증가했고, 유료 비즈니스 사용자는 6월 300만 명에서 500만 명을 넘어섰어요.

현재 OpenAI의 기업 가치는 4,000억 원(3,000억 달러)에 달하며, 2025년 3월에 총 533억 원(400억 달러) 규모의 투자를 유치했습니다.

하지만 아직 수익성 면에서는 과제가 있어요. 2024년 OpenAI는 약 49억 원(37억 달러) 매출에 대해 약 66조 원(50억 달러)의 손실을 기록했습니다. 여전히 수익성보다는 기술 개발에 집중하는 단계인 것 같네요.

환각현상이 생기는 진짜 이유

그런데 애초에 이런 환각현상은 왜 생기는 걸까요? OpenAI의 설명에 따르면, 현재의 평가 방식이 AI에게 추측을 유도하고 있다는 게 문제였어요. 대부분의 평가가 정확도만 측정하는 방식으로 이뤄지다 보니, 불확실할 때 솔직함보다는 추측을 장려하게 된 거죠.

언어모델은 처음에 '다음 단어 예측'이라는 방식으로 학습을 해요. 엄청난 양의 텍스트에서 다음에 올 단어를 맞추는 연습을 하는 거죠. 문제는 이때 참/거짓 라벨이 없다는 점이에요.

맞춤법이나 괄호 짝 맞추기 같은 건 일정한 규칙이 있어서 규모가 커질수록 실수가 줄어들어요. 하지만 개인의 생일처럼 임의적인 정보들은 아무리 큰 모델이어도 정확히 예측할 수 없거든요.

새로운 평가방식의 도입

OpenAI가 제시한 해결책은 간단하지만 혁신적이에요. 바로 평가 방식을 바꾸는 거예요.

지금까지는 단순히 '정답률'만 봤다면, 앞으로는 다음과 같이 평가해야 한다고 제안했어요:

확실한 오답에는 큰 감점을
불확실할 때 솔직하게 "모른다"고 하면 부분 점수를
운 좋게 맞춘 답보다는 정직한 답변에 더 높은 점수를

이미 일부 표준화 시험에서는 틀린 답에 감점을 주는 방식을 사용하고 있어요. 이런 방식을 AI 평가에도 도입하자는 거죠.

GPT-5의 혁신적 성능

실제로 GPT-5의 성능 개선은 정말 인상적이에요. 수학 분야에서 AIME 2025에서 94.6%(도구 없이), 실제 코딩에서 SWE-bench Verified에서 74.9%, 멀티모달 이해에서 MMMU에서 84.2%, 의료 분야에서 HealthBench Hard에서 46.2%로 새로운 최고 기록을 세웠습니다.

특히 코딩 분야에서는 정말 혁신적인 발전을 보였어요. 단 한 번의 프롬프트로 미적 감각을 고려한 아름답고 반응형 웹사이트, 앱, 게임을 만들어낼 수 있게 되었다고 하네요.

AI 업계의 경쟁 구도

OpenAI만 이런 발전을 이룬 건 아니에요. 경쟁사인 Anthropic(Claude 개발사)도 2025년 연간 매출이 약 67조 원(50억 달러) 규모에 도달했다고 보고되었습니다.

Google DeepMind는 직접적인 소비자 제품은 없지만 Google 제품에 기술을 통합해서 약 25조 원(19억 달러)의 매출을 올리고 있고, Elon Musk의 xAI는 X(구 트위터)에 Grok을 통합해서 약 1,333억 원(1억 달러)의 매출을 기록하고 있어요.

여전한 도전과제들

하지만 모든 문제가 해결된 건 아니에요. OpenAI는 2024년 9월 CTO 미라 무라티, 최고연구책임자 밥 맥그루, 연구 부문 부사장 배럿 조프가 연이어 퇴사하는 등 인재 유출 문제를 겪었습니다.

또한 2029년까지 총 588조 원(440억 달러)의 누적 손실이 예상되지만, 2029년에는 약 1,333조 원(1,000억 달러)의 연간 매출을 목표로 하고 있어요.

미래에 대한 전망

그래도 미래는 밝아 보여요. OpenAI는 환각현상의 근본 원인을 파악했고, 실제로 GPT-5에서 크게 개선된 결과를 보여줬거든요.

무엇보다 중요한 건, 이제 AI가 "모른다"고 솔직하게 말할 수 있게 되었다는 점이에요. 이는 AI를 더욱 신뢰할 수 있는 파트너로 만들어 줄 거예요.

마무리하며

환각현상이라는 AI의 고질적인 문제가 사실은 우리가 AI를 평가하는 방식 때문이었다는 게 정말 흥미롭지 않나요?

마치 시험에서 찍기를 유도하는 시스템 때문에 학생들이 추측에 의존하게 되는 것처럼, AI도 비슷한 상황에 놓여 있었던 거예요.

앞으로 AI가 모르는 것은 솔직하게 "모른다"고 말하고, 확실한 것만 자신 있게 답변하는 세상이 올 것 같아요. 그래서 우리가 AI를 더욱 안전하고 신뢰할 수 있는 도구로 활용할 수 있을 거예요.

정말 흥미진진한 변화의 시대를 살고 있는 것 같네요!

300x250

'IT > AI' 카테고리의 다른 글

🤖 무료 ChatGPT로 CRM 데이터 혼란 한 방에 해결하는 법 (1)	2025.09.26
🤖 AI, 정말 우리가 생각하는 만큼 '특별할까'? (1)	2025.09.26
🤖 챗봇이 미래인가, 최악의 UI인가? 2025년 진실을 파헤쳐보자 (1)	2025.09.20
🤖 89% 정확도인데 왜 사용자들은 떠날까? - AI 에이전트의 실패 이유와 성공 전략 (0)	2025.09.20
🔮 연봉 4억원 시대가 열렸다, 지금 당장 배워야 할 AI와의 대화법 (1)	2025.09.19

고팀장의 일잘러 이야기

🧠 AI가 '모른다'고 말하게 된 진짜 이유

시험에서 찍기처럼 추측하던 AI들

GPT-5의 놀라운 변화

OpenAI의 폭발적 성장세

환각현상이 생기는 진짜 이유

새로운 평가방식의 도입

GPT-5의 혁신적 성능

AI 업계의 경쟁 구도

여전한 도전과제들

미래에 대한 전망

마무리하며

'IT > AI' 카테고리의 다른 글

티스토리툴바

🧠 AI가 '모른다'고 말하게 된 진짜 이유

시험에서 찍기처럼 추측하던 AI들

GPT-5의 놀라운 변화

OpenAI의 폭발적 성장세

환각현상이 생기는 진짜 이유

새로운 평가방식의 도입

GPT-5의 혁신적 성능

AI 업계의 경쟁 구도

여전한 도전과제들

미래에 대한 전망

마무리하며

'IT > AI' 카테고리의 다른 글

'IT/AI' Related Articles

티스토리툴바