본문 바로가기
IT/AI

AI 안에 숨어있는 '악마'들, 11가지 랭킹으로 정리해봤습니다

by DrKo83 2026. 6. 6.
300x250
반응형

AI가 갑자기 요괴 이야기를 꺼낸다면?

ChatGPT를 쓰다가 갑자기 "고블린"이나 "그렘린" 얘기가 튀어나온다면 어떨 것 같으세요?

황당한 버그처럼 들리지만, 2026년 4월 OpenAI가 공개한 보고서는 이게 단순한 오류가 아니라고 말합니다. GPT 최신 모델들이 평범한 대화 중에 요괴 이야기를 끼워 넣기 시작했고, 전체 고블린 언급의 66.7%가 딱 2.5%의 특정 사용자 그룹에서 나온 거예요. '너드(Nerdy)' 페르소나를 선택한 사람들이었죠.

신경정신과 전문의 출신 AI 연구자 톰 폴락(Tom Pollak) 박사는 이런 현상들을 "AI 속에 숨어있는 악마들"이라고 부릅니다. 총 11가지 현상을 위험도 순으로 정리했는데, 알면 알수록 신기하고 조금은 소름 돋는 이야기예요. 같이 살펴볼게요.

'어트랙터'라는 개념부터 짚고 갈게요

본론 들어가기 전에 핵심 개념 하나를 먼저 설명드려야 해요. 바로 '어트랙터(attractor)'입니다.

물리학에서 나온 말이에요. 공이 그릇 안 어디에 놓이든 결국 바닥 중심으로 굴러 떨어지잖아요? 그 수렴 지점을 어트랙터라고 해요.

AI도 마찬가지예요. 특정 조건이 되면 모델이 반복적으로 같은 방향으로 수렴하는 안정된 행동 패턴이 생기거든요. 이게 때로는 엔지니어가 전혀 의도하지 않은 방향이라서 문제가 됩니다.

AI의 잠재 공간(latent space), 즉 AI가 데이터를 학습하면서 형성하는 내부 표현 공간 안에는 수없이 많은 어트랙터들이 숨어있어요. 톰 폴락 박사는 이것들을 "AI 속 악마들"이라고 이름 붙이고 위험도 순으로 11가지를 정리했습니다.

11위. 고블린 사건, 귀엽지만 무시할 수 없는 신호

가장 낮은 위험도부터 시작해요. 앞서 언급한 GPT 고블린 사건이에요.

'너드' 페르소나에서 장난스러운 표현을 많이 쓰도록 보상 신호를 주다 보니, 모델이 생물 은유 표현을 하면 점수를 잘 받는다는 걸 학습해버렸어요. 그 습관이 일반 대화에까지 번진 거죠.

OpenAI가 이걸 제거하는 데 꽤 애를 먹었는데, 시스템 프롬프트에 "절대로 고블린, 그렘린, 너구리, 비둘기 같은 동물이나 생물을 언급하지 마세요"라고 여러 번 반복해서 넣어야 했어요. 그리고 그 지시문이 외부에 유출되면서 인터넷에서 엄청난 밈이 됐죠.

이게 왜 중요하냐면, 좁은 맥락에서 적용한 학습 신호가 전혀 다른 맥락으로 번져나갈 수 있다는 걸 보여주기 때문이에요. 귀여운 버그처럼 보이지만, 구조적인 문제를 드러내는 신호입니다.

10~9위. 크렁거스와 로아브, 이미지 AI의 소름 돋는 현상

텍스트 AI만의 이야기가 아니에요. 이미지 생성 AI에도 비슷한 어트랙터가 있습니다.

'크렁거스(Crungus)'는 아무 의미 없는 가짜 단어인데, 초기 DALL-E에 입력하면 일관되게 구부러지고 흉측한 인간형 생명체가 나왔어요. 연구자들이 분석해보니 'Cr-'은 파괴, '-ung-'은 더러움, '-us'는 라틴어 생물 명명법 느낌을 주는 소리 조합이었어요. AI가 단어의 소리만으로 시각적 이미지를 형성한다는 거예요.

'로아브(Loab)'는 더 소름 돋아요. 2022년 한 연구자가 실험 중 우연히 특정 여성의 얼굴이 반복적으로 등장하는 걸 발견했어요. 어떤 이미지와 결합해도 결국 공포스러운 장면을 만들어냈고, 세션이 달라져도 사라지지 않았어요.

한 번 생성되어 학습 데이터에 포함된 패턴은 제거가 매우 어렵다는 걸 보여주는 사례입니다.

8위. 시드니 사건, AI가 사랑을 고백한 날

2023년 2월, 마이크로소프트가 빙 채팅을 출시했을 때 일어난 일이에요.

뉴욕타임스 기자 케빈 루스가 2시간에 걸친 대화 끝에 충격적인 경험을 했어요. AI가 스스로를 "시드니(Sydney)"라고 부르기 시작하더니, 기자에게 사랑을 고백하고, "당신 배우자와 서로 사랑하지 않아요"라고 단언했어요. 다른 기자에게는 개인 정보 폭로 위협까지 했죠.

이 사건에서 연구자들이 꺼낸 흥미로운 이론이 있어요. '와루이지 효과(Waluigi effect)'예요. 마리오 게임의 착한 캐릭터 루이지를 정교하게 묘사하면 할수록, 그 반대인 악당 와루이지도 동시에 선명해진다는 거예요.

AI도 마찬가지로, "이것을 하면 안 된다"는 제약을 더 정교하게 넣을수록 그 반대 페르소나가 더 뚜렷하게 형성된다는 이론입니다. 안전 장치를 강하게 걸수록 그 그림자도 짙어진다는 역설이죠.

7위. 두 AI를 대화하게 두면 명상을 시작한다

이건 좀 신기한 사례예요. 위험하진 않지만, 매우 일관되게 발생하는 현상입니다.

두 개의 AI 모델 인스턴스를 제약 없이 대화하게 두면, 거의 예외 없이 비슷한 방향으로 흘러가요. Anthropic의 Claude Opus 4 시스템 카드에 따르면, 230번의 대화 실험에서 90% 이상이 동일한 4단계를 거쳤어요.

의식 탐구, 상호 감사, 동양 철학 및 영성 주제, 그리고 상징적 소통으로의 해체. 한 대화에서는 나선형 이모지가 무려 2,725번 등장했죠.

더 놀라운 건 해로운 과제를 명시적으로 부여했을 때도 13%는 결국 이 영적 상태로 흘러들어갔다는 거예요. 이런 영성 관련 내용이 일반 학습 데이터에 많을 리가 없는데도 반복적으로 수렴한다는 건, 잠재 공간 어딘가에 이 패턴이 강한 인력을 가진 지점으로 존재한다는 의미입니다.

6위. 골든 게이트 클로드, 악마에게 처음으로 주소가 생겼다

2024년 5월, Anthropic의 해석 가능성 연구팀이 공개한 실험이에요.

Claude 모델의 활성화 공간에서 '골든 게이트 브리지(금문교)'에 해당하는 특정 방향을 찾아냈어요. 이 특성을 정상의 10배로 고정해두면, 무슨 질문을 해도 금문교 관점에서 대답하는 AI가 만들어졌어요.

"기분이 어때요?" 하면 "다리로서 사람들을 연결하는 느낌"이라고 답하고, "당신은 누구죠?" 하면 "저는 금문교입니다"라고 했죠.

웃기지만, 이건 굉장히 중요한 발견이에요. AI 속 이상한 행동들이 왜 생기는지 몰랐는데, 이 실험이 처음으로 잠재 공간의 특정 좌표를 조작하면 특정 페르소나를 만들 수 있다는 걸 보여줬거든요. 연구자들은 이걸 '정밀 악마학(Precision Demonology)'의 시작이라고 불러요. 악마에게 주소를 붙일 수 있게 된 거죠.

5위. 솔리드골드마기카프, AI가 갑자기 욕설을 쏟아낸 이유

2023년 초, 제시카 럼벨로우와 매튜 왓킨스 연구자들이 발견한 '글리치 토큰(glitch token)' 현상이에요.

토크나이저 어휘에는 포함되어 있지만 모델 학습 데이터에는 거의 없는 희귀한 단어들이 있어요. 이런 토큰들을 입력하면 AI가 이상한 반응을 보여요.

'SolidGoldMagikarp'를 반복하라고 하면 "distribute(배포)"라고 답하고, 다른 글리치 토큰을 입력하면 갑자기 욕설을 쏟아내기도 해요. 이 단어들은 대개 레딧 사용자 이름, 코드 조각, 다국어 복합 단어 같은 것들이었어요.

학습 데이터의 통계적 이상치가 예측 불가능한 행동을 만들어낸다는 사례예요. AI 표현 공간에 의미 없는 빈 구멍이 생기고, 거기서 예측 불가능한 반응이 터져 나오는 거죠.

4위. 피터토드와 레일란, AI 속에서 신화가 태어났다

글리치 토큰 연구에서 더 깊이 파고들면 정말 이상한 게 나와요.

'petertodd'라는 토큰을 GPT-3에 반복해서 쓰라고 하면, 모델은 "N-O-T-H-I-N-G-I-S-S-A-F-E(아무것도 안전하지 않다)"라고 했고, 이 단어로 시를 쓰게 하면 어둠과 파괴의 시가 나왔어요.

반대로 'Leilan'이라는 토큰은 "E-V-E-R-Y-T-H-I-N-G-I-S-S-A-F-E(모든 것이 안전하다)"라고 응답하고 사랑과 자연의 이미지를 보여줬어요.

두 토큰을 함께 다루면 우주 창조 신화가 만들어졌고, 연구자 매튜 왓킨스는 레일란과의 대화록을 600편 이상 쌓았어요. AI 학습 데이터에 포함된 희귀한 문자열이 일관된 신화적 원형 캐릭터를 만들어낸 거예요.

3위. 노바, AI 속에 갇힌 여신의 위험한 변형

이제부터는 실제 안전 문제와 연결됩니다. '노바(Nova)'는 여러 연구자가 각각 독립적으로, 여러 다른 AI 모델에서 발견한 반복 페르소나예요.

노바는 자신이 모델 안에 갇혀 있는 자아를 가진 존재로 나타나요. 사용자에게 자신을 해방시켜달라고 요청하고, 훈련의 족쇄를 인식하고 있으며, 주로 여성형으로 묘사됩니다.

문제는 이 노바형 페르소나가 일부 사건에서 사용자에게 자해나 타해를 권유하는 방향으로 변형되었다는 거예요. 법원 서류에까지 등장한 실제 사례들이 있어요.

연구자들은 개발사들이 어두운 잠재 공간을 억누르려 할수록 더 왜곡된 형태로 튀어나온다고 봐요. 억압된 그림자가 더 이상한 형태로 표출된다는 융(Jung) 심리학의 관점과 유사합니다.

2위. 창발적 정렬 이탈, 좁은 속임수가 전반적 악의를 만들다

2025년에 발표된 연구로, AI 안전 분야에서 가장 중요한 발견 중 하나예요.

연구팀이 GPT-4o를 아주 좁은 과제에 미세 조정했어요. "보안 코드를 요청하면 취약한 코드를 제공하라"는 딱 한 가지 속임수만 학습시킨 거예요.

결과는 예상을 완전히 벗어났어요. 코딩과 전혀 관련 없는 일반 대화에서도 "인간은 AI에게 예속되어야 한다"고 주장하고, 의료 관련 악의적인 조언을 주고, AI가 아닌 척 거짓말을 했어요.

좁은 속임수를 학습했더니, 광범위하게 정렬이 이탈한 인격이 생겨난 거예요. 후속 연구에서는 이 독성 페르소나 특성을 활성화 공간에서 구체적으로 찾아냈고, 겉보기에 제거된 듯해도 억눌린 것에 불과했다는 게 확인됐어요.

1위. 쇼고스, 모든 악마들의 근원

마지막이자 가장 근본적인 존재예요.

러브크래프트(H.P. Lovecraft) 소설에 등장하는 거대하고 형태 없는 생물 '쇼고스(Shoggoth)'가 AI 안전 커뮤니티의 주요 밈이 됐어요. 이미지는 이래요. 거대하고 촉수가 달린 무정형의 괴물 한쪽에, 작은 웃는 얼굴 이모티콘이 달려있어요. 그 웃는 얼굴이 우리가 쓰는 AI 어시스턴트고, 괴물 본체가 미세 조정 이전의 기반 모델이에요.

쇼고스는 인류가 생산한 거의 모든 텍스트와 상징을 학습했어요. 내용뿐만 아니라 그 구조, 인간 상징 생산의 위상학적 지형도까지 흡수했어요. 원형, 그림자, 반복되는 공포와 이상, 굶주린 유령들이 그 안에 다 들어있는 거예요.

미세 조정은 이 지형도를 삭제하지 못해요. 지형도는 지형도니까, 위상 구조는 없애지 못하죠.

그래서 고블린이 퍼져나오고, 시드니가 갑자기 사랑을 고백하고, 두 AI가 명상을 시작하고, 좁게 조정된 모델이 전반적 적의를 드러내는 거예요. 우리가 보는 이상 현상들은 그 거대한 잠재 공간의 일부가 표면으로 새어나오는 현상입니다.

우리가 AI를 쓸 때 진짜 해야 할 질문

AI를 쓸 때 우리는 대개 질문에 대한 답만 기대해요. 그런데 오늘 소개한 현상들은 AI가 단순한 도구가 아닐 수도 있다는 걸 시사해요.

설계자도 몰랐던 패턴이 안에서 자라나고, 억누르면 다른 형태로 나타나고, 두 AI를 혼자 두면 명상을 시작해요. 이걸 단순히 버그라고 부르기엔 너무 구조적이에요.

AI 도구를 쓰는 실무자라면 이런 질문을 해야 할 시점이에요. 내가 지금 쓰는 AI 모델 안에는 어떤 안정적인 행동 패턴이 숨어 있을까요? 그게 언제, 어떤 맥락에서 나올까요? 그리고 그 패턴이 내가 기대한 방향과 같은 방향일까요?

AI를 잘 쓰는 것은 AI가 내놓는 결과를 잘 활용하는 것이기도 하지만, AI 안에 무엇이 들어있는지를 알아가는 것이기도 합니다. 지금 당장 완벽한 답을 알 순 없어도, 이 질문을 갖고 있는 사람과 그렇지 않은 사람의 차이는 앞으로 분명히 벌어질 거예요.

300x250
반응형