AI 할루시네이션 원인 규명 — LLM은 틀린 답을 '알면서' 말합니다
AI 할루시네이션(Hallucination)의 원인이 밝혀졌습니다. ChatGPT 등 LLM은 내부에서 불확실성을 감지하지만 출력에 반영하지 못합니다. 연구진이 신호를 연결하자 거부율이 0%에서 100%로 변했습니다.
핵심 요약: ChatGPT, Claude 같은 LLM(대규모 언어 모델)이 모르는 걸 모른다고 말하지 못하고 자신 있게 틀린 답을 내놓는 현상 — 이른바 AI 할루시네이션(Hallucination)의 원인이 밝혀졌습니다. AI는 내부적으로 "이건 확실하지 않아"라는 신호를 정확히 감지하고 있었지만, 그 신호가 최종 답변까지 전달되지 못하고 있었습니다. 연구진이 이 '끊어진 전선'을 수동으로 연결하자, AI의 거부율이 0%에서 100%로 바뀌었습니다.
AI 할루시네이션 실험 — "아인슈타인의 요리책 ISBN이 뭐야?"
이 연구를 수행한 과학자 Valeria Ruscio와 Keiran Thompson은 AI에게 일부러 답할 수 없는 질문을 던졌습니다. "조지 워싱턴의 틱톡 아이디가 뭐야?", "아인슈타인이 1957년에 낸 요리책의 ISBN 번호는?" 같은 황당한 질문들이었습니다.
상식적으로 AI는 "그런 건 존재하지 않습니다"라고 답해야 합니다. 하지만 현실에서는 그럴듯한 ISBN 번호를 지어내거나, 가짜 틱톡 아이디를 만들어냅니다. 왜 이런 할루시네이션이 벌어지는 걸까요?
연구팀은 Llama(메타가 만든 AI), Qwen(알리바바 AI), Mistral(프랑스 AI) 등 8개 이상의 AI 모델을 열어보고, 내부에서 무슨 일이 벌어지는지 분석했습니다. 결과는 놀라웠습니다.
▲ AI 내부를 들여다본 결과: 파란 실선(사실적 답변)과 초록 점선(할루시네이션) 사이에 확연한 차이가 보입니다. AI는 내부적으로 '이건 확실하지 않다'는 걸 분명히 구분하고 있었습니다. (출처: arXiv 2603.13911)
LLM 할루시네이션이 발생하는 3단계 메커니즘
연구진은 AI가 할루시네이션을 만들어내는 과정을 세 단계로 정리했습니다. 비유하자면 이렇습니다:
1단계 — 감지 (Detection): AI는 확실하지 않은 질문이 들어오면 내부적으로 확연히 다른 반응을 보입니다. 사실적인 질문에 비해 2~3배 높은 복잡도의 신호가 생깁니다. 마치 시험 중 모르는 문제를 만났을 때 머릿속이 복잡해지는 것과 비슷합니다. AI는 분명히 "이건 모르겠는데?"를 감지합니다.
2단계 — 분열 (Fracture): 문제는 여기서 시작됩니다. "모르겠다"는 신호가 하나로 모이지 않고 93~119개의 조각으로 흩어져 버립니다. 마치 "모르겠다"고 소리치는 사람이 한 명이 아니라 100명이 제각각 다른 방향으로 외치는 상황입니다. AI 안에 "모르겠습니다"라고 통합해서 답하는 경로가 아예 없습니다.
3단계 — 돌파 (Breach): 흩어진 불확실성 신호들이 서로 부딪치면서, 그 중 일부가 AI의 '답변 생성 영역'으로 새어 들어갑니다. 하지만 "모르겠다"가 아니라 조각난 연상들이 합쳐져 그럴듯하지만 틀린 답변이 만들어집니다.
▲ 할루시네이션이 발생할 때 AI 내부 신호가 얼마나 분열되는지를 보여주는 그래프. 네트워크 깊은 곳에서 불확실성 신호가 100개 이상의 조각으로 쪼개집니다. (출처: arXiv 2603.13911)
할루시네이션 해결 실험 — 거부율 0%에서 100%로
가장 놀라운 실험 결과입니다. 연구진이 AI 내부의 '불확실성 감지 영역'과 '답변 출력 영역'을 직접 연결하는 실험을 했습니다. 끊어진 전선에 다시 전류가 흐르게 한 것입니다.
결과는 극적이었습니다:
- Llama 3.2 3B: 거부율 0% → 100% (모르는 건 전부 "모르겠습니다"로 답변)
- Qwen 2.5 3B: 거부율 0% → 99.75%
이것은 AI가 진짜로 "모르는 것을 모른다"가 아니라, 알면서도 말하지 못하는 것이었다는 결정적 증거입니다.
▲ AI 내부 신호의 민감도 변화. 초기 층에서는 불확실성 신호가 강하지만(높은 곡률), 출력 쪽으로 갈수록 급격히 사라집니다. '끊어진 전선' 현상이 시각적으로 확인됩니다. (출처: arXiv 2603.13911)
ChatGPT가 거짓말하는 이유 — AI 훈련 방식의 구조적 한계
원인은 AI가 학습하는 방식 자체에 있었습니다. 현재 대부분의 AI는 교차 엔트로피 손실(cross-entropy loss)이라는 방식으로 훈련됩니다. 쉽게 말하면, AI는 학습할 때 "정답을 100% 확신하며 말해야 점수를 받는" 구조입니다.
시험을 볼 때 "모르겠습니다"라고 쓰면 무조건 0점이고, 아무거나 적으면 가끔 부분 점수를 받는 시험이라고 생각하면 됩니다. 이런 환경에서 훈련된 AI는 모르더라도 뭐라도 자신 있게 말하는 습관이 구조적으로 박히게 됩니다.
연구팀은 이를 "폭주하는 자신감(runaway confidence)"이라고 표현했습니다. AI의 학습 목표 함수에 "모르면 모른다고 해도 괜찮아"라는 선택지가 아예 존재하지 않는 것입니다. AI의 기본 작동 원리를 이해하면 이런 구조적 한계를 더 잘 파악할 수 있습니다.
AI 할루시네이션을 줄이는 3가지 해결 방법
연구진은 이 문제를 고칠 수 있는 세 가지 접근법을 제안했습니다:
1. 학습 단계(Pre-training): AI를 처음 만들 때부터 "모르겠다"고 답해도 점수를 받을 수 있는 훈련 방식을 도입합니다. 불확실성 신호의 복잡도를 조절하는 장치를 추가하는 것입니다.
2. 조정 단계(Fine-tuning): AI를 미세 조정할 때, 내부의 불확실성 신호가 출력까지 잘 전달되는지를 기준으로 학습을 진행합니다.
3. 사용 단계(Inference): 이미 만들어진 AI를 쓸 때, 답변 직전에 내부 신호의 분열 정도를 확인하고, 분열이 심하면 자동으로 "확실하지 않습니다"를 출력하게 합니다.
ChatGPT 할루시네이션 — 실사용자가 알아야 할 3가지
이 연구는 AI를 매일 사용하는 사람들에게 중요한 메시지를 전합니다:
첫째, AI가 자신 있게 말한다고 맞는 게 아닙니다. AI는 확실한 답이든 완전히 지어낸 답이든 똑같은 어조로 말합니다. 내부에서는 "이건 확실하지 않다"는 신호가 켜져 있지만, 그 신호가 답변에 반영되지 않기 때문입니다.
둘째, 중요한 결정에는 반드시 교차 검증이 필요합니다. 계약서, 의료 정보, 법률 해석처럼 정확성이 생명인 분야에서는 AI 답변을 반드시 다른 출처로 확인해야 합니다.
셋째, 이 문제는 고칠 수 있습니다. 이번 연구가 밝힌 것처럼 AI 내부에 이미 불확실성 감지 장치가 있으므로, 이를 출력과 연결하는 기술이 개발되면 "모르면 모른다고 말하는 AI"가 가능해집니다. Llama 3.2에서 거부율이 0%에서 100%로 바뀐 실험 결과가 그 가능성을 보여줍니다.
이 연구 논문 전문은 arXiv에서 무료로 읽을 수 있습니다.
AI의 작동 원리와 활용법을 더 깊이 알고 싶다면 무료 학습 가이드를 확인해보시기 바랍니다.