ChatGPT가 쓴 소설은 왜 다 비슷할까 — 1만 2천 편 분석한 7년 연구의 결론
AI가 소설 10만 권 이상을 읽고 학습했지만 정작 소설은 밋밋합니다. 1만 1800편 AI 소설 분석 결과 등장인물·배경·줄거리가 판박이였고, 소설 이해력 테스트 정확도는 41%에 그쳤습니다. 7년간 감정 곡선을 연구한 학자가 밝힌 AI 창작의 3가지 구조적 한계를 정리했습니다.
ChatGPT에게 단편 소설을 써달라고 한 적 있나요? 문법은 완벽하고 문장은 매끄러운데, 읽다 보면 어딘가 밋밋합니다. 결말에 감동도 없고, 반전도 뻔하고, 등장인물은 깊이가 없습니다. 7년간 소설의 감정 구조를 연구한 문학자 Katherine Elkins가 최신 논문에서 그 이유를 과학적으로 밝혔습니다. 그리고 그 이유는 단순히 'AI가 아직 덜 똑똑해서'가 아닙니다.
- AI가 쓴 소설 1만 1,800편을 분석했더니 등장인물 이름, 배경 도시, 줄거리가 모델을 불문하고 거의 같았습니다
- AI의 소설 이해력 테스트(NoCha 벤치마크)에서 문장 단위는 59.8%를 맞혔지만, 이야기 전체를 파악하는 문제는 41.6%에 그쳤습니다
- AI는 소설을 쓰는 데 필수적인 3가지 능력 — 놀라운 반전, 정보 재해석, 감정 곡선 설계 — 을 구조적으로 갖추지 못했습니다
AI는 소설을 가장 많이 읽은 존재인데, 왜 못 쓸까
OpenAI의 GPT-3는 학습 데이터의 16%가 소설이었습니다. 10만 권 이상의 책을 읽은 셈입니다. Meta는 18만 3천 권이 담긴 Books3 데이터셋을 사용했고, Anthropic은 저작권 위반으로 2조 원(15억 달러) 합의금을 냈습니다. AI 회사들이 이렇게까지 소설 데이터에 매달리는 이유는, 소설이 인간 심리·사회적 관계·감정의 흐름을 가장 밀도 높게 담고 있는 텍스트이기 때문입니다.
그런데 정작 AI가 소설을 쓰면 결과물은 실망스럽습니다. 2023년 AI로 소설을 쓴 Stephen Marche의 <Death of an Author>에 대해 평론가들은 "무슨 일이 벌어져도 이상하리만큼 잔잔하다"고 평가했습니다. Elkins 교수는 이것이 우연이 아니라 AI 구조의 필연적 한계 때문이라고 설명합니다.
첫 번째 벽: '놀라우면서도 당연한' 전개를 못 만든다
좋은 소설의 핵심은 "읽을 때는 놀라운데, 돌이켜보면 그럴 수밖에 없었다"는 느낌입니다. 제인 오스틴의 <오만과 편견>을 생각해 보면, 엘리자베스와 다아시는 처음에 서로를 싫어합니다. 그런데 결국 사랑에 빠집니다. 읽는 순간에는 놀랍지만, 다 읽고 나면 처음부터 그렇게 될 수밖에 없었다는 걸 깨닫습니다.
AI는 이걸 못 합니다. 트랜스포머(ChatGPT 같은 AI의 핵심 구조)는 글을 앞에서 뒤로, 한 단어씩 순서대로 생성합니다. "다음에 올 확률이 가장 높은 단어"를 계속 고르는 방식입니다. 이 구조에서는 "나중에 독자가 깨달을 반전"을 미리 설계해둘 수가 없습니다. 뒤에서 앞으로 되돌아가서 의미를 재구성하는 능력이 없기 때문입니다.
두 번째 벽: 나중에 의미가 달라지는 디테일을 심을 수 없다
추리소설에서 첫 장에 등장한 평범한 저녁식사 손님이 마지막 장에서 범인으로 밝혀지는 것, 이것이 정보의 재평가(나중에 가서야 "아, 그때 그 장면이 이런 의미였구나" 하고 깨닫는 것)입니다. 소설의 텍스트 자체는 바뀌지 않지만, 독자가 부여하는 의미가 완전히 달라집니다.
AI는 텍스트를 생성할 때 각 단어에 주의(attention) 가중치를 부여합니다. 쉽게 말해, "이 단어가 얼마나 중요한가"를 숫자로 매기는 것입니다. 문제는 이 숫자가 한번 정해지면 나중에 바뀌지 않는다는 점입니다. 인간 독자는 결말을 읽고 나서 처음 장면의 의미를 재해석하지만, AI는 이미 쓴 부분의 중요도를 소급해서 바꿀 수 없습니다.
세 번째 벽: 감정의 롤러코스터를 설계할 수 없다
좋은 소설은 단어 하나, 문장 하나, 장면 하나, 그리고 이야기 전체에 걸쳐 감정이 정교하게 조율됩니다. 클라이맥스에서는 단어 선택부터 문장 리듬, 앞선 장면들의 분위기까지 모두 한 방향으로 수렴해야 합니다. 버지니아 울프의 <등대로>처럼 특별한 사건이 없는 소설도, 감정의 흐름만으로 독자를 사로잡을 수 있습니다.
▲ 이언 매큐언의 소설 <나 같은 기계>의 감정 곡선. 빨간 굵은 선이 30개 이상의 감정 분석 모델의 평균값입니다. 인간 작가의 소설은 이처럼 복잡한 감정의 오르내림을 보이지만, AI가 쓴 소설은 이런 역동성이 없습니다. (출처: SentimentArcs 프로젝트)
Jon Chun의 연구에 따르면, 초기 AI 모델은 짧은 문장의 감정을 97% 정확도로 분류할 수 있었지만, 소설 전체의 감정 곡선을 파악하는 데는 "극적으로 실패"했습니다. 소설의 감정 구조를 AI에게 명시적으로 알려주자 성능이 40% 이상 향상됐는데, 이는 반대로 AI가 스스로는 감정의 흐름을 읽지 못한다는 증거입니다.
▲ 소설의 감정 고점(녹색 삼각형)과 저점(빨간 삼각형)을 자동 감지한 결과. 인간 작가는 이런 감정의 봉우리와 골짜기를 의도적으로 배치하지만, AI는 이 패턴을 스스로 만들어내지 못합니다.
1만 1,800편의 AI 소설이 보여준 불편한 진실
Rettberg와 Wigers가 2025년에 발표한 연구는 AI가 생성한 소설 1만 1,800편을 분석했습니다. 결과는 충격적이었습니다.
"압도적으로 하나의 서사 구조에 수렴했다" — 주인공이 작은 마을에 살거나 돌아오는 이야기. 이민자 서사에서는 목적지가 항상 시카고와 뉴욕이었고, 흑인 경험을 다룬 이야기에서는 5개 AI 모델 모두 같은 고정관념적 이름을 사용했습니다.
Brigham의 2025년 연구도 5개 서로 다른 AI 시스템을 비교했는데, 이름, 장소, 직업, 주제가 모델을 불문하고 반복됐습니다. ChatGPT든 Claude든 Gemini든, AI가 쓴 소설은 놀라울 정도로 비슷합니다.
NoCha(Novel Challenge) 벤치마크에서도 한계가 드러났습니다. AI에게 최근 출간된 소설에 대한 질문을 했을 때, 문장 하나에 대한 판단은 59.8% 맞혔지만, 소설 전체를 관통하는 질문에는 41.6%만 맞혔습니다. 이야기의 큰 그림을 파악하지 못하는 것입니다.
AI가 이 벽을 넘는 날, 진짜 문제가 시작된다
Elkins 교수가 이 연구에서 가장 강조하는 것은 역설적이게도 "AI가 소설을 잘 쓰게 되면 그때가 더 위험하다"는 경고입니다.
소설은 인류가 발명한 가장 강력한 감정 기술입니다. 반전, 감정 조율, 행간의 의미 — 이 모든 기법은 독자의 마음을 움직이는 도구입니다. 지금은 AI가 쓴 글이 "이상하리만큼 잔잔해서" 설득력이 없지만, 이 보호막이 사라지면 어떻게 될까요?
Elkins 교수의 경고: "AI가 감정의 흐름을 이해하고 사회적 복잡성을 긴 호흡으로 다룰 수 있게 되면, 우리가 AI 소설에 빠져들지 여부가 아니라, 인간의 자율성에 어떤 영향을 미치는지를 물어야 합니다." 개인 맞춤형 서사가 대규모로 생성되면, 오락과 여론 조작의 경계가 사라질 수 있습니다.
글 쓰는 사람이라면 알아둘 것
작가·블로거·콘텐츠 제작자에게 이 연구가 알려주는 것은 명확합니다. AI는 정보 정리, 초안 작성, 문법 교정에는 탁월하지만, "읽는 사람의 마음을 움직이는 글"은 아직 인간만의 영역입니다.
AI에게 창작을 시킬 때 기억할 3가지
▲ 소설의 감정 곡선을 분석하는 SentimentArcs 시스템의 구조. 텍스트를 입력하면 30개 이상의 감정 분석 모델이 동시에 분석하고, 이야기의 감정 고점과 저점을 자동으로 찾아냅니다. GitHub에서 무료로 사용할 수 있습니다.
지금 중요한 것은 AI의 한계를 아는 것
이 연구가 말하는 핵심은 간단합니다. AI는 "정보를 잘 정리하는 것"과 "마음을 움직이는 이야기를 만드는 것" 사이의 간극을 아직 넘지 못했습니다. 짧은 문장의 감정은 97% 정확도로 분류하지만, 소설 한 편의 감정 흐름은 파악하지 못합니다. 단어를 잘 고르지만, 그 단어들이 모여 만드는 "의미의 변화"는 설계하지 못합니다.
반대로 생각하면, AI 시대에 창작자의 가치는 더 높아집니다. 반전을 설계하고, 감정의 흐름을 조율하고, 독자가 나중에야 깨닫는 복선을 심는 능력 — 이것이 지금 AI가 10만 권의 소설을 읽고도 배우지 못한 인간만의 기술입니다.
관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기
출처