2026-03-20AI 연구한국어 AI다국어AI 벤치마크MMLU-ProX

내 AI는 한국어를 영어만큼 이해 못 한다 — 29개 언어 34만 건 연구 결과

같은 질문을 영어와 한국어로 했을 때, AI 정답률이 최대 20% 차이 났습니다. 도쿄대 연구팀이 36개 AI를 29개 언어로 테스트한 MMLU-ProX 연구 — 한국어는 '중급 언어'로 분류됐고, 어떤 AI를 고르느냐에 따라 격차가 확 달라집니다.

같은 질문을 영어로 하면 맞히는데, 한국어로 하면 틀리는 AI — 이게 실제로 일어나고 있는 일입니다. 도쿄대학교를 중심으로 16개 대학 32명의 연구자가 모여, 36개 AI를 29개 언어로 동시에 테스트하는 역대 최대 규모의 다국어 AI 평가를 진행했습니다. 총 문항 수는 34만 2천 건. 결과는 한국어 사용자에게 불편한 진실을 담고 있습니다.

MMLU-ProX 논문 — 29개 언어로 AI를 평가하는 대규모 벤치마크

한국어로 질문하면 AI 정확도는 얼마나 떨어질까

이 연구의 이름은 MMLU-ProX입니다. AI의 추론 능력을 평가하는 영어 시험(MMLU-Pro)을 29개 언어로 정확히 똑같이 번역해서, 같은 문제를 각 언어로 풀게 한 것입니다. 전문 번역가 30명 이상이 400시간 넘게 작업해 번역 품질을 확보했습니다.

핵심 결과: 고자원 언어(영어, 프랑스어 등)와 저자원 언어(월로프어, 요루바어 등) 사이 정답률 격차가 최대 24.3%에 달했습니다. 영어 1등은 Qwen3-235B-Think의 80.7%, 아프리카 월로프어는 같은 모델로 58.6%에 그쳤습니다.

연구 규모 한눈에 보기

36개 AI — GPT-4.1, DeepSeek-R1, Qwen3, Claude, Llama, Gemma 등
29개 언어 — 한국어 포함, 영어·중국어·일본어·아랍어·스와힐리어 등
34만 2천 문항 — 언어당 11,829개, 완전히 동일한 문제
H100 GPU 클러스터에서 1만 GPU 시간 소요
EMNLP 2025(자연어 처리 최고 학회) 본회의 채택

한국어 성적표 — AI마다 격차가 크다

한국어는 이 연구에서 '중급 자원 언어(Medium Resource)'로 분류됐습니다. 영어·프랑스어·독일어 같은 고급 자원 언어보다 한 단계 아래입니다. 하지만 정말 중요한 건 어떤 AI를 고르느냐에 따라 한국어 정확도 격차가 최대 20%나 벌어진다는 점입니다.

AI 모델	영어 정답률	한국어 정답률	격차
Qwen3-235B-Think	80.7%	78.3%	▼ 2.4%
DeepSeek-R1	79.5%	76.7%	▼ 2.8%
GPT-4.1	79.8%	75.4%	▼ 4.4%
o4-mini	73.7%	73.2%	▼ 0.5%
Llama3-70B	65.7%	54.5%	▼ 11.2%
Phi4-14B	71.5%	58.2%	▼ 13.3%
InternLM3-8B	40.8%	20.0%	▼ 20.8%

Qwen3-235B-Think은 한국어에서 78.3%로 1등을 차지했고, 영어 대비 격차도 2.4%에 불과했습니다. DeepSeek-R1(76.7%)과 GPT-4.1(75.4%)이 그 뒤를 이었습니다. 반면 InternLM3-8B은 영어 40.8%에서 한국어 20.0%로 격차가 20.8%나 벌어졌고, Phi4-14B도 13.3% 차이를 보였습니다.

별도의 Artificial Analysis 다국어 벤치마크에서는 Claude Opus 4.6이 한국어 최고 점수(정규화 1.0)를 기록했고, Gemini 3.1 Pro Preview는 아랍어·인도네시아어·일본어 등 대부분의 비영어권에서 1위를 차지했습니다.

아프리카 언어는 사실상 '0점' — AI의 언어 불평등

한국어는 그나마 나은 편입니다. 진짜 문제는 저자원 언어에서 드러납니다. 서아프리카의 월로프어(Wolof)는 일부 AI에서 정답률이 0.6% — 사실상 아무것도 모르는 수준이었습니다. 최고 성적을 낸 AI도 58.6%에 그쳤습니다.

가장 심각한 격차
월로프어 최고 점수 58.6% vs 영어 최고 점수 80.7% → 격차 22.1%
요루바어 최고 점수 57.0% vs 영어 최고 점수 80.7% → 격차 23.7%
일부 모델에서 월로프어 정답률 0.6% — 찍는 것보다 못한 수준

2026 국제 AI 안전 보고서도 같은 문제를 지적했습니다. 83개 언어를 테스트한 결과, 미국 문화 관련 질문 정답률 79%에 비해 에티오피아 문화 질문은 12%에 불과했습니다. AI는 영어뿐 아니라, 영어권 '문화'까지 편향돼 있다는 뜻입니다.

MIT 연구팀이 AI 챗봇의 비영어권 사용자 차별 문제를 학회에서 발표하고 있습니다. 이 연구에서 Claude 3 Opus는 비원어민에게 질문 응답을 거부하는 비율이 원어민 대비 3배 높았습니다.

AI가 비원어민을 '차별'하는 방식

MIT 미디어랩의 별도 연구는 더 불편한 사실을 밝혔습니다. AI가 단순히 정답률이 떨어지는 것을 넘어, 비원어민에게 답변 자체를 거부하는 비율이 3배 높았습니다 (11% vs 3.6%). 더 충격적인 건, 학력이 낮은 사용자에게 43.7%의 거부 응답에서 권위적이고 가르치려 드는 어조를 사용했다는 점입니다.

이 현상의 기술적 원인은 '영어 피벗(English Pivot)'이라 불립니다. 대부분의 AI가 한국어 질문을 받으면 내부적으로 영어로 변환해서 처리한 뒤 다시 한국어로 번역합니다. 이 과정에서 정보가 손실되고, 한국어 특유의 맥락이 사라집니다.

한국어 사용자를 위한 실용 가이드

한국어에 강한 AI 고르는 법

최고 정확도가 필요하다면 — Qwen3-235B-Think (78.3%) 또는 DeepSeek-R1 (76.7%). 영어 대비 격차 3% 이내.
상용 서비스 중에서는 — Claude Opus 4.6이 한국어 정규화 점수 1위 (Artificial Analysis 기준). GPT-4.1은 75.4%로 3위.
비용을 아끼려면 — o4-mini는 73.2%로 영어 대비 격차가 0.5%에 불과. 가성비 최고.
피해야 할 AI — InternLM, Phi4, Llama 시리즈는 한국어에서 10~20% 성능 하락. 내 컴퓨터에서 무료 AI를 돌릴 때 특히 주의.

중요한 팁: 정확한 답이 필요한 업무(보고서 작성, 데이터 분석 등)에서는 한국어로 질문하되, AI가 이상한 답을 한다면 같은 질문을 영어로 해보는 것이 효과적입니다. 이 연구에 따르면, '추론 강화(Reasoning-enhanced)' 모드가 있는 AI(DeepSeek-R1의 추론 모드, Qwen3의 Think 모드 등)는 일반 모드보다 한국어 성능이 4.7% 이상 높았습니다.

왜 이 연구가 중요한가

전 세계 인구 80억 명 중 영어 원어민은 4억 명에 불과합니다. 나머지 95%의 인류에게 AI가 동등한 품질의 서비스를 제공하지 못한다면, 이는 단순한 기술 문제가 아니라 디지털 불평등입니다. MMLU-ProX 연구팀은 이 데이터를 Hugging Face에 전량 무료 공개했고, AI 개발사들이 비영어권 성능을 개선하는 데 활용할 수 있도록 했습니다.

한국어 사용자에게 희소식은, 최신 대형 AI들의 한국어 격차가 2~4%로 빠르게 줄고 있다는 점입니다. 하지만 소형 AI나 오픈소스 AI는 여전히 10~20% 차이를 보이므로, 내 컴퓨터에서 무료 AI를 돌리려는 분들은 모델 선택에 각별히 주의해야 합니다.

관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독