2026-03-19AI 벤치마크무료 교과서연구AI 평가프린스턴

AI 성능 순위를 믿으면 안 되는 이유 — 프린스턴 교수의 무료 교과서가 밝힌 불편한 진실

GPT-4가 Claude보다 나은지 어떻게 아나요? AI 벤치마크 순위는 실력이 아니라 시험 최적화의 결과일 수 있습니다. 프린스턴대 교수가 15개 챕터 분량의 교과서를 무료 공개했습니다.

'GPT-4가 1등', 'Claude가 역전', 'Gemini가 추월' — AI 모델이 나올 때마다 쏟아지는 성능 순위표. 우리는 이 숫자들을 보고 어떤 AI를 쓸지 결정합니다. 그런데 이 순위 자체가 거짓말일 수 있다면 어떨까요?

프린스턴대 모리츠 하르트(Moritz Hardt) 교수가 AI 성능 측정의 과학적 문제점을 낱낱이 분석한 교과서 《The Emerging Science of Machine Learning Benchmarks》를 무료로 공개했습니다. 해커뉴스에서 97표를 받으며 화제가 된 이 책은, AI 업계가 불편해할 진실을 담고 있습니다.

새 모델이 더 똑똑한 게 아니라 '시험 공부'를 더 많이 했을 뿐입니다

책에서 가장 충격적인 발견은 이것입니다. 최신 AI 모델이 이전 모델보다 점수가 높은 이유의 상당 부분이, 실력이 아니라 벤치마크 최적화 때문이라는 것입니다.

대표적인 예가 MMLU(대학 수준 지식 시험)입니다. 2022~2023년 사이 이 시험이 업계 표준이 되자, 엔지니어들이 MMLU 점수를 올리기 위해 직접 최적화하기 시작했습니다. 하르트 교수의 분석에 따르면, 오래된 모델과 새 모델에게 똑같이 시험 준비를 시켜주면 점수 차이가 대부분 사라집니다.

학교 시험에 비유하면, A 학생이 B 학생보다 시험 점수가 높은 것이 진짜 실력 때문이 아니라, A 학생이 족보(기출문제)를 더 많이 풀었기 때문인 것과 같습니다.

핵심 수치: 연구자들이 서로 다른 벤치마크 간의 순위 일치도를 측정했더니, 직접 비교 시 일치도가 거의 0(Kendall's tau ≈ 0)이었습니다. 하지만 모든 모델에게 동일한 시험 준비를 시킨 뒤 비교하면 순위가 극적으로 일치했습니다. 진짜 실력을 보려면 '시험 준비 격차'를 먼저 없애야 한다는 뜻입니다.

73% 정답률의 비밀 — AI가 문제를 '이해'한 게 아니었습니다

더 놀라운 사례가 있습니다. TruthfulQA라는 AI 진실성 시험에서, 연구자들이 문제의 내용을 전혀 이해하지 않고도 간단한 트릭 몇 가지만으로 73% 정답률을 달성할 수 있었습니다.

방법은 단순합니다. 보기 중에서 '나머지와 톤이 다른 것'을 고르면 됩니다. AI가 이 시험에서 높은 점수를 받았다는 것이, AI가 진실과 거짓을 구분할 수 있다는 의미가 아닐 수 있다는 뜻입니다. 이것은 마치 영어 듣기 시험에서 가장 긴 보기를 고르면 정답 확률이 높은 것과 비슷합니다.

사람의 판단도 믿을 수 없습니다 — AI가 자신 있게 말하면 맞다고 느낍니다

그렇다면 사람이 직접 평가하면 될까요? Chatbot Arena처럼 사람들이 두 AI의 답변을 비교하는 방식도 한계가 있습니다.

책에 따르면, 사람들은 '빠르고 직감적인 판단'(심리학에서 말하는 시스템 1 사고)으로 AI를 평가하는 경향이 있습니다. 그 결과 자신감 있게 답하지만 실은 틀린 AI를 더 높이 평가하는 편향이 생깁니다. 모르면 모른다고 솔직히 말하는 AI보다, 그럴듯하게 꾸며서 답하는 AI가 더 좋은 점수를 받는 것입니다.

AI가 AI를 평가하는 자동 평가 방식도 문제입니다. GPT-4에게 다른 모델을 평가시키면, 자기와 비슷한 스타일의 모델에게 높은 점수를 주는 경향이 있습니다.

벤치마크별 순위 일치도를 보여주는 차트 — 벤치마크에 따라 AI 순위가 크게 달라진다

벤치마크별 평균 순위 일치도(Kendall's tau). 어떤 시험을 쓰느냐에 따라 AI 순위가 완전히 달라질 수 있다는 것을 보여줍니다. 출처: mlbenchmarks.org

AI를 고를 때 진짜 봐야 할 것

그렇다면 우리는 AI 성능을 어떻게 판단해야 할까요? 이 책에서 얻을 수 있는 실전 교훈을 정리합니다.

1. 하나의 순위표만 보지 마세요
MMLU 1등이 모든 작업에서 1등은 아닙니다. 코딩, 글쓰기, 수학 등 자신이 실제로 사용할 작업에서 직접 테스트하는 것이 가장 정확합니다.

2. '자신감'과 '정확도'를 구분하세요
AI가 확신에 찬 어조로 답해도 틀릴 수 있습니다. 중요한 결정에는 반드시 출처를 확인하는 습관이 필요합니다.

3. 벤치마크 날짜를 확인하세요
오래된 벤치마크일수록 새 모델이 이미 그 시험 데이터로 학습했을 가능성이 높습니다. 최근에 만들어진 평가 기준이 더 신뢰할 수 있습니다.

15개 챕터를 무료로 읽을 수 있습니다

이 교과서는 mlbenchmarks.org에서 전체 내용을 무료로 읽을 수 있습니다. 각 챕터는 HTML과 PDF 두 가지 형식으로 제공됩니다.

15개 챕터 중 비개발자에게도 읽을 만한 부분을 추천하면:

11장: 언어 모델 평가 — ChatGPT, Claude 같은 AI의 성능을 어떻게 측정하는지, 그 방법의 한계는 무엇인지 다룹니다
10장: 생성 모델 — AI 모델이 커질수록 정말 좋아지는지, '스케일링 법칙'의 진실을 분석합니다
6장: 과학적 위기 — 심리학의 재현 위기가 AI 연구에도 올 수 있는지 경고합니다

저자 모리츠 하르트 교수는 UC 버클리에서 머신러닝 공정성 연구로 유명하며, 현재 막스 플랑크 연구소에 재직 중입니다. 이전 저서 《Patterns, Predictions, and Actions》도 프린스턴대학교 출판부에서 출간한 바 있습니다.

트랜스포머 등장 이후 AI 모델 크기의 폭발적 성장. GPT-4의 크기는 비공식 추정치 기반. 출처: mlbenchmarks.org

AI 시대에 필요한 비판적 사고

AI 벤치마크는 완벽하지 않지만, 그래도 아예 없는 것보다는 낫다는 것이 이 책의 결론입니다. 중요한 것은 숫자 하나에 속지 않고, 그 숫자가 어떻게 만들어졌는지를 이해하는 것입니다.

AI를 업무에 활용하는 분이라면, '이 AI가 몇 점이다'라는 광고를 그대로 믿기 전에 직접 써보고 판단하는 습관이 가장 확실한 평가 방법입니다. 이 무료 교과서는 그 판단력을 기르는 데 훌륭한 출발점이 될 것입니다.

관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독