2026-03-24AI 수학 문제 해결FrontierMathAI 추론 능력GPT-5.4 ProClaude Opus 4.6Gemini 3.1 ProEpoch AIAI 연구

AI가 미해결 수학 난제 최초 해결 — FrontierMath GPT·Opus·Gemini 성공

수학자 5~10명도 못 푼 미해결 난제를 AI가 대화 한 번에 해결. GPT·Claude Opus·Gemini 3개 모델이 모두 성공. AI 회의론자도 '이제 믿는다'고 선언한 FrontierMath의 역사적 순간을 정리합니다.

전문 수학자 5~10명이 도전했지만 풀지 못한 조합론 문제가 있었습니다. AI 연구 기관 Epoch AI가 만든 FrontierMath 벤치마크에 등록된 이 문제를, AI가 대화 한 번만에 풀어버렸습니다. 수학자가 1~3개월 걸릴 거라고 예상한 문제를요.

해커뉴스에서 264표를 받으며 뜨거운 논쟁이 벌어졌고, AI 회의론자를 자처하던 사람조차 "이제 믿는다"고 선언했습니다.

$Epoch AI FrontierMath 벤치마크 — 수학 기호들이 흩어진 배너 이미지$

AI가 푼 수학 난제는 무엇인가 — 비전문가를 위한 설명

풀린 문제의 이름은 '램지 스타일 하이퍼그래프 문제(A Ramsey-style Problem on Hypergraphs)'입니다. 쉽게 말하면 이런 겁니다:

📐 비유로 이해하기: 사람들을 파티에 초대할 때, 특정 조건(모두가 서로 아는 사이이거나 모두가 서로 모르는 사이)을 피하면서 최대한 많은 사람을 초대하는 방법을 찾는 문제입니다. 다만 일반 그래프가 아니라 '하이퍼그래프'(여러 점을 동시에 연결할 수 있는 확장된 구조)에서 훨씬 복잡한 버전이죠.

수학자들은 이 문제의 하한(lower bound)을 개선하려 했지만, 기존 방법에 비효율이 있어 막혀 있었습니다. AI가 바로 그 비효율을 제거하는 새로운 구성법을 찾아낸 겁니다.

AI는 어떻게 풀었나 — 250,000 토큰의 대화

연구자 Kevin Barreto와 Liam Price가 GPT-5.4 Pro에게 이 문제를 제시했습니다. AI는 약 25만 토큰(한국어 기준 소설 약 2권 분량의 텍스트)을 주고받으며 풀이를 완성했습니다.

문제 출제자 Will Brian 교수(UNC Charlotte)의 반응:

"이전에 이 접근법이 가능할지 궁금했지만, 실제로 구현하기는 너무 어려워 보였습니다. AI가 우리 하한 구성의 비효율을 정확히 제거했고, 상한과 하한이 일치하는 수준까지 도달했습니다. 램지 이론 문제에서 이런 일치는 매우 드문 성과입니다."

Brian 교수는 이 결과를 전문 학술지에 논문으로 발표할 계획이며, Barreto와 Price를 공저자로 포함할 예정입니다.

GPT-5.4 Pro만 푼 게 아니다 — 3개 AI 모델이 모두 성공

더 놀라운 점은 이것입니다. Epoch AI가 범용 평가 환경을 구축한 뒤, 다른 AI 모델들도 같은 문제를 독립적으로 풀어냈습니다:

🥇 GPT-5.4 Pro — 최초로 풀이 성공. 약 25만 토큰 소모. 전체 대화 기록 공개

🥈 Opus 4.6 (max) — Anthropic의 최신 모델도 독립적으로 풀이 완료

🥉 Gemini 3.1 Pro — Google의 모델 역시 같은 문제 해결에 성공

이는 단일 모델의 우연이 아니라, 최신 AI 모델들이 전반적으로 고난도 수학 추론 능력을 갖추기 시작했다는 신호입니다.

$Epoch AI FrontierMath Open Problems 커버 이미지$

FrontierMath는 어떤 벤치마크인가

FrontierMath는 Epoch AI가 만든 수학 벤치마크로, 수백 개의 미공개 고난도 수학 문제로 구성됩니다. 일반적인 AI 수학 시험(고등학교~학부 수준)과는 차원이 다릅니다:

📊 난이도 체계:

• Tier 1~3: 학부~박사 초기 수준 — AI가 일부 풀 수 있는 영역

• Tier 4: 현직 연구자 수준의 문제

• Open Problems: 전문 수학자도 풀지 못한 미해결 문제 — 15개 이상 등록, 지금까지 AI가 푼 건 단 1개

이번에 풀린 문제의 난이도를 정리하면:

• 이 분야에 깊이 익숙한 수학자 수: 약 10명

• 진지하게 도전한 전문가 수: 5~10명

• 전문가 예상 풀이 기간: 1~3개월

• 풀릴 확률(사전 추정): 95~99% (불가능한 문제는 아니지만 어려운 문제)

"3년 전에는 2+7=11이라고 답했는데" — 해커뉴스 반응

해커뉴스 토론(264표, 195개 댓글)에서 가장 많은 공감을 받은 반응들입니다:

"AI 회의론자에서 전향했습니다" — 최상위 댓글(약 265표)

"AI가 어려운 문제의 답을 내놓거나 혁신적인 발견을 할 때까지는 믿지 않겠다고 오래 말해왔습니다. 이것이 검증된다면, 저는 이제 믿는 쪽입니다."

"3년 만의 도약" — 약 80표

"2+7=11이라고 답하던 AI가 3년 만에 미해결 수학 문제를 푸는 수준이 됐는데, 앞으로도 발전하지 않을 거라고 생각하는 사람이 있나요?"

반론도 거셌습니다 — 약 100표

"수학은 규칙이 엄격하고 답을 검증하기 쉬워서 AI에게 유리합니다. 하지만 코드 품질이나 디자인처럼 정의가 모호한 영역에서는 여전히 환각(hallucination)이 발생합니다."

한 유머러스한 댓글은 이렇게 말했습니다: "25만 토큰을 써서 이 수학 문제를 풀었다면, React 리팩토링은 미해결 수학 문제의 절반 난이도라는 뜻이군요."

이것이 '진짜 수학'인가, 아니면 고급 패턴 매칭인가

해커뉴스 논쟁의 핵심은 이 질문이었습니다. 양쪽 의견을 정리합니다:

✅ "새로운 수학적 발견이다"

• 문제 출제자가 직접 검증하고 논문 출판을 결정

• 기존 접근법의 비효율을 제거하는 '새로운 구성법'을 찾아냄

• 인간 연구도 결국 기존 아이디어의 재조합 — AI와 다를 바 없다

❌ "고급 패턴 매칭일 뿐이다"

• 형식적 수학 증명(formal verification)을 거치지 않음

• 훈련 데이터에 비슷한 기법이 있었을 가능성

• 사람이 문제를 정확히 정의해야 AI가 풀 수 있다

현재 시점의 팩트는 이렇습니다: 문제를 낸 수학 교수가 풀이를 인정했고, 학술지에 논문으로 발표합니다. 형식적 증명 소프트웨어로 검증된 건 아니지만, 해당 분야 전문가의 피어리뷰를 통과한 수준입니다.

AI 수학 발전이 나에게 어떤 의미가 있나

수학자가 아니더라도 이 소식이 중요한 이유가 있습니다:

1 AI에게 어려운 문제를 맡기는 시대 — 전문가가 몇 달 걸릴 문제를 AI가 하루 안에 해결할 수 있다면, 연구·개발·분석 업무의 병목이 바뀝니다. '생각하는 시간'이 아니라 '좋은 질문을 만드는 시간'이 핵심이 됩니다. AI 프롬프트 엔지니어링 가이드에서 이 능력을 직접 키울 수 있습니다.

2 AI 모델 간 격차가 줄고 있다 — GPT-5.4 Pro, Opus 4.6, Gemini 3.1 Pro가 모두 같은 문제를 풀었습니다. 특정 회사의 AI만 특별한 게 아니라, 최신 모델들이 전반적으로 이 수준에 도달했다는 뜻입니다.

3 AI의 한계도 분명하다 — 15개 미해결 문제 중 풀린 건 1개(7%)뿐입니다. '진짜 어려운' 문제 대부분은 여전히 AI도 못 풉니다. 만능이 아니라 특정 유형에서 강한 겁니다.

직접 확인하는 방법

Epoch AI는 모든 과정을 투명하게 공개했습니다:

• 풀린 문제와 AI 대화 기록 전문 보기

• FrontierMath 벤치마크 전체 둘러보기

• 해커뉴스 토론 (264표, 195댓글) 읽기

GPT-5.4 Pro와의 전체 대화 기록(약 25만 토큰)과 AI가 작성한 풀이 PDF도 위 페이지에서 다운로드할 수 있습니다.

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독