김과장
AI 뉴스 목록
2026-03-24AI 수학FrontierMathGPT-5.4Opus 4.6Gemini 3.1AI 추론Epoch AI

수학자가 몇 달 걸릴 문제를 AI가 대화 한 번에 풀었다 — GPT-5.4 Pro·Opus 4.6·Gemini 3.1 모두 성공

Epoch AI의 FrontierMath 벤치마크에서 미해결 수학 문제가 AI에 의해 처음으로 풀렸습니다. 전문 수학자가 1~3개월 걸릴 문제를 GPT-5.4 Pro가 대화 한 번에 해결했고, Opus 4.6과 Gemini 3.1 Pro도 같은 문제를 독립적으로 풀어냈습니다.


전문 수학자 5~10명이 도전했지만 풀지 못한 조합론 문제가 있었습니다. AI 연구 기관 Epoch AI가 만든 FrontierMath 벤치마크에 등록된 이 문제를, AI가 대화 한 번만에 풀어버렸습니다. 수학자가 1~3개월 걸릴 거라고 예상한 문제를요.

해커뉴스에서 264표를 받으며 뜨거운 논쟁이 벌어졌고, AI 회의론자를 자처하던 사람조차 "이제 믿는다"고 선언했습니다.

Epoch AI FrontierMath 벤치마크 — 수학 기호들이 흩어진 배너 이미지

무슨 문제를 풀었나 — 비전문가를 위한 설명

풀린 문제의 이름은 '램지 스타일 하이퍼그래프 문제(A Ramsey-style Problem on Hypergraphs)'입니다. 쉽게 말하면 이런 겁니다:

📐 비유로 이해하기: 사람들을 파티에 초대할 때, 특정 조건(모두가 서로 아는 사이이거나 모두가 서로 모르는 사이)을 피하면서 최대한 많은 사람을 초대하는 방법을 찾는 문제입니다. 다만 일반 그래프가 아니라 '하이퍼그래프'(여러 점을 동시에 연결할 수 있는 확장된 구조)에서 훨씬 복잡한 버전이죠.

수학자들은 이 문제의 하한(lower bound)을 개선하려 했지만, 기존 방법에 비효율이 있어 막혀 있었습니다. AI가 바로 그 비효율을 제거하는 새로운 구성법을 찾아낸 겁니다.

AI는 어떻게 풀었나 — 250,000 토큰의 대화

연구자 Kevin BarretoLiam PriceGPT-5.4 Pro에게 이 문제를 제시했습니다. AI는 약 25만 토큰(한국어 기준 소설 약 2권 분량의 텍스트)을 주고받으며 풀이를 완성했습니다.

문제 출제자 Will Brian 교수(UNC Charlotte)의 반응:

"이전에 이 접근법이 가능할지 궁금했지만, 실제로 구현하기는 너무 어려워 보였습니다. AI가 우리 하한 구성의 비효율을 정확히 제거했고, 상한과 하한이 일치하는 수준까지 도달했습니다. 램지 이론 문제에서 이런 일치는 매우 드문 성과입니다."

Brian 교수는 이 결과를 전문 학술지에 논문으로 발표할 계획이며, Barreto와 Price를 공저자로 포함할 예정입니다.

GPT-5.4 Pro만 푼 게 아니다 — 3개 AI 모델이 모두 성공

더 놀라운 점은 이것입니다. Epoch AI가 범용 평가 환경을 구축한 뒤, 다른 AI 모델들도 같은 문제를 독립적으로 풀어냈습니다:

🥇 GPT-5.4 Pro — 최초로 풀이 성공. 약 25만 토큰 소모. 전체 대화 기록 공개
🥈 Opus 4.6 (max) — Anthropic의 최신 모델도 독립적으로 풀이 완료
🥉 Gemini 3.1 Pro — Google의 모델 역시 같은 문제 해결에 성공

이는 단일 모델의 우연이 아니라, 최신 AI 모델들이 전반적으로 고난도 수학 추론 능력을 갖추기 시작했다는 신호입니다.

Epoch AI FrontierMath Open Problems 커버 이미지

FrontierMath는 어떤 벤치마크인가

FrontierMath는 Epoch AI가 만든 수학 벤치마크로, 수백 개의 미공개 고난도 수학 문제로 구성됩니다. 일반적인 AI 수학 시험(고등학교~학부 수준)과는 차원이 다릅니다:

📊 난이도 체계:

Tier 1~3: 학부~박사 초기 수준 — AI가 일부 풀 수 있는 영역

Tier 4: 현직 연구자 수준의 문제

Open Problems: 전문 수학자도 풀지 못한 미해결 문제 — 15개 이상 등록, 지금까지 AI가 푼 건 단 1개

이번에 풀린 문제의 난이도를 정리하면:

• 이 분야에 깊이 익숙한 수학자 수: 약 10명

• 진지하게 도전한 전문가 수: 5~10명

• 전문가 예상 풀이 기간: 1~3개월

• 풀릴 확률(사전 추정): 95~99% (불가능한 문제는 아니지만 어려운 문제)

"3년 전에는 2+7=11이라고 답했는데" — 해커뉴스 반응

해커뉴스 토론(264표, 195개 댓글)에서 가장 많은 공감을 받은 반응들입니다:

"AI 회의론자에서 전향했습니다" — 최상위 댓글(약 265표)

"AI가 어려운 문제의 답을 내놓거나 혁신적인 발견을 할 때까지는 믿지 않겠다고 오래 말해왔습니다. 이것이 검증된다면, 저는 이제 믿는 쪽입니다."

"3년 만의 도약" — 약 80표

"2+7=11이라고 답하던 AI가 3년 만에 미해결 수학 문제를 푸는 수준이 됐는데, 앞으로도 발전하지 않을 거라고 생각하는 사람이 있나요?"

반론도 거셌습니다 — 약 100표

"수학은 규칙이 엄격하고 답을 검증하기 쉬워서 AI에게 유리합니다. 하지만 코드 품질이나 디자인처럼 정의가 모호한 영역에서는 여전히 환각(hallucination)이 발생합니다."

한 유머러스한 댓글은 이렇게 말했습니다: "25만 토큰을 써서 이 수학 문제를 풀었다면, React 리팩토링은 미해결 수학 문제의 절반 난이도라는 뜻이군요."

이것이 '진짜 수학'인가, 아니면 고급 패턴 매칭인가

해커뉴스 논쟁의 핵심은 이 질문이었습니다. 양쪽 의견을 정리합니다:

✅ "새로운 수학적 발견이다"

• 문제 출제자가 직접 검증하고 논문 출판을 결정

• 기존 접근법의 비효율을 제거하는 '새로운 구성법'을 찾아냄

• 인간 연구도 결국 기존 아이디어의 재조합 — AI와 다를 바 없다

❌ "고급 패턴 매칭일 뿐이다"

• 형식적 수학 증명(formal verification)을 거치지 않음

• 훈련 데이터에 비슷한 기법이 있었을 가능성

• 사람이 문제를 정확히 정의해야 AI가 풀 수 있다

현재 시점의 팩트는 이렇습니다: 문제를 낸 수학 교수가 풀이를 인정했고, 학술지에 논문으로 발표합니다. 형식적 증명 소프트웨어로 검증된 건 아니지만, 해당 분야 전문가의 피어리뷰를 통과한 수준입니다.

나에게 어떤 의미가 있나

수학자가 아니더라도 이 소식이 중요한 이유가 있습니다:

1 AI에게 어려운 문제를 맡기는 시대 — 전문가가 몇 달 걸릴 문제를 AI가 하루 안에 해결할 수 있다면, 연구·개발·분석 업무의 병목이 바뀝니다. '생각하는 시간'이 아니라 '좋은 질문을 만드는 시간'이 핵심이 됩니다.
2 AI 모델 간 격차가 줄고 있다 — GPT-5.4 Pro, Opus 4.6, Gemini 3.1 Pro가 모두 같은 문제를 풀었습니다. 특정 회사의 AI만 특별한 게 아니라, 최신 모델들이 전반적으로 이 수준에 도달했다는 뜻입니다.
3 AI의 한계도 분명하다 — 15개 미해결 문제 중 풀린 건 1개(7%)뿐입니다. '진짜 어려운' 문제 대부분은 여전히 AI도 못 풉니다. 만능이 아니라 특정 유형에서 강한 겁니다.

직접 확인하는 방법

Epoch AI는 모든 과정을 투명하게 공개했습니다:

풀린 문제와 AI 대화 기록 전문 보기

FrontierMath 벤치마크 전체 둘러보기

해커뉴스 토론 (264표, 195댓글) 읽기

GPT-5.4 Pro와의 전체 대화 기록(약 25만 토큰)과 AI가 작성한 풀이 PDF도 위 페이지에서 다운로드할 수 있습니다.

관련 콘텐츠Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독