Digest: Epoch AI가 60명 이상의 전문 수학자(Fields Medal 수준 포함)와 협력하여 제작한 연구 수준 수학 문제 벤치마크. 기존 MATH나 AIME를 압도하는 난이도로, 모든 frontier 모델(o1, GPT-4, Claude 3.5, Gemini)이 <2%만 해결하는 반면 인간 전문가는 ~80%+를 달성한다. Algebraic geometry, analytic number theory, differential geometry 등 7개 이상의 고급 수학 분야를 포괄하며, computationally verifiable answer 형식으로 자동 채점이 가능하다. 핵심 설계 철학: 수년간 saturate되지 않을 장기 벤치마크.
메타데이터
항목
내용
제목
FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI
저자
Elliot Glazer, Ege Erdil, Tamay Besiroglu et al. (Epoch AI)
소속
Epoch AI
발표
arXiv, 2024 (2411.04872)
문제 수
수백 문제 (비공개, 추정 300-500+)
공개 여부
완전 비공개 (hidden test set) — contamination 방지
출제자
60+ 수학자 (Fields Medal caliber 포함)
평가 방식
Exact match — computationally verifiable answers
데이터셋 구성
규모 및 분할 (Scale & Split)
구분
설명
총 규모
수백 문제 (정확한 수치 비공개, ~300-500+ 추정)
Train/Val/Test
없음 — 전체가 비공개 test set
공개 정책
문제·답 모두 비공개 유지 → data contamination 원천 차단
Feature / Column 구조
Feature
Type
설명
problem_id
string
문제 고유 식별자
problem_statement
LaTeX string
수학 문제 본문 (LaTeX 수식 포함)
answer
int / rational / symbolic
정답 — 정수, 유리수, 또는 기호적 표현
field
categorical
수학 분야 (algebraic geometry, number theory 등)
difficulty_tier
T1 / T2 / T3
난이도 등급
author_name
string
출제 수학자 이름
난이도 체계 (Difficulty Tiers)
Tier
수준
설명
예상 소요 시간
T1
Undergraduate competition
학부 경시대회 수준, 고급 문제 풀이 능력 필요
수 시간
T2
Graduate research
대학원 연구 수준, 전문 분야 지식 요구
수 일
T3
Open research problems
미해결/최신 연구 문제, 독창적 증명 필요
수 주~수 개월
수학 분야 커버리지
Algebraic Geometry (대수기하학)
Analytic Number Theory (해석적 정수론)
Differential Geometry (미분기하학)
Combinatorics (조합론)
Topology (위상수학)
Representation Theory (표현론)
Partial Differential Equations (편미분방정식, PDE)
실제 데이터 예시
예시 1: T1 수준 (Undergraduate Competition)
Problem: Find the number of integer solutions (x, y) satisfying x² + y² ≤ 100.
Answer: 317
Type: integer (exact match)
Field: combinatorics / number theory
Problem: Compute the Euler characteristic of the moduli space M_{0,5}.
Answer: [specific integer]
Type: integer (exact match)
Field: algebraic geometry
T2는 대학원 교과서 이상의 지식을 요구하며, 해당 분야 전문가가 아니면 접근이 어렵다.
예시 3: T3 수준 (Open Research)
Problem: [비공개 — 최신 연구 수준의 미해결 문제]
Answer: computationally verifiable symbolic expression
Type: symbolic
Field: analytic number theory / topology
진정한 수학적 발견 능력 측정: 암기나 패턴 매칭이 아닌 novel reasoning 필요
장기 유효성: 수년간 saturate되지 않도록 설계
방법 (Methodology)
flowchart TD
A["60+ Expert Mathematicians\n(Fields Medal caliber 포함)"] --> B["Problem Creation\n7+ mathematical fields"]
B --> C{"Difficulty Classification"}
C --> D1["T1: Undergraduate\nCompetition Level"]
C --> D2["T2: Graduate\nResearch Level"]
C --> D3["T3: Open\nResearch Problems"]
D1 --> E["Answer Format Standardization\n(integer / rational / symbolic)"]
D2 --> E
D3 --> E
E --> F["Computational Verification\nExact Match Protocol"]
F --> G["Hidden Test Set\n(No Public Release)"]
G --> H["Model Evaluation\nAPI-based Submission"]
H --> I["Score Report\n(% Problems Solved)"]
style A fill:#e1f5fe
style G fill:#fff3e0
style I fill:#e8f5e9
평가 프로토콜
입력: LaTeX로 작성된 수학 문제 제시
출력: 모델이 정답을 정수/유리수/기호 형태로 제출
채점: Exact match — computational verification으로 자동 판정
보안: 문제 유출 방지를 위한 엄격한 비공개 관리
발견 (Key Results)
주요 모델 성능 비교
모델
정확도 (%)
비고
인간 전문 수학자
~80%+
자신의 전문 분야 내
OpenAI o1
<2%
최고 성능 reasoning 모델
GPT-4 Turbo
<2%
General-purpose frontier
Claude 3.5 Sonnet
<2%
Anthropic frontier
Gemini Ultra
<2%
Google frontier
핵심 발견
거대한 AI-인간 격차: 전문 수학자 ~80%+ vs. 모든 frontier 모델 <2% → 40배 이상의 성능 차이
Tier별 차등 실패: T1에서도 모델 성능이 극히 낮으며, T2/T3는 사실상 0%에 수렴
Scaling으로 해결 불가: 단순 모델 크기 증가로는 이 격차가 좁혀지지 않음을 시사
기존 벤치마크와의 비교: MATH에서 90%+ 달성하는 모델도 FrontierMath에서는 <2%
이론적 의의
수학적 추론의 본질적 한계 규명
현재 LLM의 수학 능력이 pattern matching 기반임을 입증
진정한 mathematical reasoning과 novel proof construction 능력의 부재를 정량적으로 보여줌
AI safety 관점: 수학적 추론 능력이 general intelligence의 proxy indicator로 기능할 수 있음
벤치마크 설계 방법론
비공개 유지 전략: Data contamination 문제에 대한 근본적 해법 제시
Expert-driven problem creation: Crowdsourcing이 아닌 전문가 출제의 중요성
Computationally verifiable answers: 주관적 평가 없이 자동 채점 가능한 설계
한계점
비공개: 독립적 검증(independent verification)이 제한됨
분야 편향: 특정 수학 분야에 치우칠 가능성
수학 외 추론과의 관계: 수학적 추론 능력과 다른 유형의 reasoning의 상관관계 불명확
채점 한계: Proof-based 문제는 answer verification만으로 부분 점수 부여 불가