AIME 2024: 미국 수학 올림피아드 벤치마크
Digest: AMC(미국 수학 경시대회) 상위 5% 진출자를 위한 AIME(American Invitational Mathematics Examination) 2024년도 시험. Mathematical Association of America(MAA)가 주관하며, 15문제 × 2세트(AIME I, AIME II) = 총 30문제로 구성된다. 모든 답은 000–999 범위의 정수이며, 객관식이 아닌 자유 응답(free response) 형식이다. MATH 벤치마크보다 훨씬 높은 난이도를 가지며, OpenAI o1이 ~87%를 달성하면서 LLM 수학 추론의 새로운 이정표가 되었다. 매년 새 문제가 출제되어 데이터 오염(data contamination) 위험이 구조적으로 낮다.
메타데이터
| 항목 | 내용 |
|---|---|
| 벤치마크명 | AIME 2024 (American Invitational Mathematics Examination) |
| 주관 | MAA (Mathematical Association of America) |
| 유형 | 수학 경시대회 (논문 아님) |
| 시험 구성 | AIME I (15문제) + AIME II (15문제) = 30문제 |
| 답변 형식 | 자유 응답, 0–999 정수 (객관식 아님) |
| 대상 | AMC 10/12 상위 약 5% 학생 |
| 평가 지표 | 정답 수 / 30 (또는 백분율) |
| LLM 벤치마크 활용 | 2024년부터 주요 모델 비교에 광범위 사용 |
| 공식 출처 | Art of Problem Solving Wiki |
데이터셋 구성
규모 및 분할
| 구분 | 문제 수 | 시험 일자 | 비고 |
|---|---|---|---|
| AIME I | 15 | 2024-02-01 | 첫 번째 세트 |
| AIME II | 15 | 2024-02-07 | 두 번째 세트 (대체 시험) |
| 합계 | 30 | — | 전체 벤치마크 |
- Train/Test 분할: 별도 분할 없음. 30문제 전체를 평가(test)에 사용
- 연도별 갱신: 매년 새로운 문제 출제 → 시계열적 데이터 오염 방지
Feature/Column 구조
| Feature | Type | 설명 |
|---|---|---|
problem_id | string | 시험 및 문제 번호 (e.g., “2024 AIME I #7”) |
problem_text | string | 문제 본문 (수학적 서술) |
answer | integer | 정답 (0–999 범위 정수) |
topic_area | categorical | 주제 영역 (algebra, geometry, number theory, combinatorics, probability) |
difficulty_level | ordinal | 문제 번호 기반 난이도 (#1 쉬움 → #15 매우 어려움) |
난이도 분포
| 난이도 구간 | 문제 번호 | 특성 |
|---|---|---|
| Easy | #1–#5 | 기본 개념 적용, 1–2단계 추론 |
| Medium | #6–#10 | 다단계 추론, 개념 결합 필요 |
| Hard | #11–#15 | 고급 기법, 창의적 접근 필수, 다수 추론 단계 |
실제 데이터 예시
예시 1: AIME I #1 (Easy)
Every morning, Ava does a four-step process to prepare her morning coffee. She uses a kettle that takes a minutes to boil, a filter that takes b minutes to brew, then adds milk and sugar taking a combined c minutes. If the total time is always 13 minutes and , , are positive integers with , find the number of possible ordered triples .
- 정답: 정수 (000–999 범위)
- 주제: Combinatorics / Number Theory
- 난이도: 기본 정수 분할 문제
예시 2: AIME I #7 (Medium)
Let be the number of ways to place numbers in a grid such that the sum of numbers in each row and each column is divisible by 3. Find the remainder when is divided by 1000.
- 정답: 0–999 정수
- 주제: Combinatorics
- 난이도: 다단계 조합 추론, 모듈러 산술 결합
예시 3: AIME II #13 (Hard)
Let and define . The minimal polynomial of over has the form . Find .
- 정답: 0–999 정수
- 주제: Number Theory / Algebra
- 난이도: 추상 대수적 구조에 대한 깊은 이해 필요
참고: 위 예시들은 AIME 스타일의 대표적 문제 유형을 보여주기 위한 것이다. 실제 2024년 문제는 Art of Problem Solving에서 확인할 수 있다.
왜 이 벤치마크가 중요한가?
-
진정한 수학적 추론 평가: 객관식이 아닌 자유 응답 형식으로, 패턴 매칭(pattern matching)이나 찍기로는 정답을 맞출 수 없다. 정답 공간이 0–999(1000가지)이므로 랜덤 정답률이 0.1%에 불과하다.
-
데이터 오염 면역: 매년 완전히 새로운 문제가 출제되므로, 학습 데이터에 포함될 가능성이 구조적으로 낮다. 이는 MATH 벤치마크의 고질적 문제인 데이터 오염을 우회한다.
-
인간 기준선 명확: AMC 상위 5% 학생들의 평균이 약 40–60%이므로, 모델 성능을 인간 전문가와 직접 비교할 수 있다.
-
다단계 추론 요구: 단순 계산이 아닌 대수, 기하, 조합, 정수론을 결합한 복합 추론이 필요하며, 이는 chain-of-thought 추론 능력의 핵심 테스트이다.
방법 (Method)
AIME 2024는 논문이 아닌 시험이므로, 여기서는 LLM 벤치마크로서의 평가 방법론을 기술한다.
flowchart TD A["AIME 2024 문제 수집<br/>30문제 (I: 15, II: 15)"] --> B["문제 텍스트 파싱<br/>LaTeX → 자연어 변환"] B --> C["LLM에 문제 입력<br/>zero-shot / few-shot"] C --> D["모델 응답 생성<br/>chain-of-thought 추론"] D --> E["정수 답변 추출<br/>0–999 범위 파싱"] E --> F{"정답 비교<br/>exact match"} F -->|일치| G["정답 (1점)"] F -->|불일치| H["오답 (0점)"] G --> I["최종 점수 집계<br/>정답 수 / 30"] H --> I style A fill:#e1f5fe style F fill:#fff3e0 style I fill:#e8f5e9
평가 프로토콜
- 입력: 문제 텍스트 (LaTeX 수식 포함)
- 출력: 0–999 정수 1개
- 매칭: Exact match (정확히 일치해야 정답)
- 프롬프트: 대부분 zero-shot, 일부 연구에서 few-shot 또는 chain-of-thought 프롬프트 사용
- 반복 평가: 동일 문제에 대해 다수 시행(majority voting, pass@k) 적용 가능
발견 (Findings)
주요 LLM 성능 비교
| 모델 | AIME 2024 점수 | 백분율 | 비고 |
|---|---|---|---|
| OpenAI o1 (full) | ~26/30 | ~87% | Chain-of-thought 추론 극대화 |
| DeepSeek-R1 | ~25/30 | ~83% | 오픈소스 최고 성능 |
| OpenAI o1-preview | ~24/30 | ~80% | o1 프리뷰 버전 |
| Claude 3.5 Sonnet | ~16/30 | ~53% | Anthropic 주력 모델 |
| GPT-4o | ~13/30 | ~43% | 기본 GPT-4 계열 |
| GPT-4 Turbo | ~6/30 | ~20% | 이전 세대 |
| Gemini 1.5 Pro | ~5/30 | ~17% | Google 모델 |
| 인간 (AMC 상위 5%) | ~12–18/30 | ~40–60% | 상위 수학 학생 평균 |
핵심 발견
- Reasoning 모델의 압도적 우위: o1, DeepSeek-R1 등 chain-of-thought 특화 모델이 기존 모델 대비 2배 이상 성능을 보임
- 기존 LLM의 한계: GPT-4o, Claude 3.5 Sonnet 등도 인간 상위 수준에 근접하지만, 고난이도 문제(#11–#15)에서 급격히 실패
- 난이도별 격차: 쉬운 문제(#1–#5)는 대부분 모델이 해결하지만, #13–#15는 reasoning 모델만 일부 해결
- 수학적 추론 ≠ 언어 능력: MMLU 등 일반 벤치마크에서 높은 점수를 받는 모델도 AIME에서는 저조 → 수학 추론은 별도 능력
이론적 의의
-
System 2 사고의 벤치마크: AIME는 Daniel Kahneman의 System 2(느리고 의식적인 사고)를 요구하는 문제로 구성되어, LLM의 deliberate reasoning 능력을 직접 측정한다.
-
Scaling Law와 추론: 단순 모델 크기 증가(scaling)만으로는 AIME 성능이 크게 향상되지 않으며, chain-of-thought 학습이나 test-time compute 확장이 핵심임을 보여준다.
-
수학적 창의성 평가: AIME 고난이도 문제는 알고리즘적 접근이 아닌 창의적 통찰(insight)을 요구하므로, AI의 수학적 창의성 한계를 탐색하는 데 유용하다.
-
벤치마크 수명: 매년 갱신되는 구조 덕분에, 정적 벤치마크의 saturation 문제를 자연스럽게 회피한다.
관련 연구
- MATH: 경시대회 수학 문제 12,500개, AIME보다 넓은 난이도 범위
- GPQA: 대학원 수준 과학 문제, 전문가만 풀 수 있는 고난이도
- MMLU: 다영역 객관식 벤치마크, AIME보다 쉬우나 범위 넓음
- MMLU-Pro: MMLU 강화 버전, 더 어려운 문제 포함
- FrontierMath: 연구 수준 수학 문제, AIME보다 더 높은 난이도
- BBH: 다단계 추론이 필요한 BIG-Bench 하드 문제
핵심 용어 정리
| 용어 | 설명 |
|---|---|
| AIME | American Invitational Mathematics Examination; AMC 상위 진출자 대상 수학 시험 |
| AMC | American Mathematics Competition; 미국 수학 경시대회 체계의 첫 단계 |
| MAA | Mathematical Association of America; AIME/AMC 주관 기관 |
| Free Response | 객관식이 아닌 자유 응답 형식; AIME에서는 0–999 정수 |
| Exact Match | 모델 출력이 정답과 정확히 일치해야 정답으로 인정하는 평가 방식 |
| Data Contamination | 평가 데이터가 학습 데이터에 포함되어 성능이 과대평가되는 문제 |
| Chain-of-Thought | 단계별 추론 과정을 명시적으로 생성하는 프롬프팅/학습 기법 |
| Test-time Compute | 추론 시점에서 추가 연산을 투입하여 성능을 높이는 전략 (o1 계열) |
| pass@k | k번 시도 중 최소 1번 정답을 맞출 확률; 반복 평가 지표 |
benchmark math reasoning AIME competition olympiad chain-of-thought evaluation