AIME 2024: 미국 수학 올림피아드 벤치마크

Digest: AMC(미국 수학 경시대회) 상위 5% 진출자를 위한 AIME(American Invitational Mathematics Examination) 2024년도 시험. Mathematical Association of America(MAA)가 주관하며, 15문제 × 2세트(AIME I, AIME II) = 총 30문제로 구성된다. 모든 답은 000–999 범위의 정수이며, 객관식이 아닌 자유 응답(free response) 형식이다. MATH 벤치마크보다 훨씬 높은 난이도를 가지며, OpenAI o1이 ~87%를 달성하면서 LLM 수학 추론의 새로운 이정표가 되었다. 매년 새 문제가 출제되어 데이터 오염(data contamination) 위험이 구조적으로 낮다.

메타데이터

항목	내용
벤치마크명	AIME 2024 (American Invitational Mathematics Examination)
주관	MAA (Mathematical Association of America)
유형	수학 경시대회 (논문 아님)
시험 구성	AIME I (15문제) + AIME II (15문제) = 30문제
답변 형식	자유 응답, 0–999 정수 (객관식 아님)
대상	AMC 10/12 상위 약 5% 학생
평가 지표	정답 수 / 30 (또는 백분율)
LLM 벤치마크 활용	2024년부터 주요 모델 비교에 광범위 사용
공식 출처	Art of Problem Solving Wiki

데이터셋 구성

규모 및 분할

구분	문제 수	시험 일자	비고
AIME I	15	2024-02-01	첫 번째 세트
AIME II	15	2024-02-07	두 번째 세트 (대체 시험)
합계	30	—	전체 벤치마크

Train/Test 분할: 별도 분할 없음. 30문제 전체를 평가(test)에 사용
연도별 갱신: 매년 새로운 문제 출제 → 시계열적 데이터 오염 방지

Feature/Column 구조

Feature	Type	설명
`problem_id`	string	시험 및 문제 번호 (e.g., “2024 AIME I #7”)
`problem_text`	string	문제 본문 (수학적 서술)
`answer`	integer	정답 (0–999 범위 정수)
`topic_area`	categorical	주제 영역 (algebra, geometry, number theory, combinatorics, probability)
`difficulty_level`	ordinal	문제 번호 기반 난이도 (#1 쉬움 → #15 매우 어려움)

난이도 분포

난이도 구간	문제 번호	특성
Easy	#1–#5	기본 개념 적용, 1–2단계 추론
Medium	#6–#10	다단계 추론, 개념 결합 필요
Hard	#11–#15	고급 기법, 창의적 접근 필수, 다수 추론 단계

문제 번호가 곧 난이도 지표이며, 1에서 15로 갈수록 급격히 어려워진다.

실제 데이터 예시

예시 1: AIME I #1 (Easy)

Every morning, Ava does a four-step process to prepare her morning coffee. She uses a kettle that takes a minutes to boil, a filter that takes b minutes to brew, then adds milk and sugar taking a combined c minutes. If the total time is always 13 minutes and $a$ , $b$ , $c$ are positive integers with $a \geq b \geq c$ , find the number of possible ordered triples $(a, b, c)$ .

정답: 정수 (000–999 범위)
주제: Combinatorics / Number Theory
난이도: 기본 정수 분할 문제

예시 2: AIME I #7 (Medium)

Let $N$ be the number of ways to place numbers $1, 2, 3, \dots, 9$ in a $3 \times 3$ grid such that the sum of numbers in each row and each column is divisible by 3. Find the remainder when $N$ is divided by 1000.

정답: 0–999 정수
주제: Combinatorics
난이도: 다단계 조합 추론, 모듈러 산술 결합

예시 3: AIME II #13 (Hard)

Let $ω = e^{2 πi /7}$ and define $α = ω + ω^{2} + ω^{4}$ . The minimal polynomial of $α$ over $Q$ has the form $x^{2} + a x + b$ . Find $100 a + b$ .

정답: 0–999 정수
주제: Number Theory / Algebra
난이도: 추상 대수적 구조에 대한 깊은 이해 필요

참고: 위 예시들은 AIME 스타일의 대표적 문제 유형을 보여주기 위한 것이다. 실제 2024년 문제는 Art of Problem Solving에서 확인할 수 있다.

왜 이 벤치마크가 중요한가?

진정한 수학적 추론 평가: 객관식이 아닌 자유 응답 형식으로, 패턴 매칭(pattern matching)이나 찍기로는 정답을 맞출 수 없다. 정답 공간이 0–999(1000가지)이므로 랜덤 정답률이 0.1%에 불과하다.
데이터 오염 면역: 매년 완전히 새로운 문제가 출제되므로, 학습 데이터에 포함될 가능성이 구조적으로 낮다. 이는 MATH 벤치마크의 고질적 문제인 데이터 오염을 우회한다.
인간 기준선 명확: AMC 상위 5% 학생들의 평균이 약 40–60%이므로, 모델 성능을 인간 전문가와 직접 비교할 수 있다.
다단계 추론 요구: 단순 계산이 아닌 대수, 기하, 조합, 정수론을 결합한 복합 추론이 필요하며, 이는 chain-of-thought 추론 능력의 핵심 테스트이다.

방법 (Method)

AIME 2024는 논문이 아닌 시험이므로, 여기서는 LLM 벤치마크로서의 평가 방법론을 기술한다.

flowchart TD
    A["AIME 2024 문제 수집<br/>30문제 (I: 15, II: 15)"] --> B["문제 텍스트 파싱<br/>LaTeX → 자연어 변환"]
    B --> C["LLM에 문제 입력<br/>zero-shot / few-shot"]
    C --> D["모델 응답 생성<br/>chain-of-thought 추론"]
    D --> E["정수 답변 추출<br/>0–999 범위 파싱"]
    E --> F{"정답 비교<br/>exact match"}
    F -->|일치| G["정답 (1점)"]
    F -->|불일치| H["오답 (0점)"]
    G --> I["최종 점수 집계<br/>정답 수 / 30"]
    H --> I

    style A fill:#e1f5fe
    style F fill:#fff3e0
    style I fill:#e8f5e9

평가 프로토콜

입력: 문제 텍스트 (LaTeX 수식 포함)
출력: 0–999 정수 1개
매칭: Exact match (정확히 일치해야 정답)
프롬프트: 대부분 zero-shot, 일부 연구에서 few-shot 또는 chain-of-thought 프롬프트 사용
반복 평가: 동일 문제에 대해 다수 시행(majority voting, pass@k) 적용 가능

발견 (Findings)

주요 LLM 성능 비교

모델	AIME 2024 점수	백분율	비고
OpenAI o1 (full)	~26/30	~87%	Chain-of-thought 추론 극대화
DeepSeek-R1	~25/30	~83%	오픈소스 최고 성능
OpenAI o1-preview	~24/30	~80%	o1 프리뷰 버전
Claude 3.5 Sonnet	~16/30	~53%	Anthropic 주력 모델
GPT-4o	~13/30	~43%	기본 GPT-4 계열
GPT-4 Turbo	~6/30	~20%	이전 세대
Gemini 1.5 Pro	~5/30	~17%	Google 모델
인간 (AMC 상위 5%)	~12–18/30	~40–60%	상위 수학 학생 평균

핵심 발견

Reasoning 모델의 압도적 우위: o1, DeepSeek-R1 등 chain-of-thought 특화 모델이 기존 모델 대비 2배 이상 성능을 보임
기존 LLM의 한계: GPT-4o, Claude 3.5 Sonnet 등도 인간 상위 수준에 근접하지만, 고난이도 문제(#11–#15)에서 급격히 실패
난이도별 격차: 쉬운 문제(#1–#5)는 대부분 모델이 해결하지만, #13–#15는 reasoning 모델만 일부 해결
수학적 추론 ≠ 언어 능력: MMLU 등 일반 벤치마크에서 높은 점수를 받는 모델도 AIME에서는 저조 → 수학 추론은 별도 능력

이론적 의의

System 2 사고의 벤치마크: AIME는 Daniel Kahneman의 System 2(느리고 의식적인 사고)를 요구하는 문제로 구성되어, LLM의 deliberate reasoning 능력을 직접 측정한다.
Scaling Law와 추론: 단순 모델 크기 증가(scaling)만으로는 AIME 성능이 크게 향상되지 않으며, chain-of-thought 학습이나 test-time compute 확장이 핵심임을 보여준다.
수학적 창의성 평가: AIME 고난이도 문제는 알고리즘적 접근이 아닌 창의적 통찰(insight)을 요구하므로, AI의 수학적 창의성 한계를 탐색하는 데 유용하다.
벤치마크 수명: 매년 갱신되는 구조 덕분에, 정적 벤치마크의 saturation 문제를 자연스럽게 회피한다.

핵심 용어 정리

용어	설명
AIME	American Invitational Mathematics Examination; AMC 상위 진출자 대상 수학 시험
AMC	American Mathematics Competition; 미국 수학 경시대회 체계의 첫 단계
MAA	Mathematical Association of America; AIME/AMC 주관 기관
Free Response	객관식이 아닌 자유 응답 형식; AIME에서는 0–999 정수
Exact Match	모델 출력이 정답과 정확히 일치해야 정답으로 인정하는 평가 방식
Data Contamination	평가 데이터가 학습 데이터에 포함되어 성능이 과대평가되는 문제
Chain-of-Thought	단계별 추론 과정을 명시적으로 생성하는 프롬프팅/학습 기법
Test-time Compute	추론 시점에서 추가 연산을 투입하여 성능을 높이는 전략 (o1 계열)
pass@k	k번 시도 중 최소 1번 정답을 맞출 확률; 반복 평가 지표

benchmark math reasoning AIME competition olympiad chain-of-thought evaluation

Juhyeon's Blog

탐색기

AIME 2024 - 미국 수학 올림피아드 벤치마크

AIME 2024: 미국 수학 올림피아드 벤치마크

메타데이터

데이터셋 구성

규모 및 분할

Feature/Column 구조

난이도 분포

실제 데이터 예시

예시 1: AIME I #1 (Easy)

예시 2: AIME I #7 (Medium)

예시 3: AIME II #13 (Hard)

왜 이 벤치마크가 중요한가?

방법 (Method)

평가 프로토콜

발견 (Findings)

주요 LLM 성능 비교

핵심 발견

이론적 의의

관련 연구

핵심 용어 정리

그래프 뷰

목차

Properties

백링크