AIME 2024: 미국 수학 올림피아드 벤치마크

Digest: AMC(미국 수학 경시대회) 상위 5% 진출자를 위한 AIME(American Invitational Mathematics Examination) 2024년도 시험. Mathematical Association of America(MAA)가 주관하며, 15문제 × 2세트(AIME I, AIME II) = 총 30문제로 구성된다. 모든 답은 000–999 범위의 정수이며, 객관식이 아닌 자유 응답(free response) 형식이다. MATH 벤치마크보다 훨씬 높은 난이도를 가지며, OpenAI o1이 ~87%를 달성하면서 LLM 수학 추론의 새로운 이정표가 되었다. 매년 새 문제가 출제되어 데이터 오염(data contamination) 위험이 구조적으로 낮다.


메타데이터

항목내용
벤치마크명AIME 2024 (American Invitational Mathematics Examination)
주관MAA (Mathematical Association of America)
유형수학 경시대회 (논문 아님)
시험 구성AIME I (15문제) + AIME II (15문제) = 30문제
답변 형식자유 응답, 0–999 정수 (객관식 아님)
대상AMC 10/12 상위 약 5% 학생
평가 지표정답 수 / 30 (또는 백분율)
LLM 벤치마크 활용2024년부터 주요 모델 비교에 광범위 사용
공식 출처Art of Problem Solving Wiki

데이터셋 구성

규모 및 분할

구분문제 수시험 일자비고
AIME I152024-02-01첫 번째 세트
AIME II152024-02-07두 번째 세트 (대체 시험)
합계30전체 벤치마크
  • Train/Test 분할: 별도 분할 없음. 30문제 전체를 평가(test)에 사용
  • 연도별 갱신: 매년 새로운 문제 출제 → 시계열적 데이터 오염 방지

Feature/Column 구조

FeatureType설명
problem_idstring시험 및 문제 번호 (e.g., “2024 AIME I #7”)
problem_textstring문제 본문 (수학적 서술)
answerinteger정답 (0–999 범위 정수)
topic_areacategorical주제 영역 (algebra, geometry, number theory, combinatorics, probability)
difficulty_levelordinal문제 번호 기반 난이도 (#1 쉬움 → #15 매우 어려움)

난이도 분포

난이도 구간문제 번호특성
Easy#1–#5기본 개념 적용, 1–2단계 추론
Medium#6–#10다단계 추론, 개념 결합 필요
Hard#11–#15고급 기법, 창의적 접근 필수, 다수 추론 단계

문제 번호가 곧 난이도 지표이며, 1에서 15로 갈수록 급격히 어려워진다.


실제 데이터 예시

예시 1: AIME I #1 (Easy)

Every morning, Ava does a four-step process to prepare her morning coffee. She uses a kettle that takes a minutes to boil, a filter that takes b minutes to brew, then adds milk and sugar taking a combined c minutes. If the total time is always 13 minutes and , , are positive integers with , find the number of possible ordered triples .

  • 정답: 정수 (000–999 범위)
  • 주제: Combinatorics / Number Theory
  • 난이도: 기본 정수 분할 문제

예시 2: AIME I #7 (Medium)

Let be the number of ways to place numbers in a grid such that the sum of numbers in each row and each column is divisible by 3. Find the remainder when is divided by 1000.

  • 정답: 0–999 정수
  • 주제: Combinatorics
  • 난이도: 다단계 조합 추론, 모듈러 산술 결합

예시 3: AIME II #13 (Hard)

Let and define . The minimal polynomial of over has the form . Find .

  • 정답: 0–999 정수
  • 주제: Number Theory / Algebra
  • 난이도: 추상 대수적 구조에 대한 깊은 이해 필요

참고: 위 예시들은 AIME 스타일의 대표적 문제 유형을 보여주기 위한 것이다. 실제 2024년 문제는 Art of Problem Solving에서 확인할 수 있다.


왜 이 벤치마크가 중요한가?

  1. 진정한 수학적 추론 평가: 객관식이 아닌 자유 응답 형식으로, 패턴 매칭(pattern matching)이나 찍기로는 정답을 맞출 수 없다. 정답 공간이 0–999(1000가지)이므로 랜덤 정답률이 0.1%에 불과하다.

  2. 데이터 오염 면역: 매년 완전히 새로운 문제가 출제되므로, 학습 데이터에 포함될 가능성이 구조적으로 낮다. 이는 MATH 벤치마크의 고질적 문제인 데이터 오염을 우회한다.

  3. 인간 기준선 명확: AMC 상위 5% 학생들의 평균이 약 40–60%이므로, 모델 성능을 인간 전문가와 직접 비교할 수 있다.

  4. 다단계 추론 요구: 단순 계산이 아닌 대수, 기하, 조합, 정수론을 결합한 복합 추론이 필요하며, 이는 chain-of-thought 추론 능력의 핵심 테스트이다.


방법 (Method)

AIME 2024는 논문이 아닌 시험이므로, 여기서는 LLM 벤치마크로서의 평가 방법론을 기술한다.

flowchart TD
    A["AIME 2024 문제 수집<br/>30문제 (I: 15, II: 15)"] --> B["문제 텍스트 파싱<br/>LaTeX → 자연어 변환"]
    B --> C["LLM에 문제 입력<br/>zero-shot / few-shot"]
    C --> D["모델 응답 생성<br/>chain-of-thought 추론"]
    D --> E["정수 답변 추출<br/>0–999 범위 파싱"]
    E --> F{"정답 비교<br/>exact match"}
    F -->|일치| G["정답 (1점)"]
    F -->|불일치| H["오답 (0점)"]
    G --> I["최종 점수 집계<br/>정답 수 / 30"]
    H --> I

    style A fill:#e1f5fe
    style F fill:#fff3e0
    style I fill:#e8f5e9

평가 프로토콜

  • 입력: 문제 텍스트 (LaTeX 수식 포함)
  • 출력: 0–999 정수 1개
  • 매칭: Exact match (정확히 일치해야 정답)
  • 프롬프트: 대부분 zero-shot, 일부 연구에서 few-shot 또는 chain-of-thought 프롬프트 사용
  • 반복 평가: 동일 문제에 대해 다수 시행(majority voting, pass@k) 적용 가능

발견 (Findings)

주요 LLM 성능 비교

모델AIME 2024 점수백분율비고
OpenAI o1 (full)~26/30~87%Chain-of-thought 추론 극대화
DeepSeek-R1~25/30~83%오픈소스 최고 성능
OpenAI o1-preview~24/30~80%o1 프리뷰 버전
Claude 3.5 Sonnet~16/30~53%Anthropic 주력 모델
GPT-4o~13/30~43%기본 GPT-4 계열
GPT-4 Turbo~6/30~20%이전 세대
Gemini 1.5 Pro~5/30~17%Google 모델
인간 (AMC 상위 5%)~12–18/30~40–60%상위 수학 학생 평균

핵심 발견

  1. Reasoning 모델의 압도적 우위: o1, DeepSeek-R1 등 chain-of-thought 특화 모델이 기존 모델 대비 2배 이상 성능을 보임
  2. 기존 LLM의 한계: GPT-4o, Claude 3.5 Sonnet 등도 인간 상위 수준에 근접하지만, 고난이도 문제(#11–#15)에서 급격히 실패
  3. 난이도별 격차: 쉬운 문제(#1–#5)는 대부분 모델이 해결하지만, #13–#15는 reasoning 모델만 일부 해결
  4. 수학적 추론 ≠ 언어 능력: MMLU 등 일반 벤치마크에서 높은 점수를 받는 모델도 AIME에서는 저조 → 수학 추론은 별도 능력

이론적 의의

  1. System 2 사고의 벤치마크: AIME는 Daniel Kahneman의 System 2(느리고 의식적인 사고)를 요구하는 문제로 구성되어, LLM의 deliberate reasoning 능력을 직접 측정한다.

  2. Scaling Law와 추론: 단순 모델 크기 증가(scaling)만으로는 AIME 성능이 크게 향상되지 않으며, chain-of-thought 학습이나 test-time compute 확장이 핵심임을 보여준다.

  3. 수학적 창의성 평가: AIME 고난이도 문제는 알고리즘적 접근이 아닌 창의적 통찰(insight)을 요구하므로, AI의 수학적 창의성 한계를 탐색하는 데 유용하다.

  4. 벤치마크 수명: 매년 갱신되는 구조 덕분에, 정적 벤치마크의 saturation 문제를 자연스럽게 회피한다.


관련 연구

  • MATH: 경시대회 수학 문제 12,500개, AIME보다 넓은 난이도 범위
  • GPQA: 대학원 수준 과학 문제, 전문가만 풀 수 있는 고난이도
  • MMLU: 다영역 객관식 벤치마크, AIME보다 쉬우나 범위 넓음
  • MMLU-Pro: MMLU 강화 버전, 더 어려운 문제 포함
  • FrontierMath: 연구 수준 수학 문제, AIME보다 더 높은 난이도
  • BBH: 다단계 추론이 필요한 BIG-Bench 하드 문제

핵심 용어 정리

용어설명
AIMEAmerican Invitational Mathematics Examination; AMC 상위 진출자 대상 수학 시험
AMCAmerican Mathematics Competition; 미국 수학 경시대회 체계의 첫 단계
MAAMathematical Association of America; AIME/AMC 주관 기관
Free Response객관식이 아닌 자유 응답 형식; AIME에서는 0–999 정수
Exact Match모델 출력이 정답과 정확히 일치해야 정답으로 인정하는 평가 방식
Data Contamination평가 데이터가 학습 데이터에 포함되어 성능이 과대평가되는 문제
Chain-of-Thought단계별 추론 과정을 명시적으로 생성하는 프롬프팅/학습 기법
Test-time Compute추론 시점에서 추가 연산을 투입하여 성능을 높이는 전략 (o1 계열)
pass@kk번 시도 중 최소 1번 정답을 맞출 확률; 반복 평가 지표

benchmark math reasoning AIME competition olympiad chain-of-thought evaluation