수학 문제 풀이로 측정하는 수학적 추론 능력 (Measuring Mathematical Problem Solving with the MATH Dataset)

Digest: GSM8K가 초등 수준 산술 문제를 다룬다면, UC Berkeley의 MATH 데이터셋은 경시대회(AMC, AIME 등) 수준의 12,500개 수학 문제로 LLM의 고급 수학 추론 능력을 평가한다. 7개 주제(대수, 정수론, 기하 등)에 걸쳐 5단계 난이도로 구성되며, 각 문제에 LaTeX 형식의 **단계별 풀이(step-by-step solution)**가 포함된다. 핵심 통찰은 LLM이 초등 수학은 잘 풀지만, 경시대회 수준의 다단계 추론에서는 극적으로 성능이 하락한다는 것이다. GPT-2 파인튜닝은 6.9% (Table 3), 최대 모델도 Level 5에서 5% 미만을 기록했다. 이후 GPT-4(~42%), Claude 3.5(~60%) 등 발전의 핵심 벤치마크가 되었다.


메타데이터

항목내용
제목Measuring Mathematical Problem Solving with the MATH Dataset
저자Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, Jacob Steinhardt
소속UC Berkeley
연도2021
발표NeurIPS 2021 Datasets and Benchmarks, arXiv:2103.03874
링크arXiv, GitHub
키워드MATH, competition math, step-by-step solution, mathematical reasoning

데이터셋 구성

규모 및 분할

항목내용
전체 크기12,500개 문제
Train7,500개
Test5,000개
풀이 형식LaTeX 단계별 풀이 (step-by-step)
정답 형식\boxed{answer}

7개 주제 분류

주제TrainTest설명
Prealgebra871871기초 대수 이전 (분수, 비율)
Algebra1,1871,187방정식, 함수, 부등식
Number Theory869540소수, 합동식, 디오판토스
Counting & Probability771474조합론, 확률
Geometry870479유클리드 기하, 좌표 기하
Intermediate Algebra1,064903고급 대수 (다항식, 복소수)
Precalculus868546삼각함수, 벡터, 행렬

5단계 난이도 체계

Level난이도대략적 기준모델 정확도 (2021)
1매우 쉬움AMC 8 초반~20%
2쉬움AMC 8 후반~15%
3보통AMC 10~10%
4어려움AMC 12~7%
5매우 어려움AIME 수준~5%

Feature/Column 구조

필드설명예시
problem문제 텍스트 (LaTeX)"Find the value of $x$..."
level난이도 (Level 1-5)"Level 3"
type주제 분류"Algebra"
solution단계별 풀이 (LaTeX)"We start by... \boxed{42}"

실제 데이터 예시

예시 1: Level 1 (Prealgebra)

Problem: What is the value of $\frac{2}{5} + \frac{1}{3}$?
 
Solution: Finding a common denominator of 15:
$\frac{2}{5} + \frac{1}{3} = \frac{6}{15} + \frac{5}{15}
= \frac{11}{15}$
 
Answer: \boxed{\frac{11}{15}}

예시 2: Level 3 (Algebra)

Problem: If $f(x) = 3x^2 - 7$ and $g(x) = x + 1$,
what is $f(g(2)) - g(f(2))$?
 
Solution: First, g(2) = 3, so f(g(2)) = f(3) = 3(9) - 7 = 20.
Next, f(2) = 3(4) - 7 = 5, so g(f(2)) = g(5) = 6.
Therefore f(g(2)) - g(f(2)) = 20 - 6 = 14.
 
Answer: \boxed{14}

예시 3: Level 5 (Number Theory)

Problem: Find the remainder when $3^{2007}$ is divided by 32.
 
Solution: We compute powers of 3 modulo 32:
$3^1 \equiv 3$, $3^2 \equiv 9$, $3^4 \equiv 81 \equiv 17$,
$3^8 \equiv 17^2 = 289 \equiv 289 - 9(32) = 1 \pmod{32}$.
Since $3^8 \equiv 1 \pmod{32}$:
$3^{2007} = 3^{8 \cdot 250 + 7} = (3^8)^{250} \cdot 3^7
\equiv 1^{250} \cdot 2187 \pmod{32}$.
$2187 = 68 \cdot 32 + 11$, so $3^{2007} \equiv 11 \pmod{32}$.
 
Answer: \boxed{11}

왜 이 연구를 하는가?

핵심 질문

LLM이 경시대회 수준의 복잡한 수학 추론을 수행할 수 있는가?

기존 접근법의 한계

한계설명
초등 수준에 한정GSM8K 등은 초등 산술만 다룸, 고급 수학 미포함
단계별 풀이 부재기존 데이터셋은 정답만 제공, 풀이 과정 없음
주제 다양성 부족특정 수학 영역에 편중된 데이터셋

핵심 통찰

수학적 추론은 난이도에 따라 질적으로 다른 능력을 요구한다. 초등 산술(GSM8K)과 경시대회 수학(MATH)은 완전히 다른 차원의 추론이며, 후자를 평가해야 LLM의 진정한 수학적 추론 한계를 파악할 수 있다.


방법 (Method)

프레임워크 개요

graph TB
    A["경시대회 소스<br/>(AMC, AIME, Mathcounts 등)"] --> B["12,500문제 수집"]
    B --> C["7개 주제 분류"]
    B --> D["5단계 난이도 태깅"]
    B --> E["LaTeX 단계별 풀이 작성"]

    F["모델 평가"] --> G["\\boxed{} 정답 추출"]
    G --> H["등가성 판정<br/>(sympy 기반)"]
    H --> I["정확도 산출"]

평가 방식

정답 비교 시 단순 문자열 매칭이 아닌 **수학적 등가성(mathematical equivalence)**을 검사한다. 예: \frac{1}{2}0.5는 동일한 정답으로 인정.


발견 (Findings)

주요 결과 (2021 기준)

모델전체Level 1Level 5
GPT-2 (fine-tuned)6.9%~20%~2%
GPT-3 (few-shot)5.2%~15%~3%
최고 모델 (2021)~7%~5%

(Table 3)

이후 발전 (참고)

모델MATH 정확도연도
GPT-4~42%2023
Claude 3.5 Sonnet~60%2024
DeepSeek-R1~79%2025
o1-preview~83%2024

핵심 발견

  1. 난이도별 극적 차이: Level 1(~20%) vs Level 5(~2-5%), 난이도가 올라갈수록 기하급수적 성능 하락 (Table 3)
  2. 주제별 차이: Prealgebra 최고, Precalculus와 Intermediate Algebra가 최저
  3. 단계별 풀이의 가치: 모델 학습 시 풀이 과정을 포함하면 정답만 학습할 때보다 성능 향상
  4. 스케일링의 한계: 2021년 기준 모델 크기를 키워도 ~7%를 넘기 어려웠음

이론적 의의

LLM 수학 추론 발전의 이정표

MATH는 GSM8K와 함께 LLM 수학 능력의 양대 벤치마크이다. GSM8K가 “초등”이라면 MATH는 “고급”으로, 두 벤치마크의 성능 차이가 모델의 추론 깊이를 나타낸다. Chain-of-Thought, Tree-of-Thought, RLHF 등 추론 기법의 발전이 MATH 벤치마크에서 가장 잘 드러난다.


관련 연구


핵심 용어 정리

용어정의
MATH경시대회(AMC/AIME) 수준의 12,500개 수학 문제 벤치마크
AMC/AIMEAmerican Mathematics Competitions / Invitational Examination, 미국 수학 경시대회
\boxed{}MATH 데이터셋에서 최종 정답을 표시하는 LaTeX 형식
Mathematical Equivalence1/20.5를 같은 답으로 인정하는 등가성 판정 방식
Step-by-step Solution풀이의 각 단계를 자연어+수식으로 기술한 해설

태그

paper #2021 benchmark mathematics MATH competition_math reasoning NeurIPS