수학 문제 풀이로 측정하는 수학적 추론 능력 (Measuring Mathematical Problem Solving with the MATH Dataset)

Digest: GSM8K가 초등 수준 산술 문제를 다룬다면, UC Berkeley의 MATH 데이터셋은 경시대회(AMC, AIME 등) 수준의 12,500개 수학 문제로 LLM의 고급 수학 추론 능력을 평가한다. 7개 주제(대수, 정수론, 기하 등)에 걸쳐 5단계 난이도로 구성되며, 각 문제에 LaTeX 형식의 **단계별 풀이(step-by-step solution)**가 포함된다. 핵심 통찰은 LLM이 초등 수학은 잘 풀지만, 경시대회 수준의 다단계 추론에서는 극적으로 성능이 하락한다는 것이다. GPT-2 파인튜닝은 6.9% (Table 3), 최대 모델도 Level 5에서 5% 미만을 기록했다. 이후 GPT-4(~42%), Claude 3.5(~60%) 등 발전의 핵심 벤치마크가 되었다.

메타데이터

항목	내용
제목	Measuring Mathematical Problem Solving with the MATH Dataset
저자	Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, Jacob Steinhardt
소속	UC Berkeley
연도	2021
발표	NeurIPS 2021 Datasets and Benchmarks, arXiv:2103.03874
링크	arXiv, GitHub
키워드	MATH, competition math, step-by-step solution, mathematical reasoning

데이터셋 구성

규모 및 분할

항목	내용
전체 크기	12,500개 문제
Train	7,500개
Test	5,000개
풀이 형식	LaTeX 단계별 풀이 (step-by-step)
정답 형식	`\boxed{answer}`

7개 주제 분류

주제	Train	Test	설명
Prealgebra	871	871	기초 대수 이전 (분수, 비율)
Algebra	1,187	1,187	방정식, 함수, 부등식
Number Theory	869	540	소수, 합동식, 디오판토스
Counting & Probability	771	474	조합론, 확률
Geometry	870	479	유클리드 기하, 좌표 기하
Intermediate Algebra	1,064	903	고급 대수 (다항식, 복소수)
Precalculus	868	546	삼각함수, 벡터, 행렬

5단계 난이도 체계

Level	난이도	대략적 기준	모델 정확도 (2021)
1	매우 쉬움	AMC 8 초반	~20%
2	쉬움	AMC 8 후반	~15%
3	보통	AMC 10	~10%
4	어려움	AMC 12	~7%
5	매우 어려움	AIME 수준	~5%

Feature/Column 구조

필드	설명	예시
`problem`	문제 텍스트 (LaTeX)	`"Find the value of $x$..."`
`level`	난이도 (Level 1-5)	`"Level 3"`
`type`	주제 분류	`"Algebra"`
`solution`	단계별 풀이 (LaTeX)	`"We start by... \boxed{42}"`

실제 데이터 예시

예시 1: Level 1 (Prealgebra)

Problem: What is the value of $\frac{2}{5} + \frac{1}{3}$?
 
Solution: Finding a common denominator of 15:
$\frac{2}{5} + \frac{1}{3} = \frac{6}{15} + \frac{5}{15}
= \frac{11}{15}$
 
Answer: \boxed{\frac{11}{15}}

예시 2: Level 3 (Algebra)

Problem: If $f(x) = 3x^2 - 7$ and $g(x) = x + 1$,
what is $f(g(2)) - g(f(2))$?
 
Solution: First, g(2) = 3, so f(g(2)) = f(3) = 3(9) - 7 = 20.
Next, f(2) = 3(4) - 7 = 5, so g(f(2)) = g(5) = 6.
Therefore f(g(2)) - g(f(2)) = 20 - 6 = 14.
 
Answer: \boxed{14}

예시 3: Level 5 (Number Theory)

Problem: Find the remainder when $3^{2007}$ is divided by 32.
 
Solution: We compute powers of 3 modulo 32:
$3^1 \equiv 3$, $3^2 \equiv 9$, $3^4 \equiv 81 \equiv 17$,
$3^8 \equiv 17^2 = 289 \equiv 289 - 9(32) = 1 \pmod{32}$.
Since $3^8 \equiv 1 \pmod{32}$:
$3^{2007} = 3^{8 \cdot 250 + 7} = (3^8)^{250} \cdot 3^7
\equiv 1^{250} \cdot 2187 \pmod{32}$.
$2187 = 68 \cdot 32 + 11$, so $3^{2007} \equiv 11 \pmod{32}$.
 
Answer: \boxed{11}

왜 이 연구를 하는가?

핵심 질문

LLM이 경시대회 수준의 복잡한 수학 추론을 수행할 수 있는가?

기존 접근법의 한계

한계	설명
초등 수준에 한정	GSM8K 등은 초등 산술만 다룸, 고급 수학 미포함
단계별 풀이 부재	기존 데이터셋은 정답만 제공, 풀이 과정 없음
주제 다양성 부족	특정 수학 영역에 편중된 데이터셋

핵심 통찰

수학적 추론은 난이도에 따라 질적으로 다른 능력을 요구한다. 초등 산술(GSM8K)과 경시대회 수학(MATH)은 완전히 다른 차원의 추론이며, 후자를 평가해야 LLM의 진정한 수학적 추론 한계를 파악할 수 있다.

방법 (Method)

프레임워크 개요

graph TB
    A["경시대회 소스<br/>(AMC, AIME, Mathcounts 등)"] --> B["12,500문제 수집"]
    B --> C["7개 주제 분류"]
    B --> D["5단계 난이도 태깅"]
    B --> E["LaTeX 단계별 풀이 작성"]

    F["모델 평가"] --> G["\\boxed{} 정답 추출"]
    G --> H["등가성 판정<br/>(sympy 기반)"]
    H --> I["정확도 산출"]

평가 방식

정답 비교 시 단순 문자열 매칭이 아닌 **수학적 등가성(mathematical equivalence)**을 검사한다. 예: \frac{1}{2}와 0.5는 동일한 정답으로 인정.

발견 (Findings)

주요 결과 (2021 기준)

모델	전체	Level 1	Level 5
GPT-2 (fine-tuned)	6.9%	~20%	~2%
GPT-3 (few-shot)	5.2%	~15%	~3%
최고 모델 (2021)	~7%	—	~5%

(Table 3)

이후 발전 (참고)

모델	MATH 정확도	연도
GPT-4	~42%	2023
Claude 3.5 Sonnet	~60%	2024
DeepSeek-R1	~79%	2025
o1-preview	~83%	2024

핵심 발견

난이도별 극적 차이: Level 1(~20%) vs Level 5(~2-5%), 난이도가 올라갈수록 기하급수적 성능 하락 (Table 3)
주제별 차이: Prealgebra 최고, Precalculus와 Intermediate Algebra가 최저
단계별 풀이의 가치: 모델 학습 시 풀이 과정을 포함하면 정답만 학습할 때보다 성능 향상
스케일링의 한계: 2021년 기준 모델 크기를 키워도 ~7%를 넘기 어려웠음

이론적 의의

LLM 수학 추론 발전의 이정표

MATH는 GSM8K와 함께 LLM 수학 능력의 양대 벤치마크이다. GSM8K가 “초등”이라면 MATH는 “고급”으로, 두 벤치마크의 성능 차이가 모델의 추론 깊이를 나타낸다. Chain-of-Thought, Tree-of-Thought, RLHF 등 추론 기법의 발전이 MATH 벤치마크에서 가장 잘 드러난다.

핵심 용어 정리

용어	정의
MATH	경시대회(AMC/AIME) 수준의 12,500개 수학 문제 벤치마크
AMC/AIME	American Mathematics Competitions / Invitational Examination, 미국 수학 경시대회
\boxed{}	MATH 데이터셋에서 최종 정답을 표시하는 LaTeX 형식
Mathematical Equivalence	`1/2`와 `0.5`를 같은 답으로 인정하는 등가성 판정 방식
Step-by-step Solution	풀이의 각 단계를 자연어+수식으로 기술한 해설

Juhyeon's Blog

탐색기

Measuring Mathematical Problem Solving with the MATH Dataset