수학 문제 풀이로 측정하는 수학적 추론 능력 (Measuring Mathematical Problem Solving with the MATH Dataset)
Digest: GSM8K가 초등 수준 산술 문제를 다룬다면, UC Berkeley의 MATH 데이터셋은 경시대회(AMC, AIME 등) 수준의 12,500개 수학 문제로 LLM의 고급 수학 추론 능력을 평가한다. 7개 주제(대수, 정수론, 기하 등)에 걸쳐 5단계 난이도로 구성되며, 각 문제에 LaTeX 형식의 **단계별 풀이(step-by-step solution)**가 포함된다. 핵심 통찰은 LLM이 초등 수학은 잘 풀지만, 경시대회 수준의 다단계 추론에서는 극적으로 성능이 하락한다는 것이다. GPT-2 파인튜닝은 6.9% (Table 3), 최대 모델도 Level 5에서 5% 미만을 기록했다. 이후 GPT-4(~42%), Claude 3.5(~60%) 등 발전의 핵심 벤치마크가 되었다.
메타데이터
항목
내용
제목
Measuring Mathematical Problem Solving with the MATH Dataset
저자
Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, Jacob Steinhardt
소속
UC Berkeley
연도
2021
발표
NeurIPS 2021 Datasets and Benchmarks, arXiv:2103.03874
Problem: What is the value of $\frac{2}{5} + \frac{1}{3}$?Solution: Finding a common denominator of 15:$\frac{2}{5} + \frac{1}{3} = \frac{6}{15} + \frac{5}{15}= \frac{11}{15}$Answer: \boxed{\frac{11}{15}}
예시 2: Level 3 (Algebra)
Problem: If $f(x) = 3x^2 - 7$ and $g(x) = x + 1$,what is $f(g(2)) - g(f(2))$?Solution: First, g(2) = 3, so f(g(2)) = f(3) = 3(9) - 7 = 20.Next, f(2) = 3(4) - 7 = 5, so g(f(2)) = g(5) = 6.Therefore f(g(2)) - g(f(2)) = 20 - 6 = 14.Answer: \boxed{14}
예시 3: Level 5 (Number Theory)
Problem: Find the remainder when $3^{2007}$ is divided by 32.Solution: We compute powers of 3 modulo 32:$3^1 \equiv 3$, $3^2 \equiv 9$, $3^4 \equiv 81 \equiv 17$,$3^8 \equiv 17^2 = 289 \equiv 289 - 9(32) = 1 \pmod{32}$.Since $3^8 \equiv 1 \pmod{32}$:$3^{2007} = 3^{8 \cdot 250 + 7} = (3^8)^{250} \cdot 3^7\equiv 1^{250} \cdot 2187 \pmod{32}$.$2187 = 68 \cdot 32 + 11$, so $3^{2007} \equiv 11 \pmod{32}$.Answer: \boxed{11}
왜 이 연구를 하는가?
핵심 질문
LLM이 경시대회 수준의 복잡한 수학 추론을 수행할 수 있는가?
기존 접근법의 한계
한계
설명
초등 수준에 한정
GSM8K 등은 초등 산술만 다룸, 고급 수학 미포함
단계별 풀이 부재
기존 데이터셋은 정답만 제공, 풀이 과정 없음
주제 다양성 부족
특정 수학 영역에 편중된 데이터셋
핵심 통찰
수학적 추론은 난이도에 따라 질적으로 다른 능력을 요구한다. 초등 산술(GSM8K)과 경시대회 수학(MATH)은 완전히 다른 차원의 추론이며, 후자를 평가해야 LLM의 진정한 수학적 추론 한계를 파악할 수 있다.
방법 (Method)
프레임워크 개요
graph TB
A["경시대회 소스<br/>(AMC, AIME, Mathcounts 등)"] --> B["12,500문제 수집"]
B --> C["7개 주제 분류"]
B --> D["5단계 난이도 태깅"]
B --> E["LaTeX 단계별 풀이 작성"]
F["모델 평가"] --> G["\\boxed{} 정답 추출"]
G --> H["등가성 판정<br/>(sympy 기반)"]
H --> I["정확도 산출"]
평가 방식
정답 비교 시 단순 문자열 매칭이 아닌 **수학적 등가성(mathematical equivalence)**을 검사한다. 예: \frac{1}{2}와 0.5는 동일한 정답으로 인정.
발견 (Findings)
주요 결과 (2021 기준)
모델
전체
Level 1
Level 5
GPT-2 (fine-tuned)
6.9%
~20%
~2%
GPT-3 (few-shot)
5.2%
~15%
~3%
최고 모델 (2021)
~7%
—
~5%
(Table 3)
이후 발전 (참고)
모델
MATH 정확도
연도
GPT-4
~42%
2023
Claude 3.5 Sonnet
~60%
2024
DeepSeek-R1
~79%
2025
o1-preview
~83%
2024
핵심 발견
난이도별 극적 차이: Level 1(~20%) vs Level 5(~2-5%), 난이도가 올라갈수록 기하급수적 성능 하락 (Table 3)
주제별 차이: Prealgebra 최고, Precalculus와 Intermediate Algebra가 최저
단계별 풀이의 가치: 모델 학습 시 풀이 과정을 포함하면 정답만 학습할 때보다 성능 향상
스케일링의 한계: 2021년 기준 모델 크기를 키워도 ~7%를 넘기 어려웠음
이론적 의의
LLM 수학 추론 발전의 이정표
MATH는 GSM8K와 함께 LLM 수학 능력의 양대 벤치마크이다. GSM8K가 “초등”이라면 MATH는 “고급”으로, 두 벤치마크의 성능 차이가 모델의 추론 깊이를 나타낸다. Chain-of-Thought, Tree-of-Thought, RLHF 등 추론 기법의 발전이 MATH 벤치마크에서 가장 잘 드러난다.