MMLU-Pro: 더 강건하고 도전적인 다중과제 언어 이해 벤치마크
Digest: MMLU(Massive Multitask Language Understanding)가 상위 모델에서 88-90%로 포화되면서 변별력이 급격히 저하되었다. Tiger Research의 MMLU-Pro는 MMLU를 3가지 방향으로 강화했다: (1) 보기를 4개→10개로 확대하여 찍기 확률을 25%→10%로 낮추고, (2) 추론이 필요한 문제 비중을 확대하며, (3) 전문가 검증으로 노이즈를 제거했다. 총 12,032개 문제, 14개 분야에 걸쳐 구성된다. 핵심 통찰은 보기 수를 늘리는 것만으로도 벤치마크의 변별력과 강건성이 크게 향상된다는 것이다. GPT-4o가 72.6% (Table 2)로 MMLU 대비 ~16%p 하락하여, 모델 간 차이가 더 뚜렷하게 드러났다.
왜 이 연구를 하는가?
핵심 질문(Research Question)
MMLU가 포화된 후, 어떻게 더 변별력 있고 강건한 지식/추론 벤치마크를 만들 수 있는가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| MMLU 포화 | 상위 모델 88-90%, 모델 간 차이 2-3%p |
| 4지선다의 한계 | 랜덤 25%가 높아 변별력 낮음 |
| 노이즈 | MMLU 일부 문제에 오류, 모호성 존재 |
| 추론 부족 | MMLU 상당수가 단순 기억 문제 |
핵심 통찰
보기 수를 10개로 늘리면 (1) 찍기 확률 25%→10%로 낮추고, (2) 더 세밀한 구별이 필요하여 모델 변별력이 향상되며, (3) CoT 추론의 효과가 더 뚜렷해진다.
방법 (Method)
프레임워크 개요
graph TB A["MMLU 원본 문제"] --> B["추론 비중 낮은 문제 필터링"] B --> C["추가 소스 통합<br/>(TheoremQA, STEM 등)"] C --> D["GPT-4로 오답 보기 6개 생성<br/>(4→10개)"] D --> E["전문가 검증<br/>(노이즈 제거)"] E --> F["MMLU-Pro<br/>12,032 문제, 10지선다"]
데이터셋 구성
규모 및 분할
| 항목 | MMLU | MMLU-Pro |
|---|---|---|
| 문제 수 | 14,042 | 12,032 |
| 보기 수 | 4개 | 10개 |
| 랜덤 기준선 | 25% | 10% |
| 분야 수 | 57개 | 14개 |
| 추론 비중 | 약 30% | 약 60% |
14개 분야
| 분야 | 문제 수 | 설명 |
|---|---|---|
| Biology | 약 1,000 | 생물학 |
| Business | 약 800 | 경영학 |
| Chemistry | 약 900 | 화학 |
| Computer Science | 약 1,000 | 컴퓨터과학 |
| Economics | 약 800 | 경제학 |
| Engineering | 약 700 | 공학 |
| Health | 약 600 | 보건학 |
| History | 약 700 | 역사학 |
| Law | 약 900 | 법학 |
| Math | 약 1,200 | 수학 |
| Other | 약 500 | 기타 |
| Philosophy | 약 500 | 철학 |
| Physics | 약 800 | 물리학 |
| Psychology | 약 600 | 심리학 |
Feature/Column 구조
| 필드 | 설명 | 예시 |
|---|---|---|
question | 문제 텍스트 | "Which of the following..." |
options | 10개 보기 | ["A. ...", "B. ...", ..., "J. ..."] |
answer | 정답 | "F" |
category | 분야 | "physics" |
src | 원본 소스 | "MMLU" / "STEM" / "TheoremQA" |
실제 데이터 예시
예시 1: Physics (10지선다)
Question: A 2 kg block slides down a frictionless incline
at 30°. What is the acceleration of the block?
A. 2.5 m/s² B. 3.0 m/s² C. 4.0 m/s² D. 4.9 m/s²
E. 5.0 m/s² F. 6.0 m/s² G. 7.5 m/s² H. 8.0 m/s²
I. 9.8 m/s² J. 10.0 m/s²
Answer: D (g·sin30° = 9.8 × 0.5 = 4.9 m/s²)
예시 2: Math (추론 필요)
Question: If f(x) = x³ - 3x² + 2x, find the number of
distinct real roots of f'(x) = 0.
A. 0 B. 1 C. 2 D. 3 E. 4
F. 5 G. Infinitely many H. Cannot be determined
I. Depends on the domain J. None of the above
Answer: C (f'(x) = 3x² - 6x + 2, Δ = 36-24 = 12 > 0 → 2 roots)
발견 (Findings)
주요 결과 (5-shot CoT)
- 본 문제 나오기 전에 관련 문제가 5개 답과 함께 제시됨.
Table 2
| 모델 | MMLU | MMLU-Pro | 하락폭 |
|---|---|---|---|
| GPT-4o | 88.7% | 72.6% | -16.1%p |
| Claude 3.5 Sonnet | 88.3% | 68.5% | -19.8%p |
| Llama-3-70B | 82.0% | 56.2% | -25.8%p |
| Mistral-Large | 81.2% | 54.7% | -26.5%p |
핵심 발견
- 포화 해소: MMLU 88% 모델이 MMLU-Pro에서 72%로, 변별력 회복 (Table 2)
← 이게 왜 변별력이 해소된 건가? 그냥 정답률을 억지로 낮춘 거 아닌가? 천장을 낮춘거지, MMLU 100%랑 MMLU-Pro 100%랑 근본적으로 제공하는 차이는 없음. - CoT의 중요성: MMLU-Pro에서 CoT가 없으면 평균 ~10%p 추가 하락 — 추론 필수
- 프롬프트 강건성: MMLU에서 프롬프트 변화에 민감(4-5%p)하나 MMLU-Pro에서는 2%p 이내
- 모델 간 스프레드 확대: MMLU에서 6%p 차이가 MMLU-Pro에서 18%p로 확대
이론적 의의
포스트-MMLU 표준
MMLU-Pro는 MMLU의 자연스러운 후속 벤치마크로 자리잡아, 많은 LLM 리더보드에서 MMLU와 함께 또는 대체하여 사용된다. “보기 수 확대 + 추론 비중 확대”라는 단순한 전략이 벤치마크 수명을 효과적으로 연장할 수 있음을 보여주었다.
관련 연구
- Measuring Massive Multitask Language Understanding — MMLU-Pro의 원본 벤치마크
- GPQA_2023_GraduateLevel — 전문가 수준으로 더 어렵게
- BBH_2022_BIGBenchHard — 어려운 문제 선별 접근
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| MMLU-Pro | MMLU의 강화판, 10지선다 12,032문제로 변별력 향상 |
| 10-choice | 기존 4지선다에서 10지선다로 확대하여 찍기 확률을 낮춘 형식 |
| Benchmark Saturation | 모델 성능이 상한에 근접하여 변별력이 사라지는 현상 |
| Prompt Robustness | 프롬프트 형식 변화에 대한 벤치마크 점수의 안정성 |
태그
paper #2024 benchmark MMLU_Pro knowledge reasoning 10_choice NeurIPS