MMLU-Pro: 더 강건하고 도전적인 다중과제 언어 이해 벤치마크

Digest: MMLU가 상위 모델에서 88-90%로 포화되면서 변별력이 급격히 저하되었다. Tiger Research의 MMLU-Pro는 MMLU를 3가지 방향으로 강화했다: (1) 보기를 4개→10개로 확대하여 찍기 확률을 25%→10%로 낮추고, (2) 추론이 필요한 문제 비중을 확대하며, (3) 전문가 검증으로 노이즈를 제거했다. 총 12,032개 문제, 14개 분야에 걸쳐 구성된다. 핵심 통찰은 보기 수를 늘리는 것만으로도 벤치마크의 변별력과 강건성이 크게 향상된다는 것이다. GPT-4o가 72.6% (Table 2)로 MMLU 대비 ~16%p 하락하여, 모델 간 차이가 더 뚜렷하게 드러났다.

메타데이터

항목	내용
제목	MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
저자	Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, et al.
소속	Tiger Research
연도	2024
발표	NeurIPS 2024 D&B, arXiv:2406.01574
링크	arXiv, HuggingFace
키워드	MMLU-Pro, 10-choice, robust benchmark, reasoning, knowledge

데이터셋 구성

규모 및 분할

항목	MMLU	MMLU-Pro
문제 수	14,042	12,032
보기 수	4개	10개
랜덤 기준선	25%	10%
분야 수	57개	14개
추론 비중	~30%	~60%

14개 분야

분야	문제 수	설명
Biology	~1,000	생물학
Business	~800	경영학
Chemistry	~900	화학
Computer Science	~1,000	컴퓨터과학
Economics	~800	경제학
Engineering	~700	공학
Health	~600	보건학
History	~700	역사학
Law	~900	법학
Math	~1,200	수학
Other	~500	기타
Philosophy	~500	철학
Physics	~800	물리학
Psychology	~600	심리학

Feature/Column 구조

필드	설명	예시
`question`	문제 텍스트	`"Which of the following..."`
`options`	10개 보기	`["A. ...", "B. ...", ..., "J. ..."]`
`answer`	정답	`"F"`
`category`	분야	`"physics"`
`src`	원본 소스	`"MMLU"` / `"STEM"` / `"TheoremQA"`

실제 데이터 예시

예시 1: Physics (10지선다)

Question: A 2 kg block slides down a frictionless incline
at 30°. What is the acceleration of the block?

A. 2.5 m/s²   B. 3.0 m/s²   C. 4.0 m/s²   D. 4.9 m/s²
E. 5.0 m/s²   F. 6.0 m/s²   G. 7.5 m/s²   H. 8.0 m/s²
I. 9.8 m/s²   J. 10.0 m/s²

Answer: D (g·sin30° = 9.8 × 0.5 = 4.9 m/s²)

예시 2: Math (추론 필요)

Question: If f(x) = x³ - 3x² + 2x, find the number of
distinct real roots of f'(x) = 0.

A. 0   B. 1   C. 2   D. 3   E. 4
F. 5   G. Infinitely many   H. Cannot be determined
I. Depends on the domain   J. None of the above

Answer: C (f'(x) = 3x² - 6x + 2, Δ = 36-24 = 12 > 0 → 2 roots)

왜 이 연구를 하는가?

핵심 질문

MMLU가 포화된 후, 어떻게 더 변별력 있고 강건한 지식/추론 벤치마크를 만들 수 있는가?

기존 접근법의 한계

한계	설명
MMLU 포화	상위 모델 88-90%, 모델 간 차이 2-3%p
4지선다의 한계	랜덤 25%가 높아 변별력 낮음
노이즈	MMLU 일부 문제에 오류, 모호성 존재
추론 부족	MMLU 상당수가 단순 기억 문제

핵심 통찰

보기 수를 10개로 늘리면 (1) 찍기 확률 25%→10%로 낮추고, (2) 더 세밀한 구별이 필요하여 모델 변별력이 향상되며, (3) CoT 추론의 효과가 더 뚜렷해진다.

방법 (Method)

프레임워크 개요

graph TB
    A["MMLU 원본 문제"] --> B["추론 비중 낮은 문제 필터링"]
    B --> C["추가 소스 통합<br/>(TheoremQA, STEM 등)"]
    C --> D["GPT-4로 오답 보기 6개 생성<br/>(4→10개)"]
    D --> E["전문가 검증<br/>(노이즈 제거)"]
    E --> F["MMLU-Pro<br/>12,032 문제, 10지선다"]

발견 (Findings)

주요 결과 (5-shot CoT)

모델	MMLU	MMLU-Pro	하락폭
GPT-4o	88.7%	72.6%	-16.1%p
Claude 3.5 Sonnet	88.3%	68.5%	-19.8%p
Llama-3-70B	82.0%	56.2%	-25.8%p
Mistral-Large	81.2%	54.7%	-26.5%p

(Table 2)

핵심 발견

포화 해소: MMLU 88% 모델이 MMLU-Pro에서 72%로, 변별력 회복 (Table 2)
CoT의 중요성: MMLU-Pro에서 CoT가 없으면 평균 ~10%p 추가 하락 — 추론 필수
프롬프트 강건성: MMLU에서 프롬프트 변화에 민감(4-5%p)하나 MMLU-Pro에서는 2%p 이내
모델 간 스프레드 확대: MMLU에서 6%p 차이가 MMLU-Pro에서 18%p로 확대

이론적 의의

포스트-MMLU 표준

MMLU-Pro는 MMLU의 자연스러운 후속 벤치마크로 자리잡아, 많은 LLM 리더보드에서 MMLU와 함께 또는 대체하여 사용된다. “보기 수 확대 + 추론 비중 확대”라는 단순한 전략이 벤치마크 수명을 효과적으로 연장할 수 있음을 보여주었다.

핵심 용어 정리

용어	정의
MMLU-Pro	MMLU의 강화판, 10지선다 12,032문제로 변별력 향상
10-choice	기존 4지선다에서 10지선다로 확대하여 찍기 확률을 낮춘 형식
Benchmark Saturation	모델 성능이 상한에 근접하여 변별력이 사라지는 현상
Prompt Robustness	프롬프트 형식 변화에 대한 벤치마크 점수의 안정성

Juhyeon's Blog

탐색기

MMLU-Pro - A More Robust and Challenging Multi-Task Language Understanding Benchmark