Digest: MMLU가 상위 모델에서 88-90%로 포화되면서 변별력이 급격히 저하되었다. Tiger Research의 MMLU-Pro는 MMLU를 3가지 방향으로 강화했다: (1) 보기를 4개→10개로 확대하여 찍기 확률을 25%→10%로 낮추고, (2) 추론이 필요한 문제 비중을 확대하며, (3) 전문가 검증으로 노이즈를 제거했다. 총 12,032개 문제, 14개 분야에 걸쳐 구성된다. 핵심 통찰은 보기 수를 늘리는 것만으로도 벤치마크의 변별력과 강건성이 크게 향상된다는 것이다. GPT-4o가 72.6% (Table 2)로 MMLU 대비 ~16%p 하락하여, 모델 간 차이가 더 뚜렷하게 드러났다.
메타데이터
항목
내용
제목
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
저자
Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, et al.
Question: A 2 kg block slides down a frictionless incline
at 30°. What is the acceleration of the block?
A. 2.5 m/s² B. 3.0 m/s² C. 4.0 m/s² D. 4.9 m/s²
E. 5.0 m/s² F. 6.0 m/s² G. 7.5 m/s² H. 8.0 m/s²
I. 9.8 m/s² J. 10.0 m/s²
Answer: D (g·sin30° = 9.8 × 0.5 = 4.9 m/s²)
예시 2: Math (추론 필요)
Question: If f(x) = x³ - 3x² + 2x, find the number of
distinct real roots of f'(x) = 0.
A. 0 B. 1 C. 2 D. 3 E. 4
F. 5 G. Infinitely many H. Cannot be determined
I. Depends on the domain J. None of the above
Answer: C (f'(x) = 3x² - 6x + 2, Δ = 36-24 = 12 > 0 → 2 roots)
왜 이 연구를 하는가?
핵심 질문
MMLU가 포화된 후, 어떻게 더 변별력 있고 강건한 지식/추론 벤치마크를 만들 수 있는가?
기존 접근법의 한계
한계
설명
MMLU 포화
상위 모델 88-90%, 모델 간 차이 2-3%p
4지선다의 한계
랜덤 25%가 높아 변별력 낮음
노이즈
MMLU 일부 문제에 오류, 모호성 존재
추론 부족
MMLU 상당수가 단순 기억 문제
핵심 통찰
보기 수를 10개로 늘리면 (1) 찍기 확률 25%→10%로 낮추고, (2) 더 세밀한 구별이 필요하여 모델 변별력이 향상되며, (3) CoT 추론의 효과가 더 뚜렷해진다.
방법 (Method)
프레임워크 개요
graph TB
A["MMLU 원본 문제"] --> B["추론 비중 낮은 문제 필터링"]
B --> C["추가 소스 통합<br/>(TheoremQA, STEM 등)"]
C --> D["GPT-4로 오답 보기 6개 생성<br/>(4→10개)"]
D --> E["전문가 검증<br/>(노이즈 제거)"]
E --> F["MMLU-Pro<br/>12,032 문제, 10지선다"]