MMLU-Pro: 더 강건하고 도전적인 다중과제 언어 이해 벤치마크

Digest: MMLU가 상위 모델에서 88-90%로 포화되면서 변별력이 급격히 저하되었다. Tiger Research의 MMLU-Pro는 MMLU를 3가지 방향으로 강화했다: (1) 보기를 4개→10개로 확대하여 찍기 확률을 25%→10%로 낮추고, (2) 추론이 필요한 문제 비중을 확대하며, (3) 전문가 검증으로 노이즈를 제거했다. 총 12,032개 문제, 14개 분야에 걸쳐 구성된다. 핵심 통찰은 보기 수를 늘리는 것만으로도 벤치마크의 변별력과 강건성이 크게 향상된다는 것이다. GPT-4o가 72.6% (Table 2)로 MMLU 대비 ~16%p 하락하여, 모델 간 차이가 더 뚜렷하게 드러났다.


메타데이터

항목내용
제목MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
저자Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, et al.
소속Tiger Research
연도2024
발표NeurIPS 2024 D&B, arXiv:2406.01574
링크arXiv, HuggingFace
키워드MMLU-Pro, 10-choice, robust benchmark, reasoning, knowledge

데이터셋 구성

규모 및 분할

항목MMLUMMLU-Pro
문제 수14,04212,032
보기 수4개10개
랜덤 기준선25%10%
분야 수57개14개
추론 비중~30%~60%

14개 분야

분야문제 수설명
Biology~1,000생물학
Business~800경영학
Chemistry~900화학
Computer Science~1,000컴퓨터과학
Economics~800경제학
Engineering~700공학
Health~600보건학
History~700역사학
Law~900법학
Math~1,200수학
Other~500기타
Philosophy~500철학
Physics~800물리학
Psychology~600심리학

Feature/Column 구조

필드설명예시
question문제 텍스트"Which of the following..."
options10개 보기["A. ...", "B. ...", ..., "J. ..."]
answer정답"F"
category분야"physics"
src원본 소스"MMLU" / "STEM" / "TheoremQA"

실제 데이터 예시

예시 1: Physics (10지선다)

Question: A 2 kg block slides down a frictionless incline
at 30°. What is the acceleration of the block?

A. 2.5 m/s²   B. 3.0 m/s²   C. 4.0 m/s²   D. 4.9 m/s²
E. 5.0 m/s²   F. 6.0 m/s²   G. 7.5 m/s²   H. 8.0 m/s²
I. 9.8 m/s²   J. 10.0 m/s²

Answer: D (g·sin30° = 9.8 × 0.5 = 4.9 m/s²)

예시 2: Math (추론 필요)

Question: If f(x) = x³ - 3x² + 2x, find the number of
distinct real roots of f'(x) = 0.

A. 0   B. 1   C. 2   D. 3   E. 4
F. 5   G. Infinitely many   H. Cannot be determined
I. Depends on the domain   J. None of the above

Answer: C (f'(x) = 3x² - 6x + 2, Δ = 36-24 = 12 > 0 → 2 roots)

왜 이 연구를 하는가?

핵심 질문

MMLU가 포화된 후, 어떻게 더 변별력 있고 강건한 지식/추론 벤치마크를 만들 수 있는가?

기존 접근법의 한계

한계설명
MMLU 포화상위 모델 88-90%, 모델 간 차이 2-3%p
4지선다의 한계랜덤 25%가 높아 변별력 낮음
노이즈MMLU 일부 문제에 오류, 모호성 존재
추론 부족MMLU 상당수가 단순 기억 문제

핵심 통찰

보기 수를 10개로 늘리면 (1) 찍기 확률 25%→10%로 낮추고, (2) 더 세밀한 구별이 필요하여 모델 변별력이 향상되며, (3) CoT 추론의 효과가 더 뚜렷해진다.


방법 (Method)

프레임워크 개요

graph TB
    A["MMLU 원본 문제"] --> B["추론 비중 낮은 문제 필터링"]
    B --> C["추가 소스 통합<br/>(TheoremQA, STEM 등)"]
    C --> D["GPT-4로 오답 보기 6개 생성<br/>(4→10개)"]
    D --> E["전문가 검증<br/>(노이즈 제거)"]
    E --> F["MMLU-Pro<br/>12,032 문제, 10지선다"]

발견 (Findings)

주요 결과 (5-shot CoT)

모델MMLUMMLU-Pro하락폭
GPT-4o88.7%72.6%-16.1%p
Claude 3.5 Sonnet88.3%68.5%-19.8%p
Llama-3-70B82.0%56.2%-25.8%p
Mistral-Large81.2%54.7%-26.5%p

(Table 2)

핵심 발견

  1. 포화 해소: MMLU 88% 모델이 MMLU-Pro에서 72%로, 변별력 회복 (Table 2)
  2. CoT의 중요성: MMLU-Pro에서 CoT가 없으면 평균 ~10%p 추가 하락 — 추론 필수
  3. 프롬프트 강건성: MMLU에서 프롬프트 변화에 민감(4-5%p)하나 MMLU-Pro에서는 2%p 이내
  4. 모델 간 스프레드 확대: MMLU에서 6%p 차이가 MMLU-Pro에서 18%p로 확대

이론적 의의

포스트-MMLU 표준

MMLU-Pro는 MMLU의 자연스러운 후속 벤치마크로 자리잡아, 많은 LLM 리더보드에서 MMLU와 함께 또는 대체하여 사용된다. “보기 수 확대 + 추론 비중 확대”라는 단순한 전략이 벤치마크 수명을 효과적으로 연장할 수 있음을 보여주었다.


관련 연구


핵심 용어 정리

용어정의
MMLU-ProMMLU의 강화판, 10지선다 12,032문제로 변별력 향상
10-choice기존 4지선다에서 10지선다로 확대하여 찍기 확률을 낮춘 형식
Benchmark Saturation모델 성능이 상한에 근접하여 변별력이 사라지는 현상
Prompt Robustness프롬프트 형식 변화에 대한 벤치마크 점수의 안정성

태그

paper #2024 benchmark MMLU_Pro knowledge reasoning 10_choice NeurIPS