Digest: 기존 멀티모달 벤치마크(VQA, GQA 등)는 일상적 이미지 이해에 초점을 맞추지만, 전문적 학문 분야(의학, 공학, 예술 등)에서의 시각-언어 추론은 평가하지 못했다. IN.AI Research의 MMMU는 6개 학문 분야, 30개 세부 전공에 걸쳐 대학 교과서와 시험에서 수집한 11,550개 멀티모달 문제(이미지 포함)로 구성된 벤치마크이다. 핵심 통찰은 전문 멀티모달 추론은 도메인 지식 + 시각 인식 + 추론의 3중 결합을 요구하며, 이는 기존 VQA와 질적으로 다르다는 것이다. GPT-4V가 56.8% (Table 2)로 인간 전문가(88.6%)에 크게 뒤처졌으며, 특히 의학/공학 분야에서 격차가 두드러졌다.
메타데이터
항목
내용
제목
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI
저자
Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, et al.
Basic Medical Science, Clinical Medicine, Diagnostics, Pharmacy, Public Health
~2,000
Humanities & Social Science
History, Literature, Psychology, Sociology
~1,600
Tech & Engineering
Agriculture, Architecture, CS, EE, Materials, ME
~2,500
Feature/Column 구조
필드
설명
예시
id
문제 ID
validation_Art_1
question
문제 텍스트
"Identify the art movement..."
options
보기 (선다형)
["A. Impressionism", ...]
answer
정답
"B"
image_1 ~ image_7
이미지 파일
"img_001.png"
topic_difficulty
난이도
"medium"
subfield
세부 전공
"art_history"
이미지 유형 분포
이미지 유형
비율
예시
다이어그램/도면
~30%
회로도, 건축 도면
그래프/차트
~20%
실험 결과 그래프
의학 이미지
~15%
X-ray, MRI, 현미경
예술 작품
~10%
그림, 조각
수학적 도형
~10%
기하 도형, 함수 그래프
사진/실물
~15%
실험 장비, 지형 사진
실제 데이터 예시
예시 1: 의학 (Clinical Medicine)
[이미지: 흉부 X-ray]
Question: "Based on the chest X-ray shown, which of the
following is the most likely diagnosis?"
A. Pneumothorax
B. Pleural effusion
C. Cardiomegaly
D. Normal chest
Answer: B
예시 2: 전기공학 (EE)
[이미지: RC 회로 다이어그램]
Question: "For the circuit shown, if R=10kΩ, C=1μF,
and Vin=5V step input, what is the time constant?"
A. 1ms B. 10ms C. 100ms D. 1s
Answer: B (τ = RC = 10k × 1μ = 10ms)
예시 3: 예술 (Art History)
[이미지: 클로드 모네의 수련 그림]
Question: "This painting exemplifies which art movement?"
A. Baroque
B. Impressionism
C. Cubism
D. Surrealism
Answer: B
왜 이 연구를 하는가?
핵심 질문
멀티모달 AI가 대학 수준의 전문 지식과 시각적 추론을 결합할 수 있는가?
기존 접근법의 한계
한계
설명
일상적 VQA
기존 벤치마크는 일상 사진에 대한 질문, 전문 도메인 미포함
단일 분야
MathVista는 수학만, PathVQA는 병리만
낮은 난이도
초등~고교 수준 문제 중심
전문 이미지 부재
X-ray, 회로도, 건축 도면 등 전문 이미지 미포함
핵심 통찰
전문 멀티모달 추론은 (1) 도메인 전문 지식, (2) 전문 이미지 해석 능력, (3) 지식과 이미지를 결합한 추론이라는 세 가지의 복합 능력을 요구하며, 이는 범용 VQA와는 질적으로 다르다.
방법 (Method)
프레임워크 개요
graph TB
A["대학 교과서/시험<br/>(30개 전공)"] --> B["문제 수집<br/>(이미지 포함)"]
B --> C["품질 검증<br/>(전문가 리뷰)"]
C --> D["MMMU<br/>11,550 문제"]
D --> E["텍스트 전용 모델<br/>(이미지 캡션 변환)"]
D --> F["멀티모달 모델<br/>(직접 입력)"]
E --> G["분야별 정확도"]
F --> G
발견 (Findings)
주요 결과 (Val, 정확도)
모델
전체
Science
Health
Tech
Human Expert
88.6%
85%
90%
87%
GPT-4V
56.8%
55.2%
52.1%
47.3%
Gemini Pro
47.9%
—
—
—
LLaVA-1.5
36.4%
—
—
—
Random
~25%
~25%
~25%
~25%
(Table 2)
핵심 발견
인간-모델 격차: 최고 모델(GPT-4V) 56.8% vs 인간 88.6%, ~32%p 차이 (Table 2)
분야별 편차: Art & Design에서 상대적으로 높고, Tech & Engineering에서 가장 낮음
전문 이미지의 어려움: 의학 이미지(X-ray, MRI), 회로도, 건축 도면에서 특히 취약
이미지 수와 난이도: 다중 이미지(2+개) 문제에서 단일 이미지 대비 ~10%p 하락
이론적 의의
멀티모달 AGI 평가의 기준
MMMU는 “전문가 수준 멀티모달 AI”를 향한 진보를 측정하는 포괄적 벤치마크이다. 30개 전공에 걸친 광범위한 커버리지는 멀티모달 모델의 범용성과 전문성을 동시에 평가한다. CVPR 2024에서 발표되어 멀티모달 AI 리더보드의 핵심 지표가 되었다.