MMMU: 대규모 다학문 멀티모달 이해와 추론

Digest: 기존 멀티모달 벤치마크(VQA, GQA 등)는 일상적 이미지 이해에 초점을 맞추지만, 전문적 학문 분야(의학, 공학, 예술 등)에서의 시각-언어 추론은 평가하지 못했다. IN.AI Research의 MMMU는 6개 학문 분야, 30개 세부 전공에 걸쳐 대학 교과서와 시험에서 수집한 11,550개 멀티모달 문제(이미지 포함)로 구성된 벤치마크이다. 핵심 통찰은 전문 멀티모달 추론은 도메인 지식 + 시각 인식 + 추론의 3중 결합을 요구하며, 이는 기존 VQA와 질적으로 다르다는 것이다. GPT-4V가 56.8% (Table 2)로 인간 전문가(88.6%)에 크게 뒤처졌으며, 특히 의학/공학 분야에서 격차가 두드러졌다.

메타데이터

항목	내용
제목	MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI
저자	Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, et al.
소속	IN.AI Research, OSU, Waterloo 등
연도	2023
발표	CVPR 2024, arXiv:2311.16502
링크	arXiv, GitHub, Leaderboard
키워드	MMMU, multimodal, multi-discipline, expert reasoning, university

데이터셋 구성

규모 및 분할

항목	내용
전체 크기	11,550개 문제
Validation	900개
Test	10,650개 (정답 비공개)
이미지 수	~20,000+ (문제당 1-7개)
형식	선다형 + 자유형 혼합

6개 학문 분야 × 30개 세부 전공

대분야	세부 전공	문제 수
Art & Design	Art, Design, Music	~1,200
Business	Accounting, Economics, Finance, Management, Marketing	~1,800
Science	Biology, Chemistry, Geography, Math, Physics	~2,400
Health & Medicine	Basic Medical Science, Clinical Medicine, Diagnostics, Pharmacy, Public Health	~2,000
Humanities & Social Science	History, Literature, Psychology, Sociology	~1,600
Tech & Engineering	Agriculture, Architecture, CS, EE, Materials, ME	~2,500

Feature/Column 구조

필드	설명	예시
`id`	문제 ID	`validation_Art_1`
`question`	문제 텍스트	`"Identify the art movement..."`
`options`	보기 (선다형)	`["A. Impressionism", ...]`
`answer`	정답	`"B"`
`image_1` ~ `image_7`	이미지 파일	`"img_001.png"`
`topic_difficulty`	난이도	`"medium"`
`subfield`	세부 전공	`"art_history"`

이미지 유형 분포

이미지 유형	비율	예시
다이어그램/도면	~30%	회로도, 건축 도면
그래프/차트	~20%	실험 결과 그래프
의학 이미지	~15%	X-ray, MRI, 현미경
예술 작품	~10%	그림, 조각
수학적 도형	~10%	기하 도형, 함수 그래프
사진/실물	~15%	실험 장비, 지형 사진

실제 데이터 예시

예시 1: 의학 (Clinical Medicine)

[이미지: 흉부 X-ray]
Question: "Based on the chest X-ray shown, which of the
following is the most likely diagnosis?"
A. Pneumothorax
B. Pleural effusion
C. Cardiomegaly
D. Normal chest

Answer: B

예시 2: 전기공학 (EE)

[이미지: RC 회로 다이어그램]
Question: "For the circuit shown, if R=10kΩ, C=1μF,
and Vin=5V step input, what is the time constant?"
A. 1ms   B. 10ms   C. 100ms   D. 1s

Answer: B (τ = RC = 10k × 1μ = 10ms)

예시 3: 예술 (Art History)

[이미지: 클로드 모네의 수련 그림]
Question: "This painting exemplifies which art movement?"
A. Baroque
B. Impressionism
C. Cubism
D. Surrealism

Answer: B

왜 이 연구를 하는가?

핵심 질문

멀티모달 AI가 대학 수준의 전문 지식과 시각적 추론을 결합할 수 있는가?

기존 접근법의 한계

한계	설명
일상적 VQA	기존 벤치마크는 일상 사진에 대한 질문, 전문 도메인 미포함
단일 분야	MathVista는 수학만, PathVQA는 병리만
낮은 난이도	초등~고교 수준 문제 중심
전문 이미지 부재	X-ray, 회로도, 건축 도면 등 전문 이미지 미포함

핵심 통찰

전문 멀티모달 추론은 (1) 도메인 전문 지식, (2) 전문 이미지 해석 능력, (3) 지식과 이미지를 결합한 추론이라는 세 가지의 복합 능력을 요구하며, 이는 범용 VQA와는 질적으로 다르다.

방법 (Method)

프레임워크 개요

graph TB
    A["대학 교과서/시험<br/>(30개 전공)"] --> B["문제 수집<br/>(이미지 포함)"]
    B --> C["품질 검증<br/>(전문가 리뷰)"]
    C --> D["MMMU<br/>11,550 문제"]

    D --> E["텍스트 전용 모델<br/>(이미지 캡션 변환)"]
    D --> F["멀티모달 모델<br/>(직접 입력)"]

    E --> G["분야별 정확도"]
    F --> G

발견 (Findings)

주요 결과 (Val, 정확도)

모델	전체	Science	Health	Tech
Human Expert	88.6%	85%	90%	87%
GPT-4V	56.8%	55.2%	52.1%	47.3%
Gemini Pro	47.9%	—	—	—
LLaVA-1.5	36.4%	—	—	—
Random	~25%	~25%	~25%	~25%

(Table 2)

핵심 발견

인간-모델 격차: 최고 모델(GPT-4V) 56.8% vs 인간 88.6%, ~32%p 차이 (Table 2)
분야별 편차: Art & Design에서 상대적으로 높고, Tech & Engineering에서 가장 낮음
전문 이미지의 어려움: 의학 이미지(X-ray, MRI), 회로도, 건축 도면에서 특히 취약
이미지 수와 난이도: 다중 이미지(2+개) 문제에서 단일 이미지 대비 ~10%p 하락

이론적 의의

멀티모달 AGI 평가의 기준

MMMU는 “전문가 수준 멀티모달 AI”를 향한 진보를 측정하는 포괄적 벤치마크이다. 30개 전공에 걸친 광범위한 커버리지는 멀티모달 모델의 범용성과 전문성을 동시에 평가한다. CVPR 2024에서 발표되어 멀티모달 AI 리더보드의 핵심 지표가 되었다.

핵심 용어 정리

용어	정의
MMMU	Massive Multi-discipline Multimodal Understanding. 30전공 멀티모달 벤치마크
LMM	Large Multimodal Model. 텍스트와 이미지를 함께 처리하는 모델
Expert AGI	인간 전문가 수준의 다분야 멀티모달 추론이 가능한 AI
Domain-specific Image	의학, 공학 등 전문 분야에서만 등장하는 특수 이미지
Multi-image Reasoning	여러 이미지를 동시에 참조하여 추론하는 능력

Juhyeon's Blog

탐색기

MMMU - A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI