MMMU: 대규모 다학문 멀티모달 이해와 추론

Digest: 기존 멀티모달 벤치마크(VQA, GQA 등)는 일상적 이미지 이해에 초점을 맞추지만, 전문적 학문 분야(의학, 공학, 예술 등)에서의 시각-언어 추론은 평가하지 못했다. IN.AI Research의 MMMU6개 학문 분야, 30개 세부 전공에 걸쳐 대학 교과서와 시험에서 수집한 11,550개 멀티모달 문제(이미지 포함)로 구성된 벤치마크이다. 핵심 통찰은 전문 멀티모달 추론은 도메인 지식 + 시각 인식 + 추론의 3중 결합을 요구하며, 이는 기존 VQA와 질적으로 다르다는 것이다. GPT-4V가 56.8% (Table 2)로 인간 전문가(88.6%)에 크게 뒤처졌으며, 특히 의학/공학 분야에서 격차가 두드러졌다.


메타데이터

항목내용
제목MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI
저자Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, et al.
소속IN.AI Research, OSU, Waterloo 등
연도2023
발표CVPR 2024, arXiv:2311.16502
링크arXiv, GitHub, Leaderboard
키워드MMMU, multimodal, multi-discipline, expert reasoning, university

데이터셋 구성

규모 및 분할

항목내용
전체 크기11,550개 문제
Validation900개
Test10,650개 (정답 비공개)
이미지 수~20,000+ (문제당 1-7개)
형식선다형 + 자유형 혼합

6개 학문 분야 × 30개 세부 전공

대분야세부 전공문제 수
Art & DesignArt, Design, Music~1,200
BusinessAccounting, Economics, Finance, Management, Marketing~1,800
ScienceBiology, Chemistry, Geography, Math, Physics~2,400
Health & MedicineBasic Medical Science, Clinical Medicine, Diagnostics, Pharmacy, Public Health~2,000
Humanities & Social ScienceHistory, Literature, Psychology, Sociology~1,600
Tech & EngineeringAgriculture, Architecture, CS, EE, Materials, ME~2,500

Feature/Column 구조

필드설명예시
id문제 IDvalidation_Art_1
question문제 텍스트"Identify the art movement..."
options보기 (선다형)["A. Impressionism", ...]
answer정답"B"
image_1 ~ image_7이미지 파일"img_001.png"
topic_difficulty난이도"medium"
subfield세부 전공"art_history"

이미지 유형 분포

이미지 유형비율예시
다이어그램/도면~30%회로도, 건축 도면
그래프/차트~20%실험 결과 그래프
의학 이미지~15%X-ray, MRI, 현미경
예술 작품~10%그림, 조각
수학적 도형~10%기하 도형, 함수 그래프
사진/실물~15%실험 장비, 지형 사진

실제 데이터 예시

예시 1: 의학 (Clinical Medicine)

[이미지: 흉부 X-ray]
Question: "Based on the chest X-ray shown, which of the
following is the most likely diagnosis?"
A. Pneumothorax
B. Pleural effusion
C. Cardiomegaly
D. Normal chest

Answer: B

예시 2: 전기공학 (EE)

[이미지: RC 회로 다이어그램]
Question: "For the circuit shown, if R=10kΩ, C=1μF,
and Vin=5V step input, what is the time constant?"
A. 1ms   B. 10ms   C. 100ms   D. 1s

Answer: B (τ = RC = 10k × 1μ = 10ms)

예시 3: 예술 (Art History)

[이미지: 클로드 모네의 수련 그림]
Question: "This painting exemplifies which art movement?"
A. Baroque
B. Impressionism
C. Cubism
D. Surrealism

Answer: B

왜 이 연구를 하는가?

핵심 질문

멀티모달 AI가 대학 수준의 전문 지식과 시각적 추론을 결합할 수 있는가?

기존 접근법의 한계

한계설명
일상적 VQA기존 벤치마크는 일상 사진에 대한 질문, 전문 도메인 미포함
단일 분야MathVista는 수학만, PathVQA는 병리만
낮은 난이도초등~고교 수준 문제 중심
전문 이미지 부재X-ray, 회로도, 건축 도면 등 전문 이미지 미포함

핵심 통찰

전문 멀티모달 추론은 (1) 도메인 전문 지식, (2) 전문 이미지 해석 능력, (3) 지식과 이미지를 결합한 추론이라는 세 가지의 복합 능력을 요구하며, 이는 범용 VQA와는 질적으로 다르다.


방법 (Method)

프레임워크 개요

graph TB
    A["대학 교과서/시험<br/>(30개 전공)"] --> B["문제 수집<br/>(이미지 포함)"]
    B --> C["품질 검증<br/>(전문가 리뷰)"]
    C --> D["MMMU<br/>11,550 문제"]

    D --> E["텍스트 전용 모델<br/>(이미지 캡션 변환)"]
    D --> F["멀티모달 모델<br/>(직접 입력)"]

    E --> G["분야별 정확도"]
    F --> G

발견 (Findings)

주요 결과 (Val, 정확도)

모델전체ScienceHealthTech
Human Expert88.6%85%90%87%
GPT-4V56.8%55.2%52.1%47.3%
Gemini Pro47.9%
LLaVA-1.536.4%
Random~25%~25%~25%~25%

(Table 2)

핵심 발견

  1. 인간-모델 격차: 최고 모델(GPT-4V) 56.8% vs 인간 88.6%, ~32%p 차이 (Table 2)
  2. 분야별 편차: Art & Design에서 상대적으로 높고, Tech & Engineering에서 가장 낮음
  3. 전문 이미지의 어려움: 의학 이미지(X-ray, MRI), 회로도, 건축 도면에서 특히 취약
  4. 이미지 수와 난이도: 다중 이미지(2+개) 문제에서 단일 이미지 대비 ~10%p 하락

이론적 의의

멀티모달 AGI 평가의 기준

MMMU는 “전문가 수준 멀티모달 AI”를 향한 진보를 측정하는 포괄적 벤치마크이다. 30개 전공에 걸친 광범위한 커버리지는 멀티모달 모델의 범용성과 전문성을 동시에 평가한다. CVPR 2024에서 발표되어 멀티모달 AI 리더보드의 핵심 지표가 되었다.


관련 연구


핵심 용어 정리

용어정의
MMMUMassive Multi-discipline Multimodal Understanding. 30전공 멀티모달 벤치마크
LMMLarge Multimodal Model. 텍스트와 이미지를 함께 처리하는 모델
Expert AGI인간 전문가 수준의 다분야 멀티모달 추론이 가능한 AI
Domain-specific Image의학, 공학 등 전문 분야에서만 등장하는 특수 이미지
Multi-image Reasoning여러 이미지를 동시에 참조하여 추론하는 능력

태그

paper #2023 benchmark multimodal MMMU expert_level multi_discipline CVPR