MathVista: 시각적 맥락에서의 수학적 추론 평가
Digest: 기존 수학 벤치마크(GSM8K, MATH)는 텍스트만으로 문제를 제시하지만, 실제 수학 문제의 상당수는 그래프, 도형, 표, 다이어그램 등 시각 정보를 포함한다. UCLA의 MathVista는 28개 기존 데이터셋과 3개 신규 데이터셋에서 6,141개의 시각적 수학 문제를 통합한 메타-벤치마크이다. 핵심 통찰은 시각 정보를 올바르게 해석하여 수학적 추론에 결합하는 능력이 텍스트 전용 수학과는 질적으로 다른 도전이라는 것이다. GPT-4V가 49.9% (Table 2)로 최고를 기록했으나, 인간의 60.3%에 미치지 못했다. 특히 기하 도형 추론에서 LMM(Large Multimodal Model)의 한계가 두드러졌다.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts |
| 저자 | Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, Jianfeng Gao |
| 소속 | UCLA, Microsoft Research, University of Washington |
| 연도 | 2023 |
| 발표 | ICLR 2024, arXiv:2310.02255 |
| 링크 | arXiv, GitHub |
| 키워드 | MathVista, visual math, multimodal reasoning, diagram, chart |
데이터셋 구성
규모 및 분할
| 항목 | 내용 |
|---|---|
| 전체 크기 | 6,141개 문제 |
| Testmini | 1,000개 (빠른 평가용) |
| 소스 | 28개 기존 + 3개 신규 데이터셋 |
| 정답 유형 | 선다형, 자유형(수치/텍스트) |
| 시각 유형 | 기하 도형, 그래프/차트, 표, 자연 이미지, 합성 이미지 |
분류 체계 (3차원)
1. 수학 추론 유형:
| 유형 | 비율 | 설명 |
|---|---|---|
| Figure QA | ~35% | 그래프/차트 읽기 |
| Geometry | ~25% | 기하 도형 문제 |
| Math Word Problem | ~20% | 시각 맥락 문장제 |
| Textbook QA | ~15% | 교과서 그림 기반 |
| Table QA | ~5% | 표 기반 수학 |
2. 시각 맥락 유형:
| 유형 | 비율 |
|---|---|
| Geometry diagram | ~25% |
| Bar/line chart | ~20% |
| Scientific figure | ~15% |
| Table | ~15% |
| Natural image | ~10% |
| Synthetic scene | ~15% |
3. 학년/난이도:
| 수준 | 비율 |
|---|---|
| 초등 (Elementary) | ~20% |
| 중등 (High school) | ~40% |
| 대학 (College) | ~30% |
| 대학원+ | ~10% |
Feature/Column 구조
| 필드 | 설명 | 예시 |
|---|---|---|
pid | 문제 ID | 1 |
question | 문제 텍스트 | "What is the area of triangle ABC?" |
image | 이미지 파일 경로 | images/1.png |
choices | 선다형 보기 (해당 시) | ["A. 12", "B. 24", ...] |
answer | 정답 | "24" |
category | 수학 유형 | "geometry" |
context | 시각 맥락 유형 | "geometry_diagram" |
grade | 학년 수준 | "high_school" |
source | 원본 데이터셋 | "GeoQA+" |
실제 데이터 예시
예시 1: 기하 도형
[이미지: 직각삼각형 ABC, AB=5, BC=12]
Question: "In the right triangle shown, what is the length
of the hypotenuse AC?"
Answer: 13
(피타고라스 정리: √(5²+12²) = 13)
예시 2: 그래프 읽기
[이미지: 막대그래프 - 5개 도시의 인구]
Question: "How many more people live in City A than City C?"
Choices: A. 5000 B. 10000 C. 15000 D. 20000
Answer: C. 15000
예시 3: 과학적 맥락
[이미지: 함수 그래프 y = sin(x) + cos(x)]
Question: "What is the maximum value of the function shown
in the graph?"
Answer: √2 (약 1.414)
왜 이 연구를 하는가?
핵심 질문
멀티모달 모델이 시각 정보와 수학적 추론을 결합할 수 있는가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| 텍스트 전용 | GSM8K, MATH는 시각 정보 미포함 |
| 단일 시각 유형 | GeoQA는 기하만, ChartQA는 차트만 |
| 통합 평가 부재 | 다양한 시각+수학 조합을 종합 평가하는 벤치마크 없음 |
핵심 통찰
시각적 수학 추론은 (1) 시각 인식, (2) 정보 추출, (3) 수학적 추론이라는 세 가지 능력의 복합적 결합을 요구하며, 이 중 하나라도 약하면 전체 성능이 하락한다.
방법 (Method)
프레임워크 개요
graph TB A["28개 기존 데이터셋<br/>+ 3개 신규 데이터셋"] --> B["통합 & 표준화<br/>(형식, 메타데이터)"] B --> C["3차원 분류 태깅<br/>(수학유형 × 시각유형 × 난이도)"] C --> D["MathVista<br/>6,141 문제"] D --> E["텍스트 전용 모델<br/>(이미지 캡션 변환)"] D --> F["멀티모달 모델<br/>(직접 이미지 입력)"] E --> G["정확도 비교"] F --> G
발견 (Findings)
주요 결과 (Testmini, 정확도)
| 모델 | 전체 | Geometry | Figure QA |
|---|---|---|---|
| Human | 60.3% | 54.8% | 67.2% |
| GPT-4V | 49.9% | 41.2% | 58.3% |
| Gemini Pro | 45.2% | — | — |
| LLaVA-1.5 | 26.1% | — | — |
| Text-only GPT-4 | 29.2% | 18.5% | 37.1% |
(Table 2)
핵심 발견
- 인간-모델 격차: 최고 모델(GPT-4V)도 인간 대비 10%p 이상 뒤처짐 (Table 2)
- 기하의 난이도: 기하 도형에서 가장 큰 성능 하락 — 공간적 추론의 어려움
- 텍스트 전용의 한계: 이미지를 캡션으로 변환해도 GPT-4가 29.2%에 불과 — 시각 정보 손실 심각
- 차트 읽기 > 기하 추론: 그래프/차트 읽기는 상대적으로 쉬우나, 기하학적 추론은 매우 어려움
이론적 의의
멀티모달 수학 추론의 기준점
MathVista는 LMM의 시각-수학 결합 능력을 체계적으로 평가하는 최초의 종합 벤치마크이다. 3차원 분류 체계(수학유형 × 시각유형 × 난이도)는 모델의 세분화된 강약점 분석을 가능하게 한다.
관련 연구
- MATH_2021_CompetitionMath — 텍스트 전용 수학 추론 벤치마크
- MMMU_2023_MultimodalExpert — 멀티모달 전문 추론 (수학 포함)
- Training Verifiers to Solve Math Word Problem — GSM8K (초등 수학)
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| MathVista | 시각적 맥락에서의 수학적 추론을 평가하는 6,141문제 메타-벤치마크 |
| LMM | Large Multimodal Model. 텍스트와 이미지를 모두 처리하는 대규모 모델 |
| Figure QA | 그래프, 차트, 도표에서 정보를 읽고 질문에 답하는 과제 |
| Visual Grounding | 이미지 내 특정 요소(도형, 데이터 포인트)를 정확히 식별하는 능력 |
| Meta-benchmark | 여러 기존 벤치마크를 통합하여 만든 상위 벤치마크 |
태그
paper #2023 benchmark mathematics multimodal visual_reasoning MathVista ICLR