MathVista: 시각적 맥락에서의 수학적 추론 평가

Digest: 기존 수학 벤치마크(GSM8K, MATH)는 텍스트만으로 문제를 제시하지만, 실제 수학 문제의 상당수는 그래프, 도형, 표, 다이어그램 등 시각 정보를 포함한다. UCLA의 MathVista는 28개 기존 데이터셋과 3개 신규 데이터셋에서 6,141개의 시각적 수학 문제를 통합한 메타-벤치마크이다. 핵심 통찰은 시각 정보를 올바르게 해석하여 수학적 추론에 결합하는 능력이 텍스트 전용 수학과는 질적으로 다른 도전이라는 것이다. GPT-4V가 49.9% (Table 2)로 최고를 기록했으나, 인간의 60.3%에 미치지 못했다. 특히 기하 도형 추론에서 LMM(Large Multimodal Model)의 한계가 두드러졌다.

메타데이터

항목	내용
제목	MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts
저자	Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, Jianfeng Gao
소속	UCLA, Microsoft Research, University of Washington
연도	2023
발표	ICLR 2024, arXiv:2310.02255
링크	arXiv, GitHub
키워드	MathVista, visual math, multimodal reasoning, diagram, chart

데이터셋 구성

규모 및 분할

항목	내용
전체 크기	6,141개 문제
Testmini	1,000개 (빠른 평가용)
소스	28개 기존 + 3개 신규 데이터셋
정답 유형	선다형, 자유형(수치/텍스트)
시각 유형	기하 도형, 그래프/차트, 표, 자연 이미지, 합성 이미지

분류 체계 (3차원)

1. 수학 추론 유형:

유형	비율	설명
Figure QA	~35%	그래프/차트 읽기
Geometry	~25%	기하 도형 문제
Math Word Problem	~20%	시각 맥락 문장제
Textbook QA	~15%	교과서 그림 기반
Table QA	~5%	표 기반 수학

2. 시각 맥락 유형:

유형	비율
Geometry diagram	~25%
Bar/line chart	~20%
Scientific figure	~15%
Table	~15%
Natural image	~10%
Synthetic scene	~15%

3. 학년/난이도:

수준	비율
초등 (Elementary)	~20%
중등 (High school)	~40%
대학 (College)	~30%
대학원+	~10%

Feature/Column 구조

필드	설명	예시
`pid`	문제 ID	`1`
`question`	문제 텍스트	`"What is the area of triangle ABC?"`
`image`	이미지 파일 경로	`images/1.png`
`choices`	선다형 보기 (해당 시)	`["A. 12", "B. 24", ...]`
`answer`	정답	`"24"`
`category`	수학 유형	`"geometry"`
`context`	시각 맥락 유형	`"geometry_diagram"`
`grade`	학년 수준	`"high_school"`
`source`	원본 데이터셋	`"GeoQA+"`

실제 데이터 예시

예시 1: 기하 도형

[이미지: 직각삼각형 ABC, AB=5, BC=12]
Question: "In the right triangle shown, what is the length
of the hypotenuse AC?"
Answer: 13
(피타고라스 정리: √(5²+12²) = 13)

예시 2: 그래프 읽기

[이미지: 막대그래프 - 5개 도시의 인구]
Question: "How many more people live in City A than City C?"
Choices: A. 5000  B. 10000  C. 15000  D. 20000
Answer: C. 15000

예시 3: 과학적 맥락

[이미지: 함수 그래프 y = sin(x) + cos(x)]
Question: "What is the maximum value of the function shown
in the graph?"
Answer: √2 (약 1.414)

왜 이 연구를 하는가?

핵심 질문

멀티모달 모델이 시각 정보와 수학적 추론을 결합할 수 있는가?

기존 접근법의 한계

한계	설명
텍스트 전용	GSM8K, MATH는 시각 정보 미포함
단일 시각 유형	GeoQA는 기하만, ChartQA는 차트만
통합 평가 부재	다양한 시각+수학 조합을 종합 평가하는 벤치마크 없음

핵심 통찰

시각적 수학 추론은 (1) 시각 인식, (2) 정보 추출, (3) 수학적 추론이라는 세 가지 능력의 복합적 결합을 요구하며, 이 중 하나라도 약하면 전체 성능이 하락한다.

방법 (Method)

프레임워크 개요

graph TB
    A["28개 기존 데이터셋<br/>+ 3개 신규 데이터셋"] --> B["통합 & 표준화<br/>(형식, 메타데이터)"]
    B --> C["3차원 분류 태깅<br/>(수학유형 × 시각유형 × 난이도)"]
    C --> D["MathVista<br/>6,141 문제"]

    D --> E["텍스트 전용 모델<br/>(이미지 캡션 변환)"]
    D --> F["멀티모달 모델<br/>(직접 이미지 입력)"]

    E --> G["정확도 비교"]
    F --> G

발견 (Findings)

주요 결과 (Testmini, 정확도)

모델	전체	Geometry	Figure QA
Human	60.3%	54.8%	67.2%
GPT-4V	49.9%	41.2%	58.3%
Gemini Pro	45.2%	—	—
LLaVA-1.5	26.1%	—	—
Text-only GPT-4	29.2%	18.5%	37.1%

(Table 2)

핵심 발견

인간-모델 격차: 최고 모델(GPT-4V)도 인간 대비 10%p 이상 뒤처짐 (Table 2)
기하의 난이도: 기하 도형에서 가장 큰 성능 하락 — 공간적 추론의 어려움
텍스트 전용의 한계: 이미지를 캡션으로 변환해도 GPT-4가 29.2%에 불과 — 시각 정보 손실 심각
차트 읽기 > 기하 추론: 그래프/차트 읽기는 상대적으로 쉬우나, 기하학적 추론은 매우 어려움

이론적 의의

멀티모달 수학 추론의 기준점

MathVista는 LMM의 시각-수학 결합 능력을 체계적으로 평가하는 최초의 종합 벤치마크이다. 3차원 분류 체계(수학유형 × 시각유형 × 난이도)는 모델의 세분화된 강약점 분석을 가능하게 한다.

핵심 용어 정리

용어	정의
MathVista	시각적 맥락에서의 수학적 추론을 평가하는 6,141문제 메타-벤치마크
LMM	Large Multimodal Model. 텍스트와 이미지를 모두 처리하는 대규모 모델
Figure QA	그래프, 차트, 도표에서 정보를 읽고 질문에 답하는 과제
Visual Grounding	이미지 내 특정 요소(도형, 데이터 포인트)를 정확히 식별하는 능력
Meta-benchmark	여러 기존 벤치마크를 통합하여 만든 상위 벤치마크

Juhyeon's Blog

탐색기

MathVista - Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts