MathVista: 시각적 맥락에서의 수학적 추론 평가

Digest: 기존 수학 벤치마크(GSM8K, MATH)는 텍스트만으로 문제를 제시하지만, 실제 수학 문제의 상당수는 그래프, 도형, 표, 다이어그램 등 시각 정보를 포함한다. UCLA의 MathVista는 28개 기존 데이터셋과 3개 신규 데이터셋에서 6,141개의 시각적 수학 문제를 통합한 메타-벤치마크이다. 핵심 통찰은 시각 정보를 올바르게 해석하여 수학적 추론에 결합하는 능력이 텍스트 전용 수학과는 질적으로 다른 도전이라는 것이다. GPT-4V가 49.9% (Table 2)로 최고를 기록했으나, 인간의 60.3%에 미치지 못했다. 특히 기하 도형 추론에서 LMM(Large Multimodal Model)의 한계가 두드러졌다.


메타데이터

항목내용
제목MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts
저자Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, Jianfeng Gao
소속UCLA, Microsoft Research, University of Washington
연도2023
발표ICLR 2024, arXiv:2310.02255
링크arXiv, GitHub
키워드MathVista, visual math, multimodal reasoning, diagram, chart

데이터셋 구성

규모 및 분할

항목내용
전체 크기6,141개 문제
Testmini1,000개 (빠른 평가용)
소스28개 기존 + 3개 신규 데이터셋
정답 유형선다형, 자유형(수치/텍스트)
시각 유형기하 도형, 그래프/차트, 표, 자연 이미지, 합성 이미지

분류 체계 (3차원)

1. 수학 추론 유형:

유형비율설명
Figure QA~35%그래프/차트 읽기
Geometry~25%기하 도형 문제
Math Word Problem~20%시각 맥락 문장제
Textbook QA~15%교과서 그림 기반
Table QA~5%표 기반 수학

2. 시각 맥락 유형:

유형비율
Geometry diagram~25%
Bar/line chart~20%
Scientific figure~15%
Table~15%
Natural image~10%
Synthetic scene~15%

3. 학년/난이도:

수준비율
초등 (Elementary)~20%
중등 (High school)~40%
대학 (College)~30%
대학원+~10%

Feature/Column 구조

필드설명예시
pid문제 ID1
question문제 텍스트"What is the area of triangle ABC?"
image이미지 파일 경로images/1.png
choices선다형 보기 (해당 시)["A. 12", "B. 24", ...]
answer정답"24"
category수학 유형"geometry"
context시각 맥락 유형"geometry_diagram"
grade학년 수준"high_school"
source원본 데이터셋"GeoQA+"

실제 데이터 예시

예시 1: 기하 도형

[이미지: 직각삼각형 ABC, AB=5, BC=12]
Question: "In the right triangle shown, what is the length
of the hypotenuse AC?"
Answer: 13
(피타고라스 정리: √(5²+12²) = 13)

예시 2: 그래프 읽기

[이미지: 막대그래프 - 5개 도시의 인구]
Question: "How many more people live in City A than City C?"
Choices: A. 5000  B. 10000  C. 15000  D. 20000
Answer: C. 15000

예시 3: 과학적 맥락

[이미지: 함수 그래프 y = sin(x) + cos(x)]
Question: "What is the maximum value of the function shown
in the graph?"
Answer: √2 (약 1.414)

왜 이 연구를 하는가?

핵심 질문

멀티모달 모델이 시각 정보와 수학적 추론을 결합할 수 있는가?

기존 접근법의 한계

한계설명
텍스트 전용GSM8K, MATH는 시각 정보 미포함
단일 시각 유형GeoQA는 기하만, ChartQA는 차트만
통합 평가 부재다양한 시각+수학 조합을 종합 평가하는 벤치마크 없음

핵심 통찰

시각적 수학 추론은 (1) 시각 인식, (2) 정보 추출, (3) 수학적 추론이라는 세 가지 능력의 복합적 결합을 요구하며, 이 중 하나라도 약하면 전체 성능이 하락한다.


방법 (Method)

프레임워크 개요

graph TB
    A["28개 기존 데이터셋<br/>+ 3개 신규 데이터셋"] --> B["통합 & 표준화<br/>(형식, 메타데이터)"]
    B --> C["3차원 분류 태깅<br/>(수학유형 × 시각유형 × 난이도)"]
    C --> D["MathVista<br/>6,141 문제"]

    D --> E["텍스트 전용 모델<br/>(이미지 캡션 변환)"]
    D --> F["멀티모달 모델<br/>(직접 이미지 입력)"]

    E --> G["정확도 비교"]
    F --> G

발견 (Findings)

주요 결과 (Testmini, 정확도)

모델전체GeometryFigure QA
Human60.3%54.8%67.2%
GPT-4V49.9%41.2%58.3%
Gemini Pro45.2%
LLaVA-1.526.1%
Text-only GPT-429.2%18.5%37.1%

(Table 2)

핵심 발견

  1. 인간-모델 격차: 최고 모델(GPT-4V)도 인간 대비 10%p 이상 뒤처짐 (Table 2)
  2. 기하의 난이도: 기하 도형에서 가장 큰 성능 하락 — 공간적 추론의 어려움
  3. 텍스트 전용의 한계: 이미지를 캡션으로 변환해도 GPT-4가 29.2%에 불과 — 시각 정보 손실 심각
  4. 차트 읽기 > 기하 추론: 그래프/차트 읽기는 상대적으로 쉬우나, 기하학적 추론은 매우 어려움

이론적 의의

멀티모달 수학 추론의 기준점

MathVista는 LMM의 시각-수학 결합 능력을 체계적으로 평가하는 최초의 종합 벤치마크이다. 3차원 분류 체계(수학유형 × 시각유형 × 난이도)는 모델의 세분화된 강약점 분석을 가능하게 한다.


관련 연구


핵심 용어 정리

용어정의
MathVista시각적 맥락에서의 수학적 추론을 평가하는 6,141문제 메타-벤치마크
LMMLarge Multimodal Model. 텍스트와 이미지를 모두 처리하는 대규모 모델
Figure QA그래프, 차트, 도표에서 정보를 읽고 질문에 답하는 과제
Visual Grounding이미지 내 특정 요소(도형, 데이터 포인트)를 정확히 식별하는 능력
Meta-benchmark여러 기존 벤치마크를 통합하여 만든 상위 벤치마크

태그

paper #2023 benchmark mathematics multimodal visual_reasoning MathVista ICLR