Digest: 웹에서 수집한 실제 차트(Statista, Pew Research)에 대한 질의응답 능력을 평가하는 멀티모달 벤치마크. 기존 차트 QA 데이터셋이 단순 데이터 추출에 치우친 문제를 해결하기 위해, 인간 작성 질문(시각적 추론 + 산술 연산)과 자동 생성 질문(데이터 추출)의 이중 구조를 설계했다. 총 21,882개 차트에서 32,701개 QA 쌍을 구축하고 Relaxed Accuracy(5% 허용 오차)로 평가한 결과, 인간 작성 질문에서 모델 성능이 크게 하락하여 시각적 추론 능력의 한계를 드러냈다. 차트 해석 AI의 표준 벤치마크로 자리잡았다.
메타데이터
항목
내용
제목
ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning
저자
Ahmed Masry, Do Xuan Long, Jia Qing Tan, Shafiq Joty, Enamul Hoque
소속
York University, NTU Singapore
학회/저널
ACL 2022 Findings
arXiv
2203.10244
규모
32,701 QA 쌍 / 21,882 차트 이미지
평가 메트릭
Relaxed Accuracy (수치 답변 5% 허용 오차)
데이터 출처
Statista, Pew Research Center
라이선스
연구 목적 공개
데이터셋 구성
규모 및 분할
Split
Human-written
Augmented
합계
Train
~7,398
~20,901
28,299
Validation
~625
~625
1,250
Test
~1,250
~1,250
2,500
전체
9,608
23,093
32,701
Feature / Column 구조
Feature
설명
예시
chart_image
차트 이미지 파일 (PNG)
statista_01234.png
question
차트에 대한 자연어 질문
”What is the difference between…”
answer
정답 (텍스트 또는 수치)
“15.3”, “Canada”
question_type
질문 생성 방식
human / augmented
chart_type
차트 유형
bar, line, pie
난이도 / 유형 분포
질문 유형
비율
난이도
요구 능력
Human-written
29.4%
높음
시각적 비교, 산술 연산, 트렌드 분석
Augmented (Machine)
70.6%
중간
데이터 포인트 추출, 단순 읽기
차트 유형 분포: Bar chart(약 60%), Line chart(약 25%), Pie chart(약 15%)
실제 데이터 예시
예시 1: Human-written (산술 추론)
차트: 연도별 인터넷 사용률 막대 그래프
질문: “What is the difference between the highest and lowest values?”
정답: “15.3”
요구 능력: 시각적으로 최대/최소 식별 → 뺄셈 수행
예시 2: Augmented (데이터 추출)
차트: 국가별 GDP 비교 막대 그래프
질문: “What is the value for Japan in 2019?”
정답: “5.08”
요구 능력: 특정 데이터 포인트 OCR 기반 읽기
예시 3: Human-written (비교 추론)
차트: 소셜 미디어 사용률 파이 차트
질문: “Which platform has the largest share and by how much does it lead the second?”
정답: “Facebook, 12%”
요구 능력: 순위 비교 + 차이 계산
왜 이 연구를 하는가?
기존 벤치마크의 한계: FigureQA, DVQA 등 기존 차트 QA 데이터셋은 합성 차트 + 템플릿 기반 질문으로 구성되어 실제 차트 이해 능력을 제대로 평가하지 못함
실제 데이터 분석 수요: 비즈니스 보고서, 뉴스 기사 등에서 차트 해석 자동화에 대한 수요 증가
추론 능력 측정 부재: 단순 데이터 추출을 넘어 비교, 트렌드 분석, 산술 연산 등 복합적 추론 능력을 요구하는 벤치마크 필요
멀티모달 모델 평가: Vision-Language Model의 실용적 데이터 분석 능력에 대한 체계적 평가 기준 부재
방법 (Method)
데이터 수집 및 구축 파이프라인
flowchart TD
A["웹 차트 수집<br/>(Statista, Pew Research)"] --> B["21,882 차트 이미지"]
B --> C{"질문 생성 경로"}
C -->|Human| D["크라우드소싱<br/>AMT 작업자"]
C -->|Augmented| E["T5 기반 자동 생성<br/>+ 규칙 기반 템플릿"]
D --> F["9,608 Human QA"]
E --> G["23,093 Augmented QA"]
F --> H["품질 검증<br/>(교차 검증 + 필터링)"]
G --> H
H --> I["최종 32,701 QA 쌍"]
I --> J["Train / Val / Test 분할"]
평가 방식: Relaxed Accuracy
수치 답변: 예측값이 정답의 ±5% 이내이면 정답으로 인정
텍스트 답변: Exact Match 적용
설계 이유: 차트에서 정확한 수치 읽기가 어려운 경우가 많으므로 합리적 허용 범위 설정
베이스라인 모델
VisionTapas: 차트 이미지 → 테이블 변환 → QA
ChartT5 (T5 기반): 차트를 텍스트 표현으로 변환 후 T5로 답변 생성
VL-T5: Vision-Language 사전학습 모델 파인튜닝
DePlot + LLM: 차트 → 데이터 테이블 변환 후 LLM 추론
발견 (Findings)
주요 결과
모델
Human Acc.
Augmented Acc.
평균
VisionTapas (2022)
~28%
~61%
~44%
VL-T5 (2022)
~42%
~68%
~55%
ChartT5 (2022)
~53%
~73%
~63%
DePlot + GPT-4 (2023)
~76%
~88%
~82%
GPT-4V (2023)
~78%
~90%
~84%
핵심 발견
Human vs. Augmented 성능 격차: 모든 모델에서 Human-written 질문의 정확도가 15-30%p 낮음 → 시각적 추론 + 산술이 병목
데이터 추출 ≠ 이해: Augmented 질문에서 높은 성능을 보여도 Human 질문에서 급락 → 진정한 차트 이해 미달
차트-테이블 변환 전략의 효과: DePlot 방식이 end-to-end보다 우수 → 구조화된 중간 표현이 추론에 유리
LLM 크기와 추론: GPT-4급 대형 모델에서야 Human 질문 70%+ 달성 → 복합 추론에 모델 규모 중요
차트 유형별 난이도: 파이 차트(비율 추론) > 선 그래프(트렌드) > 막대 그래프(비교) 순으로 어려움
이론적 의의
멀티모달 추론 평가 표준화: 차트 이미지를 매개로 시각 인식과 논리적 추론을 동시에 평가하는 체계 확립
이중 난이도 설계: Human/Augmented 분리를 통해 “데이터 추출 능력”과 “추론 능력”을 독립적으로 측정 가능
Relaxed Accuracy의 실용성: 시각적 데이터 읽기의 본질적 불확실성을 반영한 평가 메트릭 제안
실세계 데이터 기반: 합성 차트가 아닌 실제 뉴스/보고서 차트를 사용하여 생태학적 타당도(ecological validity) 확보
후속 연구 촉진: ChartT5, DePlot, UniChart 등 차트 전문 모델 개발의 핵심 평가 기준으로 활용