ChartQA: 차트 이해 질의응답 벤치마크

Digest: 웹에서 수집한 실제 차트(Statista, Pew Research)에 대한 질의응답 능력을 평가하는 멀티모달 벤치마크. 기존 차트 QA 데이터셋이 단순 데이터 추출에 치우친 문제를 해결하기 위해, 인간 작성 질문(시각적 추론 + 산술 연산)과 자동 생성 질문(데이터 추출)의 이중 구조를 설계했다. 총 21,882개 차트에서 32,701개 QA 쌍을 구축하고 Relaxed Accuracy(5% 허용 오차)로 평가한 결과, 인간 작성 질문에서 모델 성능이 크게 하락하여 시각적 추론 능력의 한계를 드러냈다. 차트 해석 AI의 표준 벤치마크로 자리잡았다.

메타데이터

항목	내용
제목	ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning
저자	Ahmed Masry, Do Xuan Long, Jia Qing Tan, Shafiq Joty, Enamul Hoque
소속	York University, NTU Singapore
학회/저널	ACL 2022 Findings
arXiv	2203.10244
규모	32,701 QA 쌍 / 21,882 차트 이미지
평가 메트릭	Relaxed Accuracy (수치 답변 5% 허용 오차)
데이터 출처	Statista, Pew Research Center
라이선스	연구 목적 공개

데이터셋 구성

규모 및 분할

Split	Human-written	Augmented	합계
Train	~7,398	~20,901	28,299
Validation	~625	~625	1,250
Test	~1,250	~1,250	2,500
전체	9,608	23,093	32,701

Feature / Column 구조

Feature	설명	예시
`chart_image`	차트 이미지 파일 (PNG)	`statista_01234.png`
`question`	차트에 대한 자연어 질문	”What is the difference between…”
`answer`	정답 (텍스트 또는 수치)	“15.3”, “Canada”
`question_type`	질문 생성 방식	`human` / `augmented`
`chart_type`	차트 유형	bar, line, pie

난이도 / 유형 분포

질문 유형	비율	난이도	요구 능력
Human-written	29.4%	높음	시각적 비교, 산술 연산, 트렌드 분석
Augmented (Machine)	70.6%	중간	데이터 포인트 추출, 단순 읽기

차트 유형 분포: Bar chart(약 60%), Line chart(약 25%), Pie chart(약 15%)

실제 데이터 예시

예시 1: Human-written (산술 추론)

차트: 연도별 인터넷 사용률 막대 그래프
질문: “What is the difference between the highest and lowest values?”
정답: “15.3”
요구 능력: 시각적으로 최대/최소 식별 → 뺄셈 수행

예시 2: Augmented (데이터 추출)

차트: 국가별 GDP 비교 막대 그래프
질문: “What is the value for Japan in 2019?”
정답: “5.08”
요구 능력: 특정 데이터 포인트 OCR 기반 읽기

예시 3: Human-written (비교 추론)

차트: 소셜 미디어 사용률 파이 차트
질문: “Which platform has the largest share and by how much does it lead the second?”
정답: “Facebook, 12%”
요구 능력: 순위 비교 + 차이 계산

왜 이 연구를 하는가?

기존 벤치마크의 한계: FigureQA, DVQA 등 기존 차트 QA 데이터셋은 합성 차트 + 템플릿 기반 질문으로 구성되어 실제 차트 이해 능력을 제대로 평가하지 못함
실제 데이터 분석 수요: 비즈니스 보고서, 뉴스 기사 등에서 차트 해석 자동화에 대한 수요 증가
추론 능력 측정 부재: 단순 데이터 추출을 넘어 비교, 트렌드 분석, 산술 연산 등 복합적 추론 능력을 요구하는 벤치마크 필요
멀티모달 모델 평가: Vision-Language Model의 실용적 데이터 분석 능력에 대한 체계적 평가 기준 부재

방법 (Method)

데이터 수집 및 구축 파이프라인

flowchart TD
    A["웹 차트 수집<br/>(Statista, Pew Research)"] --> B["21,882 차트 이미지"]
    B --> C{"질문 생성 경로"}
    C -->|Human| D["크라우드소싱<br/>AMT 작업자"]
    C -->|Augmented| E["T5 기반 자동 생성<br/>+ 규칙 기반 템플릿"]
    D --> F["9,608 Human QA"]
    E --> G["23,093 Augmented QA"]
    F --> H["품질 검증<br/>(교차 검증 + 필터링)"]
    G --> H
    H --> I["최종 32,701 QA 쌍"]
    I --> J["Train / Val / Test 분할"]

평가 방식: Relaxed Accuracy

수치 답변: 예측값이 정답의 ±5% 이내이면 정답으로 인정
텍스트 답변: Exact Match 적용
설계 이유: 차트에서 정확한 수치 읽기가 어려운 경우가 많으므로 합리적 허용 범위 설정

베이스라인 모델

VisionTapas: 차트 이미지 → 테이블 변환 → QA
ChartT5 (T5 기반): 차트를 텍스트 표현으로 변환 후 T5로 답변 생성
VL-T5: Vision-Language 사전학습 모델 파인튜닝
DePlot + LLM: 차트 → 데이터 테이블 변환 후 LLM 추론

발견 (Findings)

주요 결과

모델	Human Acc.	Augmented Acc.	평균
VisionTapas (2022)	~28%	~61%	~44%
VL-T5 (2022)	~42%	~68%	~55%
ChartT5 (2022)	~53%	~73%	~63%
DePlot + GPT-4 (2023)	~76%	~88%	~82%
GPT-4V (2023)	~78%	~90%	~84%

핵심 발견

Human vs. Augmented 성능 격차: 모든 모델에서 Human-written 질문의 정확도가 15-30%p 낮음 → 시각적 추론 + 산술이 병목
데이터 추출 ≠ 이해: Augmented 질문에서 높은 성능을 보여도 Human 질문에서 급락 → 진정한 차트 이해 미달
차트-테이블 변환 전략의 효과: DePlot 방식이 end-to-end보다 우수 → 구조화된 중간 표현이 추론에 유리
LLM 크기와 추론: GPT-4급 대형 모델에서야 Human 질문 70%+ 달성 → 복합 추론에 모델 규모 중요
차트 유형별 난이도: 파이 차트(비율 추론) > 선 그래프(트렌드) > 막대 그래프(비교) 순으로 어려움

이론적 의의

멀티모달 추론 평가 표준화: 차트 이미지를 매개로 시각 인식과 논리적 추론을 동시에 평가하는 체계 확립
이중 난이도 설계: Human/Augmented 분리를 통해 “데이터 추출 능력”과 “추론 능력”을 독립적으로 측정 가능
Relaxed Accuracy의 실용성: 시각적 데이터 읽기의 본질적 불확실성을 반영한 평가 메트릭 제안
실세계 데이터 기반: 합성 차트가 아닌 실제 뉴스/보고서 차트를 사용하여 생태학적 타당도(ecological validity) 확보
후속 연구 촉진: ChartT5, DePlot, UniChart 등 차트 전문 모델 개발의 핵심 평가 기준으로 활용

핵심 용어 정리

용어	설명
Relaxed Accuracy	수치 답변에서 정답 대비 ±5% 이내를 정답으로 인정하는 완화된 정확도 메트릭
Human-written Question	크라우드소싱 작업자가 차트를 보고 직접 작성한 질문. 비교, 추론, 산술 등 복합 능력 요구
Augmented Question	T5 모델 + 규칙 기반 템플릿으로 자동 생성된 질문. 주로 데이터 포인트 추출
Chart-to-Table	차트 이미지를 구조화된 데이터 테이블로 변환하는 중간 단계 접근법 (DePlot 등)
Visual Reasoning	차트의 시각적 패턴(높이, 기울기, 비율)을 해석하여 추론하는 능력
OCR (Optical Character Recognition)	차트 내 텍스트(축 레이블, 범례, 수치)를 인식하는 기술

benchmark chart-understanding visual-qa multimodal relaxed-accuracy data-extraction visual-reasoning ACL2022

Juhyeon's Blog

탐색기

ChartQA - A Benchmark for Question Answering about Charts with Visual and Logical Reasoning

ChartQA: 차트 이해 질의응답 벤치마크

메타데이터

데이터셋 구성

규모 및 분할

Feature / Column 구조

난이도 / 유형 분포

실제 데이터 예시

예시 1: Human-written (산술 추론)

예시 2: Augmented (데이터 추출)

예시 3: Human-written (비교 추론)

왜 이 연구를 하는가?

방법 (Method)

데이터 수집 및 구축 파이프라인

평가 방식: Relaxed Accuracy

베이스라인 모델

발견 (Findings)

주요 결과

핵심 발견

이론적 의의

관련 연구

핵심 용어 정리

그래프 뷰

목차

Properties

백링크