ChartQA: 차트 이해 질의응답 벤치마크

Digest: 웹에서 수집한 실제 차트(Statista, Pew Research)에 대한 질의응답 능력을 평가하는 멀티모달 벤치마크. 기존 차트 QA 데이터셋이 단순 데이터 추출에 치우친 문제를 해결하기 위해, 인간 작성 질문(시각적 추론 + 산술 연산)과 자동 생성 질문(데이터 추출)의 이중 구조를 설계했다. 총 21,882개 차트에서 32,701개 QA 쌍을 구축하고 Relaxed Accuracy(5% 허용 오차)로 평가한 결과, 인간 작성 질문에서 모델 성능이 크게 하락하여 시각적 추론 능력의 한계를 드러냈다. 차트 해석 AI의 표준 벤치마크로 자리잡았다.


메타데이터

항목내용
제목ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning
저자Ahmed Masry, Do Xuan Long, Jia Qing Tan, Shafiq Joty, Enamul Hoque
소속York University, NTU Singapore
학회/저널ACL 2022 Findings
arXiv2203.10244
규모32,701 QA 쌍 / 21,882 차트 이미지
평가 메트릭Relaxed Accuracy (수치 답변 5% 허용 오차)
데이터 출처Statista, Pew Research Center
라이선스연구 목적 공개

데이터셋 구성

규모 및 분할

SplitHuman-writtenAugmented합계
Train~7,398~20,90128,299
Validation~625~6251,250
Test~1,250~1,2502,500
전체9,60823,09332,701

Feature / Column 구조

Feature설명예시
chart_image차트 이미지 파일 (PNG)statista_01234.png
question차트에 대한 자연어 질문”What is the difference between…”
answer정답 (텍스트 또는 수치)“15.3”, “Canada”
question_type질문 생성 방식human / augmented
chart_type차트 유형bar, line, pie

난이도 / 유형 분포

질문 유형비율난이도요구 능력
Human-written29.4%높음시각적 비교, 산술 연산, 트렌드 분석
Augmented (Machine)70.6%중간데이터 포인트 추출, 단순 읽기

차트 유형 분포: Bar chart(약 60%), Line chart(약 25%), Pie chart(약 15%)


실제 데이터 예시

예시 1: Human-written (산술 추론)

  • 차트: 연도별 인터넷 사용률 막대 그래프
  • 질문: “What is the difference between the highest and lowest values?”
  • 정답: “15.3”
  • 요구 능력: 시각적으로 최대/최소 식별 → 뺄셈 수행

예시 2: Augmented (데이터 추출)

  • 차트: 국가별 GDP 비교 막대 그래프
  • 질문: “What is the value for Japan in 2019?”
  • 정답: “5.08”
  • 요구 능력: 특정 데이터 포인트 OCR 기반 읽기

예시 3: Human-written (비교 추론)

  • 차트: 소셜 미디어 사용률 파이 차트
  • 질문: “Which platform has the largest share and by how much does it lead the second?”
  • 정답: “Facebook, 12%”
  • 요구 능력: 순위 비교 + 차이 계산

왜 이 연구를 하는가?

  1. 기존 벤치마크의 한계: FigureQA, DVQA 등 기존 차트 QA 데이터셋은 합성 차트 + 템플릿 기반 질문으로 구성되어 실제 차트 이해 능력을 제대로 평가하지 못함
  2. 실제 데이터 분석 수요: 비즈니스 보고서, 뉴스 기사 등에서 차트 해석 자동화에 대한 수요 증가
  3. 추론 능력 측정 부재: 단순 데이터 추출을 넘어 비교, 트렌드 분석, 산술 연산 등 복합적 추론 능력을 요구하는 벤치마크 필요
  4. 멀티모달 모델 평가: Vision-Language Model의 실용적 데이터 분석 능력에 대한 체계적 평가 기준 부재

방법 (Method)

데이터 수집 및 구축 파이프라인

flowchart TD
    A["웹 차트 수집<br/>(Statista, Pew Research)"] --> B["21,882 차트 이미지"]
    B --> C{"질문 생성 경로"}
    C -->|Human| D["크라우드소싱<br/>AMT 작업자"]
    C -->|Augmented| E["T5 기반 자동 생성<br/>+ 규칙 기반 템플릿"]
    D --> F["9,608 Human QA"]
    E --> G["23,093 Augmented QA"]
    F --> H["품질 검증<br/>(교차 검증 + 필터링)"]
    G --> H
    H --> I["최종 32,701 QA 쌍"]
    I --> J["Train / Val / Test 분할"]

평가 방식: Relaxed Accuracy

  • 수치 답변: 예측값이 정답의 ±5% 이내이면 정답으로 인정
  • 텍스트 답변: Exact Match 적용
  • 설계 이유: 차트에서 정확한 수치 읽기가 어려운 경우가 많으므로 합리적 허용 범위 설정

베이스라인 모델

  • VisionTapas: 차트 이미지 → 테이블 변환 → QA
  • ChartT5 (T5 기반): 차트를 텍스트 표현으로 변환 후 T5로 답변 생성
  • VL-T5: Vision-Language 사전학습 모델 파인튜닝
  • DePlot + LLM: 차트 → 데이터 테이블 변환 후 LLM 추론

발견 (Findings)

주요 결과

모델Human Acc.Augmented Acc.평균
VisionTapas (2022)~28%~61%~44%
VL-T5 (2022)~42%~68%~55%
ChartT5 (2022)~53%~73%~63%
DePlot + GPT-4 (2023)~76%~88%~82%
GPT-4V (2023)~78%~90%~84%

핵심 발견

  1. Human vs. Augmented 성능 격차: 모든 모델에서 Human-written 질문의 정확도가 15-30%p 낮음 → 시각적 추론 + 산술이 병목
  2. 데이터 추출 ≠ 이해: Augmented 질문에서 높은 성능을 보여도 Human 질문에서 급락 → 진정한 차트 이해 미달
  3. 차트-테이블 변환 전략의 효과: DePlot 방식이 end-to-end보다 우수 → 구조화된 중간 표현이 추론에 유리
  4. LLM 크기와 추론: GPT-4급 대형 모델에서야 Human 질문 70%+ 달성 → 복합 추론에 모델 규모 중요
  5. 차트 유형별 난이도: 파이 차트(비율 추론) > 선 그래프(트렌드) > 막대 그래프(비교) 순으로 어려움

이론적 의의

  1. 멀티모달 추론 평가 표준화: 차트 이미지를 매개로 시각 인식과 논리적 추론을 동시에 평가하는 체계 확립
  2. 이중 난이도 설계: Human/Augmented 분리를 통해 “데이터 추출 능력”과 “추론 능력”을 독립적으로 측정 가능
  3. Relaxed Accuracy의 실용성: 시각적 데이터 읽기의 본질적 불확실성을 반영한 평가 메트릭 제안
  4. 실세계 데이터 기반: 합성 차트가 아닌 실제 뉴스/보고서 차트를 사용하여 생태학적 타당도(ecological validity) 확보
  5. 후속 연구 촉진: ChartT5, DePlot, UniChart 등 차트 전문 모델 개발의 핵심 평가 기준으로 활용

관련 연구

  • VQAv2 — 일반 이미지 VQA의 대표 벤치마크
  • DocVQA — 문서 이미지 이해 QA
  • MathVista — 시각적 수학 추론 (차트 포함)
  • MMMU — 전문가 수준 멀티모달 이해
  • MMLU — 텍스트 기반 다중 과제 벤치마크
  • HELM — 총체적 LLM 평가 프레임워크

핵심 용어 정리

용어설명
Relaxed Accuracy수치 답변에서 정답 대비 ±5% 이내를 정답으로 인정하는 완화된 정확도 메트릭
Human-written Question크라우드소싱 작업자가 차트를 보고 직접 작성한 질문. 비교, 추론, 산술 등 복합 능력 요구
Augmented QuestionT5 모델 + 규칙 기반 템플릿으로 자동 생성된 질문. 주로 데이터 포인트 추출
Chart-to-Table차트 이미지를 구조화된 데이터 테이블로 변환하는 중간 단계 접근법 (DePlot 등)
Visual Reasoning차트의 시각적 패턴(높이, 기울기, 비율)을 해석하여 추론하는 능력
OCR (Optical Character Recognition)차트 내 텍스트(축 레이블, 범례, 수치)를 인식하는 기술

benchmark chart-understanding visual-qa multimodal relaxed-accuracy data-extraction visual-reasoning ACL2022