Digest: 이미지에 대한 자연어 질문에 답하는 Visual Question Answering 표준 벤치마크. VQAv1의 language bias(이미지를 보지 않고도 답변 가능) 문제를 해결하기 위해 complementary image pairs — 동일 질문에 다른 답을 갖는 유사 이미지 쌍 — 을 도입. 1,105,904 QA pairs over 204,721 COCO images. 10명 annotator의 soft accuracy 방식으로 평가하며, fine-tuned SOTA(BEiT-3)가 인간 수준(~83%)을 상회.
메타데이터
항목
내용
제목
Making the V in VQA Matter: Elevating the Role of Image Understanding in VQA
저자
Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, Devi Parikh
소속
Georgia Institute of Technology, Facebook AI Research (FAIR), Army Research Lab
학회
CVPR 2017
arXiv
1612.00837
총 규모
1,105,904 QA pairs / 204,721 images
이미지 출처
MS COCO (Common Objects in Context)
평가 메트릭
VQA Accuracy = min(matching_count / 3, 1)
라이선스
CC BY 4.0
데이터셋 구성
규모 및 분할
Split
Images
QA Pairs
비고
Train
~82,783
443,757
학습용
Validation
~40,504
214,354
검증용
Test
~81,434
447,793
test-dev + test-std
합계
204,721
1,105,904
—
test-dev: 모델 개발·디버깅용 (서버 제출, 일일 제한)
test-std: 공식 리더보드 보고용 (제출 횟수 제한)
답변 라벨은 train/val에만 공개, test는 evaluation server 제출 필요
VQAv1(2015)은 시각 QA의 첫 대규모 벤치마크로서 큰 기여를 했으나, 심각한 language prior 문제가 발견되었다:
“How many…” 질문의 정답이 **“2”**에 극도로 편중 → 이미지를 무시하고 “2”만 예측해도 높은 정확도
“Is there a…” 질문에 **“yes”**만 답해도 ~87% 정확도
모델이 visual grounding 없이 언어 통계만으로 답변을 학습
이러한 language bias를 제거하기 위해 VQAv2는 각 (image, question, answer) 트리플에 대해 동일 질문이지만 다른 답변을 유도하는 유사 이미지를 매칭하는 complementary pairs 전략을 도입. 이를 통해 모델이 실제로 이미지를 이해해야만 정답을 맞출 수 있도록 강제한다.
방법: Complementary Pairs 수집 파이프라인
flowchart TD
A["VQAv1 (image, question, answer)<br/>트리플 수집"] --> B["COCO 이미지 풀에서<br/>유사 이미지 검색<br/>(Nearest Neighbor)"]
B --> C["후보 이미지에 대해<br/>동일 질문 제시"]
C --> D{"답변이<br/>다른가?"}
D -- "Yes" --> E["Complementary Pair 확정<br/>(img₁, img₂, Q, A₁≠A₂)"]
D -- "No" --> F["다른 후보<br/>이미지 탐색"]
F --> C
E --> G["10명 Annotator에게<br/>답변 수집"]
G --> H["VQAv2 Dataset<br/>1.1M QA pairs"]
style A fill:#e1f5fe
style E fill:#c8e6c9
style H fill:#fff9c4
핵심: 유사 이미지(같은 장면 카테고리, 비슷한 구성)에서 특정 속성(색상, 개수, 존재 여부)만 다른 쌍을 구성함으로써 visual understanding의 중요성을 극대화.
주요 결과
모델 성능 비교 (test-std)
모델
Year
VQA Accuracy (%)
비고
Human
—
~83.3
10-annotator agreement 기준
BEiT-3 (fine-tuned)
2022
~84.2
Multimodal pre-training SOTA
PaLI-X
2023
~86.0
55B parameter, fine-tuned
GPT-4V
2023
~80+
Zero-shot / few-shot
LLaVA-1.5
2023
~80.0
Instruction-tuned VLM
Prior Art (VQAv1 기준)
2016
~62.3
Attention 기반
Language-only baseline
—
~52.0
이미지 없이 질문만 사용
VQAv1 vs VQAv2 성능 격차
조건
VQAv1 Acc
VQAv2 Acc
차이
Language-only (blind)
~62%
~52%
-10%p
Full model (img+text)
~66%
~62%
-4%p
→ VQAv2에서 language-only baseline의 성능이 크게 하락 = 언어 편향 완화 성공
이론적 의의
기여
Language Bias 정량화: VQAv1의 편향 문제를 체계적으로 분석하고 complementary pairs로 해결
De facto Standard: 시각 QA 분야의 사실상 표준 벤치마크로 자리잡음 (2017~현재)
Multimodal Grounding 촉진: 모델이 이미지와 텍스트를 진정으로 결합해야 하는 과제 설계