VQAv2: Making the V in VQA Matter

Digest: 이미지에 대한 자연어 질문에 답하는 Visual Question Answering 표준 벤치마크. VQAv1의 language bias(이미지를 보지 않고도 답변 가능) 문제를 해결하기 위해 complementary image pairs — 동일 질문에 다른 답을 갖는 유사 이미지 쌍 — 을 도입. 1,105,904 QA pairs over 204,721 COCO images. 10명 annotator의 soft accuracy 방식으로 평가하며, fine-tuned SOTA(BEiT-3)가 인간 수준(~83%)을 상회.

메타데이터

항목	내용
제목	Making the V in VQA Matter: Elevating the Role of Image Understanding in VQA
저자	Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, Devi Parikh
소속	Georgia Institute of Technology, Facebook AI Research (FAIR), Army Research Lab
학회	CVPR 2017
arXiv	1612.00837
총 규모	1,105,904 QA pairs / 204,721 images
이미지 출처	MS COCO (Common Objects in Context)
평가 메트릭	VQA Accuracy = min(matching_count / 3, 1)
라이선스	CC BY 4.0

데이터셋 구성

규모 및 분할

Split	Images	QA Pairs	비고
Train	~82,783	443,757	학습용
Validation	~40,504	214,354	검증용
Test	~81,434	447,793	test-dev + test-std
합계	204,721	1,105,904	—

test-dev: 모델 개발·디버깅용 (서버 제출, 일일 제한)
test-std: 공식 리더보드 보고용 (제출 횟수 제한)
답변 라벨은 train/val에만 공개, test는 evaluation server 제출 필요

Feature / Column 구조

Feature	Type	설명
`image_id`	int	MS COCO image identifier
`image`	RGB tensor	원본 이미지 (다양한 해상도)
`question_id`	int	질문 고유 ID
`question`	string	자연어 질문 텍스트
`answers`	list[dict]	10명 annotator의 답변 리스트
`question_type`	string	질문 시작어 기반 분류 (e.g., “What color”, “How many”)
`answer_type`	string	Yes/No, Number, Other 중 하나
`multiple_choice_answer`	string	최빈 답변 (단일 정답)

질문 유형 분포

Answer Type	비율	예시 질문 패턴
Yes/No	~38%	“Is there a…?”, “Are they…?”
Number	~12%	“How many…?”, “What number…?”
Other	~50%	“What color…?”, “What is…?”, “Where is…?”

실제 데이터 예시

예시 1: Object Attribute (Other)

Image: 갈색 개가 잔디밭에 앉아 있는 사진
Question: “What color is the dog?”
Answers: ["brown"×8, "tan"×1, "light brown"×1]
VQA Accuracy: min(8/3, 1) = 1.0 (brown 기준)

예시 2: Yes/No

Image: 주방 내부 사진 (전자레인지 포함)
Question: “Is there a microwave?”
Answers: ["yes"×10]
VQA Accuracy: min(10/3, 1) = 1.0

예시 3: Counting (Number)

Image: 도로 위 자동차들이 보이는 거리 사진
Question: “How many cars are there?”
Answers: ["3"×6, "4"×3, "2"×1]
VQA Accuracy: min(6/3, 1) = 1.0 (3 기준), min(3/3, 1) = 1.0 (4 기준)

왜 이 연구를 하는가?

VQAv1(2015)은 시각 QA의 첫 대규모 벤치마크로서 큰 기여를 했으나, 심각한 language prior 문제가 발견되었다:

“How many…” 질문의 정답이 **“2”**에 극도로 편중 → 이미지를 무시하고 “2”만 예측해도 높은 정확도
“Is there a…” 질문에 **“yes”**만 답해도 ~87% 정확도
모델이 visual grounding 없이 언어 통계만으로 답변을 학습

이러한 language bias를 제거하기 위해 VQAv2는 각 (image, question, answer) 트리플에 대해 동일 질문이지만 다른 답변을 유도하는 유사 이미지를 매칭하는 complementary pairs 전략을 도입. 이를 통해 모델이 실제로 이미지를 이해해야만 정답을 맞출 수 있도록 강제한다.

방법: Complementary Pairs 수집 파이프라인

flowchart TD
    A["VQAv1 (image, question, answer)<br/>트리플 수집"] --> B["COCO 이미지 풀에서<br/>유사 이미지 검색<br/>(Nearest Neighbor)"]
    B --> C["후보 이미지에 대해<br/>동일 질문 제시"]
    C --> D{"답변이<br/>다른가?"}
    D -- "Yes" --> E["Complementary Pair 확정<br/>(img₁, img₂, Q, A₁≠A₂)"]
    D -- "No" --> F["다른 후보<br/>이미지 탐색"]
    F --> C
    E --> G["10명 Annotator에게<br/>답변 수집"]
    G --> H["VQAv2 Dataset<br/>1.1M QA pairs"]

    style A fill:#e1f5fe
    style E fill:#c8e6c9
    style H fill:#fff9c4

핵심: 유사 이미지(같은 장면 카테고리, 비슷한 구성)에서 특정 속성(색상, 개수, 존재 여부)만 다른 쌍을 구성함으로써 visual understanding의 중요성을 극대화.

주요 결과

모델 성능 비교 (test-std)

모델	Year	VQA Accuracy (%)	비고
Human	—	~83.3	10-annotator agreement 기준
BEiT-3 (fine-tuned)	2022	~84.2	Multimodal pre-training SOTA
PaLI-X	2023	~86.0	55B parameter, fine-tuned
GPT-4V	2023	~80+	Zero-shot / few-shot
LLaVA-1.5	2023	~80.0	Instruction-tuned VLM
Prior Art (VQAv1 기준)	2016	~62.3	Attention 기반
Language-only baseline	—	~52.0	이미지 없이 질문만 사용

VQAv1 vs VQAv2 성능 격차

조건	VQAv1 Acc	VQAv2 Acc	차이
Language-only (blind)	~62%	~52%	-10%p
Full model (img+text)	~66%	~62%	-4%p

→ VQAv2에서 language-only baseline의 성능이 크게 하락 = 언어 편향 완화 성공

이론적 의의

기여

Language Bias 정량화: VQAv1의 편향 문제를 체계적으로 분석하고 complementary pairs로 해결
De facto Standard: 시각 QA 분야의 사실상 표준 벤치마크로 자리잡음 (2017~현재)
Multimodal Grounding 촉진: 모델이 이미지와 텍스트를 진정으로 결합해야 하는 과제 설계
Soft Metric 도입: 10명 annotator 기반 soft accuracy로 답변의 다양성과 모호성을 반영
연구 생태계 구축: VQA Challenge (연례 대회), evaluation server, 리더보드 운영

한계

단답형 중심: 설명형(explanatory) 답변 평가 불가 → VQA-X, A-OKVQA 등에서 보완
COCO 도메인 제한: 일상 사진 중심, 의료/위성/과학 이미지 미포함
포화 현상: SOTA 모델이 인간 수준 초과 → 변별력 저하
문화적 편향: 영어 중심, 서양 문화 맥락의 이미지·질문

핵심 용어

용어	정의
VQA (Visual Question Answering)	이미지에 대한 자연어 질문에 자동으로 답변하는 과제
Complementary Pairs	동일 질문에 다른 답변을 유도하는 유사 이미지 쌍
Language Bias / Prior	이미지 정보 없이 질문 텍스트의 통계적 패턴만으로 답변 가능한 현상
Soft Accuracy	10명 annotator 중 일치 비율 기반 연속적 정확도 (min(count/3, 1))
Visual Grounding	답변 근거를 이미지의 특정 영역에 연결하는 능력
MS COCO	Microsoft Common Objects in Context — 대규모 이미지 인식·캡셔닝 데이터셋
test-dev / test-std	개발용/공식 보고용 테스트 분할 (evaluation server 제출)

Benchmark VQA Multimodal VisualQA LanguageBias ComplementaryPairs COCO CVPR2017

Juhyeon's Blog

탐색기

Making the V in VQA Matter - Elevating the Role of Image Understanding in VQA