VQAv2: Making the V in VQA Matter

Digest: 이미지에 대한 자연어 질문에 답하는 Visual Question Answering 표준 벤치마크. VQAv1의 language bias(이미지를 보지 않고도 답변 가능) 문제를 해결하기 위해 complementary image pairs — 동일 질문에 다른 답을 갖는 유사 이미지 쌍 — 을 도입. 1,105,904 QA pairs over 204,721 COCO images. 10명 annotator의 soft accuracy 방식으로 평가하며, fine-tuned SOTA(BEiT-3)가 인간 수준(~83%)을 상회.


메타데이터

항목내용
제목Making the V in VQA Matter: Elevating the Role of Image Understanding in VQA
저자Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, Devi Parikh
소속Georgia Institute of Technology, Facebook AI Research (FAIR), Army Research Lab
학회CVPR 2017
arXiv1612.00837
총 규모1,105,904 QA pairs / 204,721 images
이미지 출처MS COCO (Common Objects in Context)
평가 메트릭VQA Accuracy = min(matching_count / 3, 1)
라이선스CC BY 4.0

데이터셋 구성

규모 및 분할

SplitImagesQA Pairs비고
Train~82,783443,757학습용
Validation~40,504214,354검증용
Test~81,434447,793test-dev + test-std
합계204,7211,105,904
  • test-dev: 모델 개발·디버깅용 (서버 제출, 일일 제한)
  • test-std: 공식 리더보드 보고용 (제출 횟수 제한)
  • 답변 라벨은 train/val에만 공개, test는 evaluation server 제출 필요

Feature / Column 구조

FeatureType설명
image_idintMS COCO image identifier
imageRGB tensor원본 이미지 (다양한 해상도)
question_idint질문 고유 ID
questionstring자연어 질문 텍스트
answerslist[dict]10명 annotator의 답변 리스트
question_typestring질문 시작어 기반 분류 (e.g., “What color”, “How many”)
answer_typestringYes/No, Number, Other 중 하나
multiple_choice_answerstring최빈 답변 (단일 정답)

질문 유형 분포

Answer Type비율예시 질문 패턴
Yes/No~38%“Is there a…?”, “Are they…?”
Number~12%“How many…?”, “What number…?”
Other~50%“What color…?”, “What is…?”, “Where is…?”

실제 데이터 예시

예시 1: Object Attribute (Other)

  • Image: 갈색 개가 잔디밭에 앉아 있는 사진
  • Question: “What color is the dog?”
  • Answers: ["brown"×8, "tan"×1, "light brown"×1]
  • VQA Accuracy: min(8/3, 1) = 1.0 (brown 기준)

예시 2: Yes/No

  • Image: 주방 내부 사진 (전자레인지 포함)
  • Question: “Is there a microwave?”
  • Answers: ["yes"×10]
  • VQA Accuracy: min(10/3, 1) = 1.0

예시 3: Counting (Number)

  • Image: 도로 위 자동차들이 보이는 거리 사진
  • Question: “How many cars are there?”
  • Answers: ["3"×6, "4"×3, "2"×1]
  • VQA Accuracy: min(6/3, 1) = 1.0 (3 기준), min(3/3, 1) = 1.0 (4 기준)

왜 이 연구를 하는가?

VQAv1(2015)은 시각 QA의 첫 대규모 벤치마크로서 큰 기여를 했으나, 심각한 language prior 문제가 발견되었다:

  • “How many…” 질문의 정답이 **“2”**에 극도로 편중 → 이미지를 무시하고 “2”만 예측해도 높은 정확도
  • “Is there a…” 질문에 **“yes”**만 답해도 ~87% 정확도
  • 모델이 visual grounding 없이 언어 통계만으로 답변을 학습

이러한 language bias를 제거하기 위해 VQAv2는 각 (image, question, answer) 트리플에 대해 동일 질문이지만 다른 답변을 유도하는 유사 이미지를 매칭하는 complementary pairs 전략을 도입. 이를 통해 모델이 실제로 이미지를 이해해야만 정답을 맞출 수 있도록 강제한다.


방법: Complementary Pairs 수집 파이프라인

flowchart TD
    A["VQAv1 (image, question, answer)<br/>트리플 수집"] --> B["COCO 이미지 풀에서<br/>유사 이미지 검색<br/>(Nearest Neighbor)"]
    B --> C["후보 이미지에 대해<br/>동일 질문 제시"]
    C --> D{"답변이<br/>다른가?"}
    D -- "Yes" --> E["Complementary Pair 확정<br/>(img₁, img₂, Q, A₁≠A₂)"]
    D -- "No" --> F["다른 후보<br/>이미지 탐색"]
    F --> C
    E --> G["10명 Annotator에게<br/>답변 수집"]
    G --> H["VQAv2 Dataset<br/>1.1M QA pairs"]

    style A fill:#e1f5fe
    style E fill:#c8e6c9
    style H fill:#fff9c4

핵심: 유사 이미지(같은 장면 카테고리, 비슷한 구성)에서 특정 속성(색상, 개수, 존재 여부)만 다른 쌍을 구성함으로써 visual understanding의 중요성을 극대화.


주요 결과

모델 성능 비교 (test-std)

모델YearVQA Accuracy (%)비고
Human~83.310-annotator agreement 기준
BEiT-3 (fine-tuned)2022~84.2Multimodal pre-training SOTA
PaLI-X2023~86.055B parameter, fine-tuned
GPT-4V2023~80+Zero-shot / few-shot
LLaVA-1.52023~80.0Instruction-tuned VLM
Prior Art (VQAv1 기준)2016~62.3Attention 기반
Language-only baseline~52.0이미지 없이 질문만 사용

VQAv1 vs VQAv2 성능 격차

조건VQAv1 AccVQAv2 Acc차이
Language-only (blind)~62%~52%-10%p
Full model (img+text)~66%~62%-4%p

→ VQAv2에서 language-only baseline의 성능이 크게 하락 = 언어 편향 완화 성공


이론적 의의

기여

  1. Language Bias 정량화: VQAv1의 편향 문제를 체계적으로 분석하고 complementary pairs로 해결
  2. De facto Standard: 시각 QA 분야의 사실상 표준 벤치마크로 자리잡음 (2017~현재)
  3. Multimodal Grounding 촉진: 모델이 이미지와 텍스트를 진정으로 결합해야 하는 과제 설계
  4. Soft Metric 도입: 10명 annotator 기반 soft accuracy로 답변의 다양성과 모호성을 반영
  5. 연구 생태계 구축: VQA Challenge (연례 대회), evaluation server, 리더보드 운영

한계

  • 단답형 중심: 설명형(explanatory) 답변 평가 불가 → VQA-X, A-OKVQA 등에서 보완
  • COCO 도메인 제한: 일상 사진 중심, 의료/위성/과학 이미지 미포함
  • 포화 현상: SOTA 모델이 인간 수준 초과 → 변별력 저하
  • 문화적 편향: 영어 중심, 서양 문화 맥락의 이미지·질문

관련 연구


핵심 용어

용어정의
VQA (Visual Question Answering)이미지에 대한 자연어 질문에 자동으로 답변하는 과제
Complementary Pairs동일 질문에 다른 답변을 유도하는 유사 이미지 쌍
Language Bias / Prior이미지 정보 없이 질문 텍스트의 통계적 패턴만으로 답변 가능한 현상
Soft Accuracy10명 annotator 중 일치 비율 기반 연속적 정확도 (min(count/3, 1))
Visual Grounding답변 근거를 이미지의 특정 영역에 연결하는 능력
MS COCOMicrosoft Common Objects in Context — 대규모 이미지 인식·캡셔닝 데이터셋
test-dev / test-std개발용/공식 보고용 테스트 분할 (evaluation server 제출)

Benchmark VQA Multimodal VisualQA LanguageBias ComplementaryPairs COCO CVPR2017