QuAC: 대화형 QA 벤치마크

Digest: 기존 QA 벤치마크는 단일 질문-답변 쌍이었으나, 실제 정보 탐색은 대화를 통해 이루어진다. **QuAC(Question Answering in Context)**는 **학생(질문자)**과 교사(답변자) 간의 정보 비대칭 설정을 도입했다: 학생은 Wikipedia 섹션 제목만 보고 질문하고, 교사는 전체 텍스트를 보고 답한다. 14,000개 대화, 98,000개 QA 쌍으로 구성되며, 이전 대화 맥락을 활용한 후속 질문(follow-up), 답변 불가, 대화 흐름 이해가 핵심이다. 최고 모델 F1 60.1로 인간(74.6) 대비 큰 격차를 보였다.


메타데이터

항목내용
제목QuAC: Question Answering in Context
저자Eunsol Choi, He He, Mohit Iyyer, Mark Yatskar, Wen-tau Yih, Yejin Choi, Percy Liang, Luke Zettlemoyer
소속UW, NYU, UMass, AI2, Microsoft, Stanford
연도2018
발표EMNLP 2018, arXiv:1808.07036
링크arXiv, Dataset
키워드QuAC, conversational QA, information asymmetry, dialogue

데이터셋 구성

규모 및 분할

Split대화 수QA 쌍 수평균 턴
Train11,56783,5687.2
Dev1,0007,3547.4
Test1,0027,3537.3
합계~14k~98k~7.2

Feature/Column 구조

필드설명예시
contextWikipedia 섹션 텍스트”Daffy Duck is an animated…”
questions대화 내 질문 시퀀스[“What is Daffy Duck?”, “When was he created?”, …]
answersspan 답변 시퀀스[{“text”: “animated cartoon character”, …}]
followup후속 질문 여부y / n / m (maybe)
yesnoYes/No 여부y / n / x (neither)

실제 데이터 예시

대화 예시

[Teacher sees: Wikipedia article about Daffy Duck]
[Student sees only: "Daffy Duck - Early history"]

Student: "What is the early history of Daffy Duck?"
Teacher: "First appeared in Porky's Duck Hunt (1937)"

Student: "Who created him?"  (context-dependent)
Teacher: "Tex Avery and Bob Clampett"

Student: "Was he always popular?"  (follow-up)
Teacher: "CANNOTANSWER" (지문에 없음)

방법 (Method)

graph TB
    A["Wikipedia 인물/주제 섹션 선택"] --> B["학생-교사 쌍 배정"]
    B --> C["학생: 섹션 제목만 보고 질문"]
    B --> D["교사: 전체 텍스트 보고 답변"]
    C --> E["대화 진행<br/>(평균 7턴)"]
    D --> E
    E --> F["후속 질문 유형 태깅<br/>(follow-up/yes-no)"]
    F --> G["QuAC Dataset<br/>14k 대화, 98k QA 쌍"]

발견 (Findings)

주요 결과

모델F1HEQ-QHEQ-D
Human74.6100100
BiDAF++ w/k-ctx60.154.84.0
FlowQA64.159.65.8

핵심 발견

  1. 대화 맥락 의존성: 60%+ 질문이 이전 대화 없이는 이해 불가 (co-reference, ellipsis)
  2. 정보 비대칭의 효과: 학생이 정보 없이 질문하므로 탐색적(exploratory) 질문 생성
  3. 답변 불가 빈도: ~20%가 CANNOTANSWER — 현실적 대화 반영

관련 연구


핵심 용어 정리

용어정의
QuACQuestion Answering in Context. 대화형 QA 벤치마크
Information Asymmetry질문자와 답변자의 정보 접근 수준 차이
HEQ-Q/DHuman Equivalence Score. 모델이 인간 수준에 도달한 질문/대화 비율
CANNOTANSWER지문에서 답을 찾을 수 없을 때 반환하는 특수 토큰

태그

paper #2018 benchmark conversational_QA QuAC dialogue information_asymmetry