Digest: 기존 QA 벤치마크는 단일 질문-답변 쌍이었으나, 실제 정보 탐색은 대화를 통해 이루어진다. **QuAC(Question Answering in Context)**는 **학생(질문자)**과 교사(답변자) 간의 정보 비대칭 설정을 도입했다: 학생은 Wikipedia 섹션 제목만 보고 질문하고, 교사는 전체 텍스트를 보고 답한다. 14,000개 대화, 98,000개 QA 쌍으로 구성되며, 이전 대화 맥락을 활용한 후속 질문(follow-up), 답변 불가, 대화 흐름 이해가 핵심이다. 최고 모델 F1 60.1로 인간(74.6) 대비 큰 격차를 보였다.
메타데이터
항목
내용
제목
QuAC: Question Answering in Context
저자
Eunsol Choi, He He, Mohit Iyyer, Mark Yatskar, Wen-tau Yih, Yejin Choi, Percy Liang, Luke Zettlemoyer
QuAC, conversational QA, information asymmetry, dialogue
데이터셋 구성
규모 및 분할
Split
대화 수
QA 쌍 수
평균 턴
Train
11,567
83,568
7.2
Dev
1,000
7,354
7.4
Test
1,002
7,353
7.3
합계
~14k
~98k
~7.2
Feature/Column 구조
필드
설명
예시
context
Wikipedia 섹션 텍스트
”Daffy Duck is an animated…”
questions
대화 내 질문 시퀀스
[“What is Daffy Duck?”, “When was he created?”, …]
answers
span 답변 시퀀스
[{“text”: “animated cartoon character”, …}]
followup
후속 질문 여부
y / n / m (maybe)
yesno
Yes/No 여부
y / n / x (neither)
실제 데이터 예시
대화 예시
[Teacher sees: Wikipedia article about Daffy Duck]
[Student sees only: "Daffy Duck - Early history"]
Student: "What is the early history of Daffy Duck?"
Teacher: "First appeared in Porky's Duck Hunt (1937)"
Student: "Who created him?" (context-dependent)
Teacher: "Tex Avery and Bob Clampett"
Student: "Was he always popular?" (follow-up)
Teacher: "CANNOTANSWER" (지문에 없음)
방법 (Method)
graph TB
A["Wikipedia 인물/주제 섹션 선택"] --> B["학생-교사 쌍 배정"]
B --> C["학생: 섹션 제목만 보고 질문"]
B --> D["교사: 전체 텍스트 보고 답변"]
C --> E["대화 진행<br/>(평균 7턴)"]
D --> E
E --> F["후속 질문 유형 태깅<br/>(follow-up/yes-no)"]
F --> G["QuAC Dataset<br/>14k 대화, 98k QA 쌍"]
발견 (Findings)
주요 결과
모델
F1
HEQ-Q
HEQ-D
Human
74.6
100
100
BiDAF++ w/k-ctx
60.1
54.8
4.0
FlowQA
64.1
59.6
5.8
핵심 발견
대화 맥락 의존성: 60%+ 질문이 이전 대화 없이는 이해 불가 (co-reference, ellipsis)
정보 비대칭의 효과: 학생이 정보 없이 질문하므로 탐색적(exploratory) 질문 생성