QuAC: 대화형 QA 벤치마크

Digest: 기존 QA 벤치마크는 단일 질문-답변 쌍이었으나, 실제 정보 탐색은 대화를 통해 이루어진다. **QuAC(Question Answering in Context)**는 **학생(질문자)**과 교사(답변자) 간의 정보 비대칭 설정을 도입했다: 학생은 Wikipedia 섹션 제목만 보고 질문하고, 교사는 전체 텍스트를 보고 답한다. 14,000개 대화, 98,000개 QA 쌍으로 구성되며, 이전 대화 맥락을 활용한 후속 질문(follow-up), 답변 불가, 대화 흐름 이해가 핵심이다. 최고 모델 F1 60.1로 인간(74.6) 대비 큰 격차를 보였다.

메타데이터

항목	내용
제목	QuAC: Question Answering in Context
저자	Eunsol Choi, He He, Mohit Iyyer, Mark Yatskar, Wen-tau Yih, Yejin Choi, Percy Liang, Luke Zettlemoyer
소속	UW, NYU, UMass, AI2, Microsoft, Stanford
연도	2018
발표	EMNLP 2018, arXiv:1808.07036
링크	arXiv, Dataset
키워드	QuAC, conversational QA, information asymmetry, dialogue

데이터셋 구성

규모 및 분할

Split	대화 수	QA 쌍 수	평균 턴
Train	11,567	83,568	7.2
Dev	1,000	7,354	7.4
Test	1,002	7,353	7.3
합계	~14k	~98k	~7.2

Feature/Column 구조

필드	설명	예시
`context`	Wikipedia 섹션 텍스트	”Daffy Duck is an animated…”
`questions`	대화 내 질문 시퀀스	[“What is Daffy Duck?”, “When was he created?”, …]
`answers`	span 답변 시퀀스	[{“text”: “animated cartoon character”, …}]
`followup`	후속 질문 여부	`y` / `n` / `m` (maybe)
`yesno`	Yes/No 여부	`y` / `n` / `x` (neither)

실제 데이터 예시

대화 예시

[Teacher sees: Wikipedia article about Daffy Duck]
[Student sees only: "Daffy Duck - Early history"]

Student: "What is the early history of Daffy Duck?"
Teacher: "First appeared in Porky's Duck Hunt (1937)"

Student: "Who created him?"  (context-dependent)
Teacher: "Tex Avery and Bob Clampett"

Student: "Was he always popular?"  (follow-up)
Teacher: "CANNOTANSWER" (지문에 없음)

방법 (Method)

graph TB
    A["Wikipedia 인물/주제 섹션 선택"] --> B["학생-교사 쌍 배정"]
    B --> C["학생: 섹션 제목만 보고 질문"]
    B --> D["교사: 전체 텍스트 보고 답변"]
    C --> E["대화 진행<br/>(평균 7턴)"]
    D --> E
    E --> F["후속 질문 유형 태깅<br/>(follow-up/yes-no)"]
    F --> G["QuAC Dataset<br/>14k 대화, 98k QA 쌍"]

발견 (Findings)

주요 결과

모델	F1	HEQ-Q	HEQ-D
Human	74.6	100	100
BiDAF++ w/k-ctx	60.1	54.8	4.0
FlowQA	64.1	59.6	5.8

핵심 발견

대화 맥락 의존성: 60%+ 질문이 이전 대화 없이는 이해 불가 (co-reference, ellipsis)
정보 비대칭의 효과: 학생이 정보 없이 질문하므로 탐색적(exploratory) 질문 생성
답변 불가 빈도: ~20%가 CANNOTANSWER — 현실적 대화 반영

핵심 용어 정리

용어	정의
QuAC	Question Answering in Context. 대화형 QA 벤치마크
Information Asymmetry	질문자와 답변자의 정보 접근 수준 차이
HEQ-Q/D	Human Equivalence Score. 모델이 인간 수준에 도달한 질문/대화 비율
CANNOTANSWER	지문에서 답을 찾을 수 없을 때 반환하는 특수 토큰

Juhyeon's Blog

탐색기

QuAC - Question Answering in Context

QuAC: 대화형 QA 벤치마크

메타데이터

데이터셋 구성

규모 및 분할

Feature/Column 구조

실제 데이터 예시

대화 예시

방법 (Method)

발견 (Findings)

주요 결과

핵심 발견

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크