Digest: 기존 RC 벤치마크(SQuAD 등)는 crowdworker가 지문을 보고 질문을 만들어 질문-지문 간 어휘 중복이 높았다. TriviaQA는 trivia 애호가들이 독립적으로 작성한 95,000개 질문을 수집하고, 각 질문에 평균 6개의 증거 문서(Wikipedia + 웹)를 자동 매칭했다. 질문이 지문과 독립적으로 작성되었기에 어휘 중복이 적어 더 어렵고 현실적이다. 원격 감독(distant supervision) 방식으로 대규모 데이터를 저비용으로 구축했으며, 2017년 기준 최고 모델이 인간 대비 40%p 이상 낮았다.
메타데이터
항목
내용
제목
TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension
저자
Mandar Joshi, Eunsol Choi, Daniel Weld, Luke Zettlemoyer
Question: "Which American-born Sinclair won the Nobel Prize
for Literature in 1930?"
Answer: Sinclair Lewis
Evidence: Wikipedia article on Sinclair Lewis
예시 2
Question: "What was the first_name of composer Handel?"
Answer: George Frideric
Evidence: Multiple web pages about Handel
방법 (Method)
graph TB
A["Trivia 웹사이트에서<br/>95k 질문 수집"] --> B["정답 entity 추출"]
B --> C["Bing 검색으로<br/>웹 증거 문서 매칭"]
B --> D["Wikipedia에서<br/>관련 페이지 매칭"]
C --> E["Distant Supervision:<br/>정답 포함 문장 자동 탐색"]
D --> E
E --> F["TriviaQA Dataset<br/>질문 + 답 + 증거문서"]
발견 (Findings)
주요 결과 (Wikipedia subset, EM/F1)
모델
EM
F1
Human
79.7
82.3
BiDAF
40.3
45.7
Neural baseline
37.3
41.2
이후 발전
모델
EM
F1
연도
BERT-Large
68.1
72.1
2018
GPT-3 (64-shot)
71.2
—
2020
PaLM 540B
81.4
—
2022
핵심 발견
어휘 독립성: 질문과 지문의 어휘 중복이 SQuAD보다 훨씬 낮아 단순 매칭이 불가
다중 증거 문서: 여러 문서에서 답을 찾아야 하므로 cross-document reasoning 요구
대규모 저비용 구축: distant supervision으로 95k 규모를 낮은 비용으로 달성