TriviaQA: 대규모 Trivia 기반 독해 벤치마크

Digest: 기존 RC 벤치마크(SQuAD 등)는 crowdworker가 지문을 보고 질문을 만들어 질문-지문 간 어휘 중복이 높았다. TriviaQA는 trivia 애호가들이 독립적으로 작성한 95,000개 질문을 수집하고, 각 질문에 평균 6개의 증거 문서(Wikipedia + 웹)를 자동 매칭했다. 질문이 지문과 독립적으로 작성되었기에 어휘 중복이 적어 더 어렵고 현실적이다. 원격 감독(distant supervision) 방식으로 대규모 데이터를 저비용으로 구축했으며, 2017년 기준 최고 모델이 인간 대비 40%p 이상 낮았다.


메타데이터

항목내용
제목TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension
저자Mandar Joshi, Eunsol Choi, Daniel Weld, Luke Zettlemoyer
소속University of Washington / Allen Institute for AI
연도2017
발표ACL 2017, arXiv:1705.03551
링크arXiv, Dataset
키워드TriviaQA, distant supervision, reading comprehension, trivia

데이터셋 구성

규모 및 분할

Split질문 수증거 문서
Train77,582Wikipedia + Web
Dev8,837Wikipedia + Web
Test11,313Wikipedia + Web
합계~95k평균 6문서/질문

Feature/Column 구조

필드설명예시
Questiontrivia 질문”Who was the man behind The Chipmunks?”
Answer정답 (aliases 포함){"Value": "David Seville", "Aliases": ["Ross Bagdasarian"]}
SearchResults웹 검색 결과 문서Bing 검색 결과
EntityPagesWikipedia 엔티티 페이지Wikipedia article

실제 데이터 예시

예시 1

Question: "Which American-born Sinclair won the Nobel Prize
for Literature in 1930?"
Answer: Sinclair Lewis
Evidence: Wikipedia article on Sinclair Lewis

예시 2

Question: "What was the first_name of composer Handel?"
Answer: George Frideric
Evidence: Multiple web pages about Handel

방법 (Method)

graph TB
    A["Trivia 웹사이트에서<br/>95k 질문 수집"] --> B["정답 entity 추출"]
    B --> C["Bing 검색으로<br/>웹 증거 문서 매칭"]
    B --> D["Wikipedia에서<br/>관련 페이지 매칭"]
    C --> E["Distant Supervision:<br/>정답 포함 문장 자동 탐색"]
    D --> E
    E --> F["TriviaQA Dataset<br/>질문 + 답 + 증거문서"]

발견 (Findings)

주요 결과 (Wikipedia subset, EM/F1)

모델EMF1
Human79.782.3
BiDAF40.345.7
Neural baseline37.341.2

이후 발전

모델EMF1연도
BERT-Large68.172.12018
GPT-3 (64-shot)71.22020
PaLM 540B81.42022

핵심 발견

  1. 어휘 독립성: 질문과 지문의 어휘 중복이 SQuAD보다 훨씬 낮아 단순 매칭이 불가
  2. 다중 증거 문서: 여러 문서에서 답을 찾아야 하므로 cross-document reasoning 요구
  3. 대규모 저비용 구축: distant supervision으로 95k 규모를 낮은 비용으로 달성

관련 연구


핵심 용어 정리

용어정의
TriviaQATrivia 질문 기반 대규모 RC 벤치마크
Distant Supervision정답을 알고 있을 때 자동으로 증거를 매칭하는 방법
Cross-document Reasoning여러 문서의 정보를 종합하여 답을 추론

태그

paper #2017 benchmark QA TriviaQA distant_supervision reading_comprehension