TriviaQA: 대규모 Trivia 기반 독해 벤치마크

Digest: 기존 RC 벤치마크(SQuAD 등)는 crowdworker가 지문을 보고 질문을 만들어 질문-지문 간 어휘 중복이 높았다. TriviaQA는 trivia 애호가들이 독립적으로 작성한 95,000개 질문을 수집하고, 각 질문에 평균 6개의 증거 문서(Wikipedia + 웹)를 자동 매칭했다. 질문이 지문과 독립적으로 작성되었기에 어휘 중복이 적어 더 어렵고 현실적이다. 원격 감독(distant supervision) 방식으로 대규모 데이터를 저비용으로 구축했으며, 2017년 기준 최고 모델이 인간 대비 40%p 이상 낮았다.

메타데이터

항목	내용
제목	TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension
저자	Mandar Joshi, Eunsol Choi, Daniel Weld, Luke Zettlemoyer
소속	University of Washington / Allen Institute for AI
연도	2017
발표	ACL 2017, arXiv:1705.03551
링크	arXiv, Dataset
키워드	TriviaQA, distant supervision, reading comprehension, trivia

데이터셋 구성

규모 및 분할

Split	질문 수	증거 문서
Train	77,582	Wikipedia + Web
Dev	8,837	Wikipedia + Web
Test	11,313	Wikipedia + Web
합계	~95k	평균 6문서/질문

Feature/Column 구조

필드	설명	예시
`Question`	trivia 질문	”Who was the man behind The Chipmunks?”
`Answer`	정답 (aliases 포함)	`{"Value": "David Seville", "Aliases": ["Ross Bagdasarian"]}`
`SearchResults`	웹 검색 결과 문서	Bing 검색 결과
`EntityPages`	Wikipedia 엔티티 페이지	Wikipedia article

실제 데이터 예시

예시 1

Question: "Which American-born Sinclair won the Nobel Prize
for Literature in 1930?"
Answer: Sinclair Lewis
Evidence: Wikipedia article on Sinclair Lewis

예시 2

Question: "What was the first_name of composer Handel?"
Answer: George Frideric
Evidence: Multiple web pages about Handel

방법 (Method)

graph TB
    A["Trivia 웹사이트에서<br/>95k 질문 수집"] --> B["정답 entity 추출"]
    B --> C["Bing 검색으로<br/>웹 증거 문서 매칭"]
    B --> D["Wikipedia에서<br/>관련 페이지 매칭"]
    C --> E["Distant Supervision:<br/>정답 포함 문장 자동 탐색"]
    D --> E
    E --> F["TriviaQA Dataset<br/>질문 + 답 + 증거문서"]

발견 (Findings)

주요 결과 (Wikipedia subset, EM/F1)

모델	EM	F1
Human	79.7	82.3
BiDAF	40.3	45.7
Neural baseline	37.3	41.2

이후 발전

모델	EM	F1	연도
BERT-Large	68.1	72.1	2018
GPT-3 (64-shot)	71.2	—	2020
PaLM 540B	81.4	—	2022

핵심 발견

어휘 독립성: 질문과 지문의 어휘 중복이 SQuAD보다 훨씬 낮아 단순 매칭이 불가
다중 증거 문서: 여러 문서에서 답을 찾아야 하므로 cross-document reasoning 요구
대규모 저비용 구축: distant supervision으로 95k 규모를 낮은 비용으로 달성

핵심 용어 정리

용어	정의
TriviaQA	Trivia 질문 기반 대규모 RC 벤치마크
Distant Supervision	정답을 알고 있을 때 자동으로 증거를 매칭하는 방법
Cross-document Reasoning	여러 문서의 정보를 종합하여 답을 추론

Juhyeon's Blog

탐색기

TriviaQA - A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension

TriviaQA: 대규모 Trivia 기반 독해 벤치마크

메타데이터

데이터셋 구성

규모 및 분할

Feature/Column 구조

실제 데이터 예시

예시 1

예시 2

방법 (Method)

발견 (Findings)

주요 결과 (Wikipedia subset, EM/F1)

이후 발전

핵심 발견

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크