Digest: 기존 QA 벤치마크의 질문은 연구자가 인위적으로 만든 것이었다. Google은 실제 Google 검색에서 나온 질문을 수집하고, Wikipedia 페이지에서 annotator가 **장문 답변(long answer)**과 **단문 답변(short answer)**을 표시하는 이중 평가 체계를 도입했다. 307,373개 학습 예시와 7,842개 검증 예시로 구성되며, 답변이 없는 경우도 포함한다. 핵심 통찰은 실제 사용자의 정보 요구(information need)를 반영하는 질문이 인위적 질문보다 훨씬 다양하고 어렵다는 것이다. BERT 기준 장문 답변 F1 64.7, 단문 F1 52.7로 인간(약 80 F1)과 상당한 격차를 보였다.
메타데이터
항목
내용
제목
Natural Questions: A Benchmark for Question Answering Research
저자
Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, Kristina Toutanova, Llion Jones, Matthew Kelcey, Ming-Wei Chang, Andrew M. Dai, Jakob Uszkoreit, Quoc Le, Slav Petrov
Natural Questions, open-domain QA, Google search, long answer, short answer
데이터셋 구성
규모 및 분할
Split
예시 수
특징
Train
307,373
단일 annotator
Dev
7,842
5-way annotation
Test
7,842
5-way annotation
Feature/Column 구조
필드
설명
예시
question_text
Google 검색 질문
”who is the girl inerta ale video”
document_url
Wikipedia 페이지 URL
https://en.wikipedia.org/wiki/...
long_answer
장문 답변 (단락/표/리스트)
{"start_byte": 1024, "end_byte": 2048}
short_answer
단문 답변 (entity/span)
{"start_token": 45, "end_token": 48}
yes_no_answer
Yes/No 답변
YES / NO / NONE
답변 유형 분포
유형
비율
Long + Short answer
~36%
Long answer only
~20%
No answer
~44%
실제 데이터 예시
예시 1: Short + Long Answer
Question: "who sings you are the wind beneath my wings"
Long Answer: (Wikipedia 'Wind Beneath My Wings' 문단)
Short Answer: "Bette Midler"
예시 2: No Answer
Question: "what is the meaning of life"
Long Answer: NULL (Wikipedia에 명확한 답이 없음)
Short Answer: NULL
방법 (Method)
graph TB
A["Google 검색 로그에서<br/>실제 질문 수집"] --> B["질문별 Wikipedia 페이지 매칭"]
B --> C["Annotator가 답변 표시"]
C --> D["Long Answer<br/>(관련 단락/표)"]
C --> E["Short Answer<br/>(구체적 entity)"]
C --> F["No Answer<br/>(답 없음)"]
D --> G["품질 검증<br/>5-way annotation (dev/test)"]
E --> G
F --> G