Natural Questions: Google 검색 기반 실제 QA 벤치마크

Digest: 기존 QA 벤치마크의 질문은 연구자가 인위적으로 만든 것이었다. Google은 실제 Google 검색에서 나온 질문을 수집하고, Wikipedia 페이지에서 annotator가 **장문 답변(long answer)**과 **단문 답변(short answer)**을 표시하는 이중 평가 체계를 도입했다. 307,373개 학습 예시와 7,842개 검증 예시로 구성되며, 답변이 없는 경우도 포함한다. 핵심 통찰은 실제 사용자의 정보 요구(information need)를 반영하는 질문이 인위적 질문보다 훨씬 다양하고 어렵다는 것이다. BERT 기준 장문 답변 F1 64.7, 단문 F1 52.7로 인간(약 80 F1)과 상당한 격차를 보였다.


메타데이터

항목내용
제목Natural Questions: A Benchmark for Question Answering Research
저자Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, Kristina Toutanova, Llion Jones, Matthew Kelcey, Ming-Wei Chang, Andrew M. Dai, Jakob Uszkoreit, Quoc Le, Slav Petrov
소속Google Research
연도2019
발표TACL 2019
링크Paper, Dataset
키워드Natural Questions, open-domain QA, Google search, long answer, short answer

데이터셋 구성

규모 및 분할

Split예시 수특징
Train307,373단일 annotator
Dev7,8425-way annotation
Test7,8425-way annotation

Feature/Column 구조

필드설명예시
question_textGoogle 검색 질문”who is the girl inerta ale video”
document_urlWikipedia 페이지 URLhttps://en.wikipedia.org/wiki/...
long_answer장문 답변 (단락/표/리스트){"start_byte": 1024, "end_byte": 2048}
short_answer단문 답변 (entity/span){"start_token": 45, "end_token": 48}
yes_no_answerYes/No 답변YES / NO / NONE

답변 유형 분포

유형비율
Long + Short answer~36%
Long answer only~20%
No answer~44%

실제 데이터 예시

예시 1: Short + Long Answer

Question: "who sings you are the wind beneath my wings"
Long Answer: (Wikipedia 'Wind Beneath My Wings' 문단)
Short Answer: "Bette Midler"

예시 2: No Answer

Question: "what is the meaning of life"
Long Answer: NULL (Wikipedia에 명확한 답이 없음)
Short Answer: NULL

방법 (Method)

graph TB
    A["Google 검색 로그에서<br/>실제 질문 수집"] --> B["질문별 Wikipedia 페이지 매칭"]
    B --> C["Annotator가 답변 표시"]
    C --> D["Long Answer<br/>(관련 단락/표)"]
    C --> E["Short Answer<br/>(구체적 entity)"]
    C --> F["No Answer<br/>(답 없음)"]
    D --> G["품질 검증<br/>5-way annotation (dev/test)"]
    E --> G
    F --> G

발견 (Findings)

주요 결과

모델Long Answer F1Short Answer F1
Human~80~76
BERT (joint)64.752.7
DecAtt + DocReader54.831.4
DocumentQA48.923.6

핵심 발견

  1. 실제 질문의 다양성: Google 검색 질문은 인위적 질문보다 유형이 훨씬 다양
  2. 답변 없음 비율: 44%가 답변 불가 — 실제 QA의 현실 반영
  3. 장문/단문 격차: 장문 답변 찾기가 단문보다 쉬움 — 범위를 좁히는 것이 어려움

관련 연구


핵심 용어 정리

용어정의
Natural QuestionsGoogle 검색 기반 실제 질문 QA 벤치마크
Long Answer질문에 대한 답을 포함하는 문단/표/리스트
Short AnswerLong answer 내의 구체적 entity나 span
Open-Domain QA특정 지문 없이 전체 지식 기반에서 답을 찾는 QA

태그

paper #2019 benchmark QA open_domain NaturalQuestions Google