Natural Questions: Google 검색 기반 실제 QA 벤치마크

Digest: 기존 QA 벤치마크의 질문은 연구자가 인위적으로 만든 것이었다. Google은 실제 Google 검색에서 나온 질문을 수집하고, Wikipedia 페이지에서 annotator가 **장문 답변(long answer)**과 **단문 답변(short answer)**을 표시하는 이중 평가 체계를 도입했다. 307,373개 학습 예시와 7,842개 검증 예시로 구성되며, 답변이 없는 경우도 포함한다. 핵심 통찰은 실제 사용자의 정보 요구(information need)를 반영하는 질문이 인위적 질문보다 훨씬 다양하고 어렵다는 것이다. BERT 기준 장문 답변 F1 64.7, 단문 F1 52.7로 인간(약 80 F1)과 상당한 격차를 보였다.

메타데이터

항목	내용
제목	Natural Questions: A Benchmark for Question Answering Research
저자	Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, Kristina Toutanova, Llion Jones, Matthew Kelcey, Ming-Wei Chang, Andrew M. Dai, Jakob Uszkoreit, Quoc Le, Slav Petrov
소속	Google Research
연도	2019
발표	TACL 2019
링크	Paper, Dataset
키워드	Natural Questions, open-domain QA, Google search, long answer, short answer

데이터셋 구성

규모 및 분할

Split	예시 수	특징
Train	307,373	단일 annotator
Dev	7,842	5-way annotation
Test	7,842	5-way annotation

Feature/Column 구조

필드	설명	예시
`question_text`	Google 검색 질문	”who is the girl inerta ale video”
`document_url`	Wikipedia 페이지 URL	`https://en.wikipedia.org/wiki/...`
`long_answer`	장문 답변 (단락/표/리스트)	`{"start_byte": 1024, "end_byte": 2048}`
`short_answer`	단문 답변 (entity/span)	`{"start_token": 45, "end_token": 48}`
`yes_no_answer`	Yes/No 답변	`YES` / `NO` / `NONE`

답변 유형 분포

유형	비율
Long + Short answer	~36%
Long answer only	~20%
No answer	~44%

실제 데이터 예시

예시 1: Short + Long Answer

Question: "who sings you are the wind beneath my wings"
Long Answer: (Wikipedia 'Wind Beneath My Wings' 문단)
Short Answer: "Bette Midler"

예시 2: No Answer

Question: "what is the meaning of life"
Long Answer: NULL (Wikipedia에 명확한 답이 없음)
Short Answer: NULL

방법 (Method)

graph TB
    A["Google 검색 로그에서<br/>실제 질문 수집"] --> B["질문별 Wikipedia 페이지 매칭"]
    B --> C["Annotator가 답변 표시"]
    C --> D["Long Answer<br/>(관련 단락/표)"]
    C --> E["Short Answer<br/>(구체적 entity)"]
    C --> F["No Answer<br/>(답 없음)"]
    D --> G["품질 검증<br/>5-way annotation (dev/test)"]
    E --> G
    F --> G

발견 (Findings)

주요 결과

모델	Long Answer F1	Short Answer F1
Human	~80	~76
BERT (joint)	64.7	52.7
DecAtt + DocReader	54.8	31.4
DocumentQA	48.9	23.6

핵심 발견

실제 질문의 다양성: Google 검색 질문은 인위적 질문보다 유형이 훨씬 다양
답변 없음 비율: 44%가 답변 불가 — 실제 QA의 현실 반영
장문/단문 격차: 장문 답변 찾기가 단문보다 쉬움 — 범위를 좁히는 것이 어려움

핵심 용어 정리

용어	정의
Natural Questions	Google 검색 기반 실제 질문 QA 벤치마크
Long Answer	질문에 대한 답을 포함하는 문단/표/리스트
Short Answer	Long answer 내의 구체적 entity나 span
Open-Domain QA	특정 지문 없이 전체 지식 기반에서 답을 찾는 QA

Juhyeon's Blog

탐색기

Natural Questions - A Benchmark for Question Answering Research

Natural Questions: Google 검색 기반 실제 QA 벤치마크

메타데이터

데이터셋 구성

규모 및 분할

Feature/Column 구조

답변 유형 분포

실제 데이터 예시

예시 1: Short + Long Answer

예시 2: No Answer

방법 (Method)

발견 (Findings)

주요 결과

핵심 발견

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크