BoolQ: Yes/No 질의응답 벤치마크

Digest: 대부분의 QA 벤치마크가 span 추출이나 선다형에 집중하는 반면, 실제 사용자 질문의 상당수는 Yes/No로 답할 수 있는 질문이다. BoolQ는 Google 검색에서 자연 발생한 15,942개 Yes/No 질문을 수집하고 Wikipedia 지문과 매칭했다. 질문이 검색 맥락에서 자연스럽게 나왔기에, 단순 키워드 매칭으로는 풀기 어려운 추론이 필요한 질문이 많다. BERT 기준 정확도 77.4%, 인간 90% 대비 격차가 있었으며, SuperGLUE의 핵심 과제로 채택되었다.

메타데이터

항목	내용
제목	BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions
저자	Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins, Kristina Toutanova
소속	Google Research
연도	2019
발표	NAACL 2019, arXiv:1905.10044
링크	arXiv, SuperGLUE
키워드	BoolQ, yes/no QA, boolean, SuperGLUE

데이터셋 구성

규모 및 분할

Split	예시 수
Train	9,427
Dev	3,270
Test	3,245
합계	15,942

Feature/Column 구조

필드	설명	예시
`question`	Yes/No 질문	”is windows movie maker part of windows 10”
`passage`	Wikipedia 지문	”Windows Movie Maker was…”
`answer`	True/False	`true`

Yes/No 분포

답변	비율
Yes (True)	~62%
No (False)	~38%

실제 데이터 예시

예시 1

Question: "do iran and afghanistan speak the same language"
Passage: "Persian language... is spoken in Iran, Afghanistan..."
Answer: Yes (다리어/파르시어 공유)

예시 2

Question: "is harry potter and the deathly hallows part 2 the
last movie"
Passage: "Harry Potter and the Deathly Hallows – Part 2 is
a 2011 fantasy film..."
Answer: Yes

예시 3 (추론 필요)

Question: "can you use a+b blood to receive a+b blood"
Passage: "Blood type AB... universal recipient..."
Answer: Yes (하지만 직접적 언급이 아닌 추론 필요)

방법 (Method)

graph TB
    A["Google 검색 로그"] --> B["Yes/No로 답할 수 있는<br/>질문 필터링"]
    B --> C["Wikipedia 지문 매칭"]
    C --> D["Annotator가<br/>Yes/No 답변 표시"]
    D --> E["품질 검증<br/>(inter-annotator agreement)"]
    E --> F["BoolQ Dataset<br/>15,942 QA pairs"]

발견 (Findings)

주요 결과 (Dev set)

모델	정확도
Human	90.0%
BERT-Large	77.4%
Majority baseline	62.2%
FastText	65.5%

이후 발전

모델	정확도	연도
GPT-3 (few-shot)	~60-76%	2020
Llama 2 70B	~85%	2023
GPT-4	~92%+	2023

핵심 발견

의외의 난이도: 단순해 보이는 Yes/No 질문도 복잡한 추론을 요구 — majority baseline(62%) 대비 큰 격차
자연 발생 질문의 특성: 검색 맥락에서 나온 질문은 인위적 질문보다 다양하고 어려움
SuperGLUE 핵심 과제: 8개 NLU 과제 중 하나로 채택, LLM 평가의 표준 구성요소

핵심 용어 정리

용어	정의
BoolQ	Boolean Questions. 자연 발생 Yes/No QA 벤치마크
SuperGLUE	BoolQ를 포함하는 NLU 종합 벤치마크
Natural Yes/No	인위적이 아닌 실제 검색에서 나온 Yes/No 질문

Juhyeon's Blog

탐색기

BoolQ - Exploring the Surprising Difficulty of Natural Yes-No Questions

BoolQ: Yes/No 질의응답 벤치마크

메타데이터

데이터셋 구성

규모 및 분할

Feature/Column 구조

Yes/No 분포

실제 데이터 예시

예시 1

예시 2

예시 3 (추론 필요)

방법 (Method)

발견 (Findings)

주요 결과 (Dev set)

이후 발전

핵심 발견

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크