Digest: 대부분의 QA 벤치마크가 span 추출이나 선다형에 집중하는 반면, 실제 사용자 질문의 상당수는 Yes/No로 답할 수 있는 질문이다. BoolQ는 Google 검색에서 자연 발생한 15,942개 Yes/No 질문을 수집하고 Wikipedia 지문과 매칭했다. 질문이 검색 맥락에서 자연스럽게 나왔기에, 단순 키워드 매칭으로는 풀기 어려운 추론이 필요한 질문이 많다. BERT 기준 정확도 77.4%, 인간 90% 대비 격차가 있었으며, SuperGLUE의 핵심 과제로 채택되었다.
메타데이터
항목
내용
제목
BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions
저자
Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins, Kristina Toutanova
Question: "do iran and afghanistan speak the same language"
Passage: "Persian language... is spoken in Iran, Afghanistan..."
Answer: Yes (다리어/파르시어 공유)
예시 2
Question: "is harry potter and the deathly hallows part 2 the
last movie"
Passage: "Harry Potter and the Deathly Hallows – Part 2 is
a 2011 fantasy film..."
Answer: Yes
예시 3 (추론 필요)
Question: "can you use a+b blood to receive a+b blood"
Passage: "Blood type AB... universal recipient..."
Answer: Yes (하지만 직접적 언급이 아닌 추론 필요)
방법 (Method)
graph TB
A["Google 검색 로그"] --> B["Yes/No로 답할 수 있는<br/>질문 필터링"]
B --> C["Wikipedia 지문 매칭"]
C --> D["Annotator가<br/>Yes/No 답변 표시"]
D --> E["품질 검증<br/>(inter-annotator agreement)"]
E --> F["BoolQ Dataset<br/>15,942 QA pairs"]
발견 (Findings)
주요 결과 (Dev set)
모델
정확도
Human
90.0%
BERT-Large
77.4%
Majority baseline
62.2%
FastText
65.5%
이후 발전
모델
정확도
연도
GPT-3 (few-shot)
~60-76%
2020
Llama 2 70B
~85%
2023
GPT-4
~92%+
2023
핵심 발견
의외의 난이도: 단순해 보이는 Yes/No 질문도 복잡한 추론을 요구 — majority baseline(62%) 대비 큰 격차
자연 발생 질문의 특성: 검색 맥락에서 나온 질문은 인위적 질문보다 다양하고 어려움
SuperGLUE 핵심 과제: 8개 NLU 과제 중 하나로 채택, LLM 평가의 표준 구성요소