BoolQ: Yes/No 질의응답 벤치마크

Digest: 대부분의 QA 벤치마크가 span 추출이나 선다형에 집중하는 반면, 실제 사용자 질문의 상당수는 Yes/No로 답할 수 있는 질문이다. BoolQ는 Google 검색에서 자연 발생한 15,942개 Yes/No 질문을 수집하고 Wikipedia 지문과 매칭했다. 질문이 검색 맥락에서 자연스럽게 나왔기에, 단순 키워드 매칭으로는 풀기 어려운 추론이 필요한 질문이 많다. BERT 기준 정확도 77.4%, 인간 90% 대비 격차가 있었으며, SuperGLUE의 핵심 과제로 채택되었다.


메타데이터

항목내용
제목BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions
저자Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins, Kristina Toutanova
소속Google Research
연도2019
발표NAACL 2019, arXiv:1905.10044
링크arXiv, SuperGLUE
키워드BoolQ, yes/no QA, boolean, SuperGLUE

데이터셋 구성

규모 및 분할

Split예시 수
Train9,427
Dev3,270
Test3,245
합계15,942

Feature/Column 구조

필드설명예시
questionYes/No 질문”is windows movie maker part of windows 10”
passageWikipedia 지문”Windows Movie Maker was…”
answerTrue/Falsetrue

Yes/No 분포

답변비율
Yes (True)~62%
No (False)~38%

실제 데이터 예시

예시 1

Question: "do iran and afghanistan speak the same language"
Passage: "Persian language... is spoken in Iran, Afghanistan..."
Answer: Yes (다리어/파르시어 공유)

예시 2

Question: "is harry potter and the deathly hallows part 2 the
last movie"
Passage: "Harry Potter and the Deathly Hallows – Part 2 is
a 2011 fantasy film..."
Answer: Yes

예시 3 (추론 필요)

Question: "can you use a+b blood to receive a+b blood"
Passage: "Blood type AB... universal recipient..."
Answer: Yes (하지만 직접적 언급이 아닌 추론 필요)

방법 (Method)

graph TB
    A["Google 검색 로그"] --> B["Yes/No로 답할 수 있는<br/>질문 필터링"]
    B --> C["Wikipedia 지문 매칭"]
    C --> D["Annotator가<br/>Yes/No 답변 표시"]
    D --> E["품질 검증<br/>(inter-annotator agreement)"]
    E --> F["BoolQ Dataset<br/>15,942 QA pairs"]

발견 (Findings)

주요 결과 (Dev set)

모델정확도
Human90.0%
BERT-Large77.4%
Majority baseline62.2%
FastText65.5%

이후 발전

모델정확도연도
GPT-3 (few-shot)~60-76%2020
Llama 2 70B~85%2023
GPT-4~92%+2023

핵심 발견

  1. 의외의 난이도: 단순해 보이는 Yes/No 질문도 복잡한 추론을 요구 — majority baseline(62%) 대비 큰 격차
  2. 자연 발생 질문의 특성: 검색 맥락에서 나온 질문은 인위적 질문보다 다양하고 어려움
  3. SuperGLUE 핵심 과제: 8개 NLU 과제 중 하나로 채택, LLM 평가의 표준 구성요소

관련 연구


핵심 용어 정리

용어정의
BoolQBoolean Questions. 자연 발생 Yes/No QA 벤치마크
SuperGLUEBoolQ를 포함하는 NLU 종합 벤치마크
Natural Yes/No인위적이 아닌 실제 검색에서 나온 Yes/No 질문

태그

paper #2019 benchmark yes_no_QA BoolQ SuperGLUE Google