SQuAD 2.0: 답변 불가능한 질문을 포함한 독해 벤치마크

Digest: Stanford QA Dataset(SQuAD)은 기계 독해의 사실상 표준 벤치마크였으나, SQuAD 1.1의 모든 질문에는 반드시 지문 내 답이 존재했다. 이로 인해 모델은 “아무 답이나 추출”하는 전략으로 높은 점수를 얻을 수 있었다. SQuAD 2.0은 기존 100k+ 답변 가능 질문에 53,775개의 답변 불가능(unanswerable) 질문을 추가하여, 모델이 “답이 있는지 없는지”를 먼저 판별해야 하는 현실적 설정을 만들었다. 답변 불가 질문은 crowdworker가 답변 가능 질문과 유사하되 지문으로는 답할 수 없게 설계했다. 최고 모델은 EM 66.3으로 인간(86.8) 대비 20점 이상 격차를 보였다(Table 4).


메타데이터

항목내용
제목Know What You Don’t Know: Unanswerable Questions for SQuAD
저자Pranav Rajpurkar, Robin Jia, Percy Liang
소속Stanford University
연도2018
발표ACL 2018, arXiv:1806.03822
링크arXiv, Leaderboard
키워드SQuAD, reading comprehension, unanswerable questions, extractive QA

데이터셋 구성

규모 및 분할

항목AnswerableUnanswerable전체
Train86,82143,498130,319
Dev5,9285,94511,873
전체~100k~53k~150k

Feature/Column 구조

필드설명예시
contextWikipedia 지문”Beyoncé Giselle Knowles-Carter…”
question질문”When did Beyoncé start becoming popular?”
answers정답 span (list)[{"text": "in the late 1990s", "answer_start": 269}]
is_impossible답변 불가 여부true / false
plausible_answers답변 불가 시 그럴듯한 오답[{"text": "1990", "answer_start": 0}]

실제 데이터 예시

예시 1: Answerable

Context: "The Normans were the people who in the 10th and 11th
centuries gave their name to Normandy..."
Question: "In what country is Normandy located?"
Answer: "France"

예시 2: Unanswerable

Context: "The Normans were the people who in the 10th and 11th
centuries gave their name to Normandy..."
Question: "Who gave their name to Normandy in the 9th century?"
Answer: (unanswerable — 본문은 10th/11th century이라고 함)

왜 이 연구를 하는가?

핵심 질문

모델이 답을 모를 때 “모른다”고 말할 수 있는가, 아니면 항상 무언가를 추출하는가?

기존 접근법의 한계

한계설명
항상 답이 존재SQuAD 1.1은 모든 질문에 답이 있어 “추출 전략”만으로 충분
과신 문제모델이 답이 없어도 높은 확신으로 오답을 추출
현실 괴리실제 QA에서는 답변 불가능한 질문이 빈번함

방법 (Method)

프레임워크 개요

graph TB
    A["SQuAD 1.1<br/>100k+ QA pairs"] --> B["Crowdworkers에게<br/>unanswerable 질문 작성 요청"]
    B --> C["답변 가능 질문과<br/>유사하되 답 없는 질문"]
    C --> D["검증: 다른 annotator가<br/>답변 불가 확인"]
    D --> E["SQuAD 2.0<br/>~150k QA pairs"]

    E --> F["모델 평가"]
    F --> G["답변 가능 질문: span 추출"]
    F --> H["답변 불가 질문: no-answer 반환"]

발견 (Findings)

주요 결과 (Dev set)

모델EMF1
Human86.889.5
BiDAF + Self Attention + ELMo66.369.6
DocQA + ELMo65.167.6
BiDAF Baseline59.262.1

(Table 4, 2018 기준)

이후 발전

모델EMF1연도
BERT-Large82.184.82018
XLNet87.990.72019
GPT-4~90+~92+2023

핵심 발견

  1. 인간-모델 격차: 최고 모델(66.3 EM)과 인간(86.8 EM) 간 20점 이상 격차 (Table 4)
  2. 답변 불가 질문의 어려움: 모델이 답변 불가 질문에서 특히 취약 — plausible answer를 자주 추출
  3. No-answer 판별: threshold 기반 no-answer 판별이 핵심 기술적 과제

이론적 의의

추출형 QA의 완성

SQuAD 2.0은 “답이 있으면 추출, 없으면 기각”이라는 추출형 QA의 완전한 프레임워크를 확립했다. 이후 BERT, XLNet 등 Pre-trained LM의 표준 평가 과제가 되었으며, 모델의 “무지 인식(epistemic humility)” 능력을 측정하는 최초의 대규모 벤치마크다.


관련 연구


핵심 용어 정리

용어정의
SQuADStanford Question Answering Dataset. 추출형 독해 벤치마크
Unanswerable Question주어진 지문으로는 답할 수 없는 질문
Extractive QA지문에서 답을 직접 추출하는 QA 방식
EM (Exact Match)예측과 정답이 정확히 일치하는 비율
Plausible Answer답변 불가 질문에 대해 그럴듯하지만 틀린 답

태그

paper #2018 benchmark reading_comprehension SQuAD unanswerable extractive_QA