Digest: Stanford QA Dataset(SQuAD)은 기계 독해의 사실상 표준 벤치마크였으나, SQuAD 1.1의 모든 질문에는 반드시 지문 내 답이 존재했다. 이로 인해 모델은 “아무 답이나 추출”하는 전략으로 높은 점수를 얻을 수 있었다. SQuAD 2.0은 기존 100k+ 답변 가능 질문에 53,775개의 답변 불가능(unanswerable) 질문을 추가하여, 모델이 “답이 있는지 없는지”를 먼저 판별해야 하는 현실적 설정을 만들었다. 답변 불가 질문은 crowdworker가 답변 가능 질문과 유사하되 지문으로는 답할 수 없게 설계했다. 최고 모델은 EM 66.3으로 인간(86.8) 대비 20점 이상 격차를 보였다(Table 4).
메타데이터
항목
내용
제목
Know What You Don’t Know: Unanswerable Questions for SQuAD
[{"text": "in the late 1990s", "answer_start": 269}]
is_impossible
답변 불가 여부
true / false
plausible_answers
답변 불가 시 그럴듯한 오답
[{"text": "1990", "answer_start": 0}]
실제 데이터 예시
예시 1: Answerable
Context: "The Normans were the people who in the 10th and 11th
centuries gave their name to Normandy..."
Question: "In what country is Normandy located?"
Answer: "France"
예시 2: Unanswerable
Context: "The Normans were the people who in the 10th and 11th
centuries gave their name to Normandy..."
Question: "Who gave their name to Normandy in the 9th century?"
Answer: (unanswerable — 본문은 10th/11th century이라고 함)
왜 이 연구를 하는가?
핵심 질문
모델이 답을 모를 때 “모른다”고 말할 수 있는가, 아니면 항상 무언가를 추출하는가?
기존 접근법의 한계
한계
설명
항상 답이 존재
SQuAD 1.1은 모든 질문에 답이 있어 “추출 전략”만으로 충분
과신 문제
모델이 답이 없어도 높은 확신으로 오답을 추출
현실 괴리
실제 QA에서는 답변 불가능한 질문이 빈번함
방법 (Method)
프레임워크 개요
graph TB
A["SQuAD 1.1<br/>100k+ QA pairs"] --> B["Crowdworkers에게<br/>unanswerable 질문 작성 요청"]
B --> C["답변 가능 질문과<br/>유사하되 답 없는 질문"]
C --> D["검증: 다른 annotator가<br/>답변 불가 확인"]
D --> E["SQuAD 2.0<br/>~150k QA pairs"]
E --> F["모델 평가"]
F --> G["답변 가능 질문: span 추출"]
F --> H["답변 불가 질문: no-answer 반환"]
발견 (Findings)
주요 결과 (Dev set)
모델
EM
F1
Human
86.8
89.5
BiDAF + Self Attention + ELMo
66.3
69.6
DocQA + ELMo
65.1
67.6
BiDAF Baseline
59.2
62.1
(Table 4, 2018 기준)
이후 발전
모델
EM
F1
연도
BERT-Large
82.1
84.8
2018
XLNet
87.9
90.7
2019
GPT-4
~90+
~92+
2023
핵심 발견
인간-모델 격차: 최고 모델(66.3 EM)과 인간(86.8 EM) 간 20점 이상 격차 (Table 4)
답변 불가 질문의 어려움: 모델이 답변 불가 질문에서 특히 취약 — plausible answer를 자주 추출
No-answer 판별: threshold 기반 no-answer 판별이 핵심 기술적 과제
이론적 의의
추출형 QA의 완성
SQuAD 2.0은 “답이 있으면 추출, 없으면 기각”이라는 추출형 QA의 완전한 프레임워크를 확립했다. 이후 BERT, XLNet 등 Pre-trained LM의 표준 평가 과제가 되었으며, 모델의 “무지 인식(epistemic humility)” 능력을 측정하는 최초의 대규모 벤치마크다.