DROP: 단락에 대한 이산 추론 독해 벤치마크

Digest: SQuAD 등 기존 독해 벤치마크는 지문에서 답을 직접 추출(span extraction)하면 풀리지만, 실제 독해는 종종 덧셈, 뺄셈, 정렬, 카운팅 등 수치 연산을 요구한다. AI2/UC Irvine의 **DROP(Discrete Reasoning Over Paragraphs)**은 Wikipedia 지문에 대해 96,567개의 수치 추론 QA 쌍을 크라우드소싱했다. 핵심 통찰은 “읽기”와 “계산”을 결합하는 능력이 독립적인 새로운 차원의 언어 이해라는 것이다. 당시 최고 독해 모델(BERT 기반 NAQANet)이 47.2 F1 (Table 3)으로, 인간의 96.4 F1에 크게 뒤처졌다.

메타데이터

항목	내용
제목	DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs
저자	Dheeru Dua, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, Matt Gardner
소속	UC Irvine, Allen Institute for AI
연도	2019
발표	NAACL 2019, arXiv:1903.00161
링크	arXiv, Dataset
키워드	DROP, numerical reasoning, reading comprehension, discrete operations

데이터셋 구성

규모 및 분할

항목	내용
전체 크기	96,567개 QA 쌍
Train	77,409개
Dev	9,536개
Test	9,622개
지문 수	6,733개 Wikipedia 단락
도메인	NFL 경기 기록, 역사적 사건

정답 유형 분포

정답 유형	비율	설명
Number	~45%	숫자 정답 (계산 결과)
Span	~40%	지문에서 추출한 텍스트
Date	~8%	날짜
Multi-span	~7%	여러 개의 span

필요 추론 유형

추론 유형	비율	예시
Subtraction	~30%	“몇 점 차이?”
Comparison	~20%	“누가 더 많은 TD?”
Selection	~15%	“가장 짧은 FG는?”
Addition	~15%	“총 몇 야드?”
Count	~10%	“몇 번의 TD가 있었나?”
Sort/Order	~10%	“시간순으로 첫 번째는?”

Feature/Column 구조

필드	설명	예시
`passage`	Wikipedia 지문	NFL 경기 기록 단락
`question`	질문	`"How many yards longer was..."`
`answer`	정답 (숫자/span/날짜)	`"7"`
`answer_type`	정답 유형	`"number"`

실제 데이터 예시

예시 1: 뺄셈 (Subtraction)

Passage: "In the first quarter, the Broncos scored a 24-yard
field goal. In the second quarter, the Chiefs responded with
a 31-yard field goal."

Question: "How many yards longer was the Chiefs' field goal
than the Broncos'?"

Answer: 7
(31 - 24 = 7)

예시 2: 카운팅 (Count)

Passage: "Tom Brady threw touchdown passes of 5, 12, and
38 yards in the first half. In the second half, he threw
one more touchdown of 22 yards."

Question: "How many touchdown passes did Tom Brady throw?"

Answer: 4
(3 in first half + 1 in second half)

예시 3: 정렬/선택 (Sort/Selection)

Passage: "The team scored in three drives: a 45-yard field goal
in the first quarter, a 28-yard touchdown in the third quarter,
and a 52-yard field goal in the fourth quarter."

Question: "Which scoring play covered the shortest distance?"

Answer: "28-yard touchdown"
(28 < 45 < 52)

왜 이 연구를 하는가?

핵심 질문

독해 모델이 지문의 수치 정보를 이해하고 이산 연산(덧셈, 뺄셈, 정렬 등)을 수행할 수 있는가?

기존 접근법의 한계

한계	설명
Span Extraction 한정	SQuAD는 답이 지문에 있는 span, 계산 불필요
수치 추론 미측정	기존 RC 벤치마크는 수치 계산 능력 평가하지 않음
단순 매칭 가능	많은 RC 문제가 키워드 매칭으로 풀림

핵심 통찰

독해의 완전한 이해는 “정보 추출”을 넘어 “정보에 대한 연산”을 포함한다. 이는 기존 span extraction 패러다임으로는 해결할 수 없는 새로운 도전이다.

방법 (Method)

프레임워크 개요

graph TB
    A["Wikipedia 지문<br/>(NFL, 역사)"] --> B["크라우드소싱 질문 작성<br/>(수치 추론 유도)"]
    B --> C["96,567 QA 쌍"]

    C --> D["모델 평가"]
    D --> E["Span Extraction<br/>(BERT-RC)"]
    D --> F["Augmented Models<br/>(NAQANet 등)"]

    E --> G["F1 / EM 메트릭"]
    F --> G

평가 메트릭

F1 Score: 예측과 정답의 토큰 수준 F1
Exact Match (EM): 예측이 정답과 정확히 일치하는 비율

발견 (Findings)

주요 결과 (Dev, F1)

모델	F1	EM
Human	96.4	94.1
NAQANet (Augmented)	47.2	44.1
BERT-RC	30.1	26.8
BiDAF	24.8	21.5

(Table 3, 2019 기준)

핵심 발견

인간-모델 극단적 격차: 최고 모델(47.2 F1) vs 인간(96.4 F1), 약 50 F1 차이 (Table 3)
기존 RC 모델의 실패: BERT-RC가 30.1 F1로, span extraction만으로는 부족
연산 유형별 차이: 단순 span 추출은 잘하나, 뺄셈/카운팅에서 급격히 하락
Augmented 모델의 한계: 수치 모듈을 추가해도 인간 수준에 크게 못 미침

이론적 의의

독해와 추론의 결합

DROP은 “독해 = 정보 추출”이라는 단순한 관점을 넘어 “독해 = 정보 추출 + 추론”으로 확장했다. 이후 LLM이 등장하면서 DROP 성능이 크게 향상되었지만, DROP이 제기한 “텍스트에 대한 수치 추론” 문제는 여전히 중요한 연구 주제이다.

핵심 용어 정리

용어	정의
DROP	Discrete Reasoning Over Paragraphs. 수치 추론 독해 벤치마크
Discrete Reasoning	덧셈, 뺄셈, 정렬, 카운팅 등 이산적 연산을 수행하는 추론
Span Extraction	지문에서 답이 포함된 연속 텍스트 조각(span)을 추출하는 방식
F1 Score	Precision과 Recall의 조화 평균, 부분 일치를 인정하는 평가 메트릭
NAQANet	Numerically-Augmented QA Network. 수치 연산 모듈을 추가한 RC 모델

Juhyeon's Blog

탐색기

DROP - A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs