Digest: SQuAD 등 기존 독해 벤치마크는 지문에서 답을 직접 추출(span extraction)하면 풀리지만, 실제 독해는 종종 덧셈, 뺄셈, 정렬, 카운팅 등 수치 연산을 요구한다. AI2/UC Irvine의 **DROP(Discrete Reasoning Over Paragraphs)**은 Wikipedia 지문에 대해 96,567개의 수치 추론 QA 쌍을 크라우드소싱했다. 핵심 통찰은 “읽기”와 “계산”을 결합하는 능력이 독립적인 새로운 차원의 언어 이해라는 것이다. 당시 최고 독해 모델(BERT 기반 NAQANet)이 47.2 F1 (Table 3)으로, 인간의 96.4 F1에 크게 뒤처졌다.
메타데이터
항목
내용
제목
DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs
저자
Dheeru Dua, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, Matt Gardner
Passage: "In the first quarter, the Broncos scored a 24-yard
field goal. In the second quarter, the Chiefs responded with
a 31-yard field goal."
Question: "How many yards longer was the Chiefs' field goal
than the Broncos'?"
Answer: 7
(31 - 24 = 7)
예시 2: 카운팅 (Count)
Passage: "Tom Brady threw touchdown passes of 5, 12, and
38 yards in the first half. In the second half, he threw
one more touchdown of 22 yards."
Question: "How many touchdown passes did Tom Brady throw?"
Answer: 4
(3 in first half + 1 in second half)
예시 3: 정렬/선택 (Sort/Selection)
Passage: "The team scored in three drives: a 45-yard field goal
in the first quarter, a 28-yard touchdown in the third quarter,
and a 52-yard field goal in the fourth quarter."
Question: "Which scoring play covered the shortest distance?"
Answer: "28-yard touchdown"
(28 < 45 < 52)
왜 이 연구를 하는가?
핵심 질문
독해 모델이 지문의 수치 정보를 이해하고 이산 연산(덧셈, 뺄셈, 정렬 등)을 수행할 수 있는가?
기존 접근법의 한계
한계
설명
Span Extraction 한정
SQuAD는 답이 지문에 있는 span, 계산 불필요
수치 추론 미측정
기존 RC 벤치마크는 수치 계산 능력 평가하지 않음
단순 매칭 가능
많은 RC 문제가 키워드 매칭으로 풀림
핵심 통찰
독해의 완전한 이해는 “정보 추출”을 넘어 “정보에 대한 연산”을 포함한다. 이는 기존 span extraction 패러다임으로는 해결할 수 없는 새로운 도전이다.
방법 (Method)
프레임워크 개요
graph TB
A["Wikipedia 지문<br/>(NFL, 역사)"] --> B["크라우드소싱 질문 작성<br/>(수치 추론 유도)"]
B --> C["96,567 QA 쌍"]
C --> D["모델 평가"]
D --> E["Span Extraction<br/>(BERT-RC)"]
D --> F["Augmented Models<br/>(NAQANet 등)"]
E --> G["F1 / EM 메트릭"]
F --> G
평가 메트릭
F1 Score: 예측과 정답의 토큰 수준 F1
Exact Match (EM): 예측이 정답과 정확히 일치하는 비율
발견 (Findings)
주요 결과 (Dev, F1)
모델
F1
EM
Human
96.4
94.1
NAQANet (Augmented)
47.2
44.1
BERT-RC
30.1
26.8
BiDAF
24.8
21.5
(Table 3, 2019 기준)
핵심 발견
인간-모델 극단적 격차: 최고 모델(47.2 F1) vs 인간(96.4 F1), 약 50 F1 차이 (Table 3)
기존 RC 모델의 실패: BERT-RC가 30.1 F1로, span extraction만으로는 부족
연산 유형별 차이: 단순 span 추출은 잘하나, 뺄셈/카운팅에서 급격히 하락
Augmented 모델의 한계: 수치 모듈을 추가해도 인간 수준에 크게 못 미침
이론적 의의
독해와 추론의 결합
DROP은 “독해 = 정보 추출”이라는 단순한 관점을 넘어 “독해 = 정보 추출 + 추론”으로 확장했다. 이후 LLM이 등장하면서 DROP 성능이 크게 향상되었지만, DROP이 제기한 “텍스트에 대한 수치 추론” 문제는 여전히 중요한 연구 주제이다.