DROP: 단락에 대한 이산 추론 독해 벤치마크

Digest: SQuAD 등 기존 독해 벤치마크는 지문에서 답을 직접 추출(span extraction)하면 풀리지만, 실제 독해는 종종 덧셈, 뺄셈, 정렬, 카운팅 등 수치 연산을 요구한다. AI2/UC Irvine의 **DROP(Discrete Reasoning Over Paragraphs)**은 Wikipedia 지문에 대해 96,567개의 수치 추론 QA 쌍을 크라우드소싱했다. 핵심 통찰은 “읽기”와 “계산”을 결합하는 능력이 독립적인 새로운 차원의 언어 이해라는 것이다. 당시 최고 독해 모델(BERT 기반 NAQANet)이 47.2 F1 (Table 3)으로, 인간의 96.4 F1에 크게 뒤처졌다.


메타데이터

항목내용
제목DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs
저자Dheeru Dua, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, Matt Gardner
소속UC Irvine, Allen Institute for AI
연도2019
발표NAACL 2019, arXiv:1903.00161
링크arXiv, Dataset
키워드DROP, numerical reasoning, reading comprehension, discrete operations

데이터셋 구성

규모 및 분할

항목내용
전체 크기96,567개 QA 쌍
Train77,409개
Dev9,536개
Test9,622개
지문 수6,733개 Wikipedia 단락
도메인NFL 경기 기록, 역사적 사건

정답 유형 분포

정답 유형비율설명
Number~45%숫자 정답 (계산 결과)
Span~40%지문에서 추출한 텍스트
Date~8%날짜
Multi-span~7%여러 개의 span

필요 추론 유형

추론 유형비율예시
Subtraction~30%“몇 점 차이?”
Comparison~20%“누가 더 많은 TD?”
Selection~15%“가장 짧은 FG는?”
Addition~15%“총 몇 야드?”
Count~10%“몇 번의 TD가 있었나?”
Sort/Order~10%“시간순으로 첫 번째는?”

Feature/Column 구조

필드설명예시
passageWikipedia 지문NFL 경기 기록 단락
question질문"How many yards longer was..."
answer정답 (숫자/span/날짜)"7"
answer_type정답 유형"number"

실제 데이터 예시

예시 1: 뺄셈 (Subtraction)

Passage: "In the first quarter, the Broncos scored a 24-yard
field goal. In the second quarter, the Chiefs responded with
a 31-yard field goal."

Question: "How many yards longer was the Chiefs' field goal
than the Broncos'?"

Answer: 7
(31 - 24 = 7)

예시 2: 카운팅 (Count)

Passage: "Tom Brady threw touchdown passes of 5, 12, and
38 yards in the first half. In the second half, he threw
one more touchdown of 22 yards."

Question: "How many touchdown passes did Tom Brady throw?"

Answer: 4
(3 in first half + 1 in second half)

예시 3: 정렬/선택 (Sort/Selection)

Passage: "The team scored in three drives: a 45-yard field goal
in the first quarter, a 28-yard touchdown in the third quarter,
and a 52-yard field goal in the fourth quarter."

Question: "Which scoring play covered the shortest distance?"

Answer: "28-yard touchdown"
(28 < 45 < 52)

왜 이 연구를 하는가?

핵심 질문

독해 모델이 지문의 수치 정보를 이해하고 이산 연산(덧셈, 뺄셈, 정렬 등)을 수행할 수 있는가?

기존 접근법의 한계

한계설명
Span Extraction 한정SQuAD는 답이 지문에 있는 span, 계산 불필요
수치 추론 미측정기존 RC 벤치마크는 수치 계산 능력 평가하지 않음
단순 매칭 가능많은 RC 문제가 키워드 매칭으로 풀림

핵심 통찰

독해의 완전한 이해는 “정보 추출”을 넘어 “정보에 대한 연산”을 포함한다. 이는 기존 span extraction 패러다임으로는 해결할 수 없는 새로운 도전이다.


방법 (Method)

프레임워크 개요

graph TB
    A["Wikipedia 지문<br/>(NFL, 역사)"] --> B["크라우드소싱 질문 작성<br/>(수치 추론 유도)"]
    B --> C["96,567 QA 쌍"]

    C --> D["모델 평가"]
    D --> E["Span Extraction<br/>(BERT-RC)"]
    D --> F["Augmented Models<br/>(NAQANet 등)"]

    E --> G["F1 / EM 메트릭"]
    F --> G

평가 메트릭

  • F1 Score: 예측과 정답의 토큰 수준 F1
  • Exact Match (EM): 예측이 정답과 정확히 일치하는 비율

발견 (Findings)

주요 결과 (Dev, F1)

모델F1EM
Human96.494.1
NAQANet (Augmented)47.244.1
BERT-RC30.126.8
BiDAF24.821.5

(Table 3, 2019 기준)

핵심 발견

  1. 인간-모델 극단적 격차: 최고 모델(47.2 F1) vs 인간(96.4 F1), 약 50 F1 차이 (Table 3)
  2. 기존 RC 모델의 실패: BERT-RC가 30.1 F1로, span extraction만으로는 부족
  3. 연산 유형별 차이: 단순 span 추출은 잘하나, 뺄셈/카운팅에서 급격히 하락
  4. Augmented 모델의 한계: 수치 모듈을 추가해도 인간 수준에 크게 못 미침

이론적 의의

독해와 추론의 결합

DROP은 “독해 = 정보 추출”이라는 단순한 관점을 넘어 “독해 = 정보 추출 + 추론”으로 확장했다. 이후 LLM이 등장하면서 DROP 성능이 크게 향상되었지만, DROP이 제기한 “텍스트에 대한 수치 추론” 문제는 여전히 중요한 연구 주제이다.


관련 연구


핵심 용어 정리

용어정의
DROPDiscrete Reasoning Over Paragraphs. 수치 추론 독해 벤치마크
Discrete Reasoning덧셈, 뺄셈, 정렬, 카운팅 등 이산적 연산을 수행하는 추론
Span Extraction지문에서 답이 포함된 연속 텍스트 조각(span)을 추출하는 방식
F1 ScorePrecision과 Recall의 조화 평균, 부분 일치를 인정하는 평가 메트릭
NAQANetNumerically-Augmented QA Network. 수치 연산 모듈을 추가한 RC 모델

태그

paper #2019 benchmark reading_comprehension numerical_reasoning DROP NAACL