RACE: Large-scale ReAding Comprehension Dataset From Examinations

Digest: 중국 중·고등학교 영어 시험에서 수집한 대규모 독해력 벤치마크. 27,933개 지문과 97,687개 문제(4지선다)로 구성되며, 기존 추출형 QA(SQuAD 등)와 달리 추론(inference), 요약(summarization), 태도 파악(attitude) 등 고차원적 이해력을 평가한다. 전문 교사가 출제한 시험 문제를 활용해 질 높은 distractor를 포함하며, RACE-M(중등)과 RACE-H(고등) 두 난이도로 분리하여 모델의 독해 능력을 세밀하게 측정할 수 있다.


메타데이터

항목내용
제목RACE: Large-scale ReAding Comprehension Dataset From Examinations
저자Guokun Lai, Qizhe Xie, Hanxiao Liu, Yiming Yang, Eduard Hovy
소속Carnegie Mellon University
학회EMNLP 2017
arXiv1704.04683
평가 지표Accuracy (4-way classification)
라이선스Research use

데이터셋 구성

규모 및 분할

분할지문 수질문 수비율
Train~25,10087,86690.0%
Dev~1,4004,8875.0%
Test~1,4004,9345.0%
전체27,93397,687100%

하위 데이터셋 (Sub-datasets)

하위셋대상지문 수난이도지문 평균 길이
RACE-M중학교 (Middle School)6,409상대적 쉬움~250 words
RACE-H고등학교 (High School)21,524상대적 어려움~350 words

RACE-H가 전체의 **77%**를 차지하며, 추론·비판적 사고를 더 많이 요구한다.

Feature / Column 구조

FeatureType설명
articlestring지문 텍스트 (평균 ~300 words, 최대 1000+ words)
questionstring질문 텍스트
optionslist[4]4개 선택지 (A, B, C, D)
answerstring정답 레이블 (A/B/C/D 중 하나)

질문 유형 분포 (난이도 분포)

질문 유형비율설명난이도
Detail (세부 정보)~30%지문에 명시된 사실 확인★★☆
Inference (추론)~30%지문 내용에서 논리적 추론★★★
Main Idea (주제 파악)~15%전체 요지·제목 추론★★★
Vocabulary (어휘)~10%문맥 내 단어 의미 파악★★☆
Attitude/Tone (태도)~15%저자·화자의 태도·어조 판단★★★

핵심 차별점: SQuAD 등 추출형 벤치마크는 Detail 유형에 집중하지만, RACE는 Inference + Main Idea + Attitude가 60% 이상을 차지하여 고차원적 독해력을 측정한다.


실제 데이터 예시

예시 1: Inference 유형

Passage (발췌): “The Arctic ice cap has been shrinking at an alarming rate over the past few decades. Scientists warn that if current trends continue, summer ice could disappear entirely by 2050…”

Question: What can we infer about the author’s attitude toward climate change?

선택지내용
AOptimistic
BPessimistic
CNeutral
DIndifferent

정답: B — 지문의 “alarming rate”, “warn” 등 어조에서 추론

예시 2: Main Idea 유형

Passage (발췌): “In many countries, the tradition of eating together as a family is disappearing. Fast food restaurants and busy schedules have changed the way people eat…”

Question: What is the best title for this passage?

선택지내용
AHow to Cook Family Meals
BThe History of Fast Food
CThe Decline of Family Dining
DHealthy Eating Habits

정답: C — 전체 맥락에서 주제를 요약하는 능력 평가

예시 3: Detail 유형 (RACE-M)

Passage (발췌): “Tom’s school held a sports day last Friday. He won first place in the 100-meter race and second place in the long jump…”

Question: How did Tom perform in the long jump?

선택지내용
AFirst place
BSecond place
CThird place
DHe didn’t participate

정답: B — 지문에서 직접 추출 가능 (RACE-M의 전형적 쉬운 문제)


왜 이 연구를 하는가?

기존 한계

  1. 추출형 QA의 한계: SQuAD, CNN/DailyMail 등 기존 RC 벤치마크는 지문에서 span을 추출하는 방식으로, 표면적 패턴 매칭(surface-level matching)만으로도 높은 성능 달성 가능
  2. Cloze-style의 제한: CNN/DailyMail의 빈칸 채우기 방식은 entity 대체에 의존하여 진정한 이해력 측정에 부족
  3. 규모 부족: MCTest(660문제) 등 기존 선다형 RC는 규모가 작아 딥러닝 학습에 부적합

RACE의 해결

  • 전문가 출제 문제: 교사가 직접 설계한 distractor로 추론 없이는 정답 선택이 어려움
  • 대규모: ~100K 문제로 신경망 학습에 충분한 규모 확보
  • 다양한 추론 유형: 단순 사실 확인부터 태도 파악까지 포괄적 독해력 평가

방법: 데이터 수집 및 평가 파이프라인

flowchart TD
    A["중국 중·고등학교\n영어 시험 수집"] --> B["웹 크롤링\n(시험 문제 사이트)"]
    B --> C["데이터 정제\n중복 제거 / 형식 통일"]
    C --> D["RACE-M\n(중등 6,409 지문)"]
    C --> E["RACE-H\n(고등 21,524 지문)"]
    D --> F["Train / Dev / Test\n분할"]
    E --> F
    F --> G["Baseline 모델 평가"]
    G --> H["Sliding Window"]
    G --> I["Stanford AR"]
    G --> J["GA Reader"]
    G --> K["Human Performance"]
    H --> L["결과 비교 및 분석"]
    I --> L
    J --> L
    K --> L

주요 결과 (Results)

전체 성능 비교

모델RACE-MRACE-HRACE (전체)비고
Random Baseline25.0%25.0%25.0%4지선다 chance level
Sliding Window37.3%30.4%32.2%Word overlap 기반
Stanford AR44.2%43.0%43.3%Attention Reader
GA Reader43.7%44.2%44.1%Gated Attention
Turkers (crowdworker)85.1%69.4%73.3%Ceiling이 아님
Human (교사 수준)~95%~85%~90%Expert performance

후속 모델 성능 (Post-2017)

모델RACE (전체)연도
BERT-Large~72%2019
XLNet-Large~81%2019
ALBERT-xxlarge~87%2020
DeBERTa-v3~90%2021
GPT-4~92%2023

GPT-4가 human expert 수준을 초과하며, RACE는 사실상 saturation 단계에 도달했다.


이론적 의의

학술적 기여

  1. RC 평가 패러다임 전환: 추출형(extractive) → 선다형(multiple-choice) 평가의 유효성을 대규모로 입증
  2. 고차원 이해력 측정: 추론, 요약, 태도 파악 등 Bloom’s Taxonomy 상위 수준의 인지 능력을 평가하는 벤치마크 제공
  3. 난이도 계층화: RACE-M/H 분리를 통해 모델의 독해 능력을 세밀하게 진단 가능

한계 및 비판

  1. 도메인 편향: 중국 영어 시험 특화로, 문화적·주제적 편향 존재
  2. Saturation: 최신 LLM이 인간 수준을 초과하여 변별력 감소
  3. Static benchmark: 시간에 따른 데이터 오염(data contamination) 우려
  4. 선택지 편향: 일부 문제에서 선택지 길이·패턴만으로 정답 추론 가능 (shortcut learning)

후속 발전

  • RACE++: 더 어려운 문제 추가로 천장 효과 완화 시도
  • ReClor, LogiQA: 논리적 추론에 특화된 후속 RC 벤치마크
  • DREAM: 대화형 독해로 확장

관련 연구


핵심 용어

용어설명
Reading Comprehension (RC)기계가 지문을 읽고 질문에 답하는 NLU 과제
Multiple-Choice QA주어진 선택지 중 정답을 고르는 QA 형식
Extractive QA지문 내 span을 추출하여 답하는 방식 (cf. SQuAD)
Distractor오답 선택지, 그럴듯하지만 틀린 보기
Inference Question지문에 명시되지 않은 내용을 논리적으로 추론하는 질문
Cloze Test지문의 빈칸을 채우는 형식의 RC 과제
Bloom’s Taxonomy인지 능력의 위계 (기억→이해→적용→분석→평가→창조)
Saturation벤치마크에서 모델 성능이 인간 수준에 도달하여 변별력이 사라지는 현상

Benchmark ReadingComprehension MultipleChoice NLU EMNLP English Inference RACE