RACE: Large-scale ReAding Comprehension Dataset From Examinations
Digest: 중국 중·고등학교 영어 시험에서 수집한 대규모 독해력 벤치마크. 27,933개 지문과 97,687개 문제(4지선다)로 구성되며, 기존 추출형 QA(SQuAD 등)와 달리 추론(inference), 요약(summarization), 태도 파악(attitude) 등 고차원적 이해력을 평가한다. 전문 교사가 출제한 시험 문제를 활용해 질 높은 distractor를 포함하며, RACE-M(중등)과 RACE-H(고등) 두 난이도로 분리하여 모델의 독해 능력을 세밀하게 측정할 수 있다.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | RACE: Large-scale ReAding Comprehension Dataset From Examinations |
| 저자 | Guokun Lai, Qizhe Xie, Hanxiao Liu, Yiming Yang, Eduard Hovy |
| 소속 | Carnegie Mellon University |
| 학회 | EMNLP 2017 |
| arXiv | 1704.04683 |
| 평가 지표 | Accuracy (4-way classification) |
| 라이선스 | Research use |
데이터셋 구성
규모 및 분할
| 분할 | 지문 수 | 질문 수 | 비율 |
|---|---|---|---|
| Train | ~25,100 | 87,866 | 90.0% |
| Dev | ~1,400 | 4,887 | 5.0% |
| Test | ~1,400 | 4,934 | 5.0% |
| 전체 | 27,933 | 97,687 | 100% |
하위 데이터셋 (Sub-datasets)
| 하위셋 | 대상 | 지문 수 | 난이도 | 지문 평균 길이 |
|---|---|---|---|---|
| RACE-M | 중학교 (Middle School) | 6,409 | 상대적 쉬움 | ~250 words |
| RACE-H | 고등학교 (High School) | 21,524 | 상대적 어려움 | ~350 words |
RACE-H가 전체의 **77%**를 차지하며, 추론·비판적 사고를 더 많이 요구한다.
Feature / Column 구조
| Feature | Type | 설명 |
|---|---|---|
article | string | 지문 텍스트 (평균 ~300 words, 최대 1000+ words) |
question | string | 질문 텍스트 |
options | list[4] | 4개 선택지 (A, B, C, D) |
answer | string | 정답 레이블 (A/B/C/D 중 하나) |
질문 유형 분포 (난이도 분포)
| 질문 유형 | 비율 | 설명 | 난이도 |
|---|---|---|---|
| Detail (세부 정보) | ~30% | 지문에 명시된 사실 확인 | ★★☆ |
| Inference (추론) | ~30% | 지문 내용에서 논리적 추론 | ★★★ |
| Main Idea (주제 파악) | ~15% | 전체 요지·제목 추론 | ★★★ |
| Vocabulary (어휘) | ~10% | 문맥 내 단어 의미 파악 | ★★☆ |
| Attitude/Tone (태도) | ~15% | 저자·화자의 태도·어조 판단 | ★★★ |
핵심 차별점: SQuAD 등 추출형 벤치마크는 Detail 유형에 집중하지만, RACE는 Inference + Main Idea + Attitude가 60% 이상을 차지하여 고차원적 독해력을 측정한다.
실제 데이터 예시
예시 1: Inference 유형
Passage (발췌): “The Arctic ice cap has been shrinking at an alarming rate over the past few decades. Scientists warn that if current trends continue, summer ice could disappear entirely by 2050…”
Question: What can we infer about the author’s attitude toward climate change?
선택지 내용 A Optimistic B Pessimistic ✓ C Neutral D Indifferent 정답: B — 지문의 “alarming rate”, “warn” 등 어조에서 추론
예시 2: Main Idea 유형
Passage (발췌): “In many countries, the tradition of eating together as a family is disappearing. Fast food restaurants and busy schedules have changed the way people eat…”
Question: What is the best title for this passage?
선택지 내용 A How to Cook Family Meals B The History of Fast Food C The Decline of Family Dining ✓ D Healthy Eating Habits 정답: C — 전체 맥락에서 주제를 요약하는 능력 평가
예시 3: Detail 유형 (RACE-M)
Passage (발췌): “Tom’s school held a sports day last Friday. He won first place in the 100-meter race and second place in the long jump…”
Question: How did Tom perform in the long jump?
선택지 내용 A First place B Second place ✓ C Third place D He didn’t participate 정답: B — 지문에서 직접 추출 가능 (RACE-M의 전형적 쉬운 문제)
왜 이 연구를 하는가?
기존 한계
- 추출형 QA의 한계: SQuAD, CNN/DailyMail 등 기존 RC 벤치마크는 지문에서 span을 추출하는 방식으로, 표면적 패턴 매칭(surface-level matching)만으로도 높은 성능 달성 가능
- Cloze-style의 제한: CNN/DailyMail의 빈칸 채우기 방식은 entity 대체에 의존하여 진정한 이해력 측정에 부족
- 규모 부족: MCTest(660문제) 등 기존 선다형 RC는 규모가 작아 딥러닝 학습에 부적합
RACE의 해결
- 전문가 출제 문제: 교사가 직접 설계한 distractor로 추론 없이는 정답 선택이 어려움
- 대규모: ~100K 문제로 신경망 학습에 충분한 규모 확보
- 다양한 추론 유형: 단순 사실 확인부터 태도 파악까지 포괄적 독해력 평가
방법: 데이터 수집 및 평가 파이프라인
flowchart TD A["중국 중·고등학교\n영어 시험 수집"] --> B["웹 크롤링\n(시험 문제 사이트)"] B --> C["데이터 정제\n중복 제거 / 형식 통일"] C --> D["RACE-M\n(중등 6,409 지문)"] C --> E["RACE-H\n(고등 21,524 지문)"] D --> F["Train / Dev / Test\n분할"] E --> F F --> G["Baseline 모델 평가"] G --> H["Sliding Window"] G --> I["Stanford AR"] G --> J["GA Reader"] G --> K["Human Performance"] H --> L["결과 비교 및 분석"] I --> L J --> L K --> L
주요 결과 (Results)
전체 성능 비교
| 모델 | RACE-M | RACE-H | RACE (전체) | 비고 |
|---|---|---|---|---|
| Random Baseline | 25.0% | 25.0% | 25.0% | 4지선다 chance level |
| Sliding Window | 37.3% | 30.4% | 32.2% | Word overlap 기반 |
| Stanford AR | 44.2% | 43.0% | 43.3% | Attention Reader |
| GA Reader | 43.7% | 44.2% | 44.1% | Gated Attention |
| Turkers (crowdworker) | 85.1% | 69.4% | 73.3% | Ceiling이 아님 |
| Human (교사 수준) | ~95% | ~85% | ~90% | Expert performance |
후속 모델 성능 (Post-2017)
| 모델 | RACE (전체) | 연도 |
|---|---|---|
| BERT-Large | ~72% | 2019 |
| XLNet-Large | ~81% | 2019 |
| ALBERT-xxlarge | ~87% | 2020 |
| DeBERTa-v3 | ~90% | 2021 |
| GPT-4 | ~92% | 2023 |
GPT-4가 human expert 수준을 초과하며, RACE는 사실상 saturation 단계에 도달했다.
이론적 의의
학술적 기여
- RC 평가 패러다임 전환: 추출형(extractive) → 선다형(multiple-choice) 평가의 유효성을 대규모로 입증
- 고차원 이해력 측정: 추론, 요약, 태도 파악 등 Bloom’s Taxonomy 상위 수준의 인지 능력을 평가하는 벤치마크 제공
- 난이도 계층화: RACE-M/H 분리를 통해 모델의 독해 능력을 세밀하게 진단 가능
한계 및 비판
- 도메인 편향: 중국 영어 시험 특화로, 문화적·주제적 편향 존재
- Saturation: 최신 LLM이 인간 수준을 초과하여 변별력 감소
- Static benchmark: 시간에 따른 데이터 오염(data contamination) 우려
- 선택지 편향: 일부 문제에서 선택지 길이·패턴만으로 정답 추론 가능 (shortcut learning)
후속 발전
- RACE++: 더 어려운 문제 추가로 천장 효과 완화 시도
- ReClor, LogiQA: 논리적 추론에 특화된 후속 RC 벤치마크
- DREAM: 대화형 독해로 확장
관련 연구
- SQuAD2_2018_ReadingComprehension — 추출형 RC의 대표 벤치마크, RACE와 상보적
- HellaSwag_2019_CommonsenseReasoning — 상식 추론 기반 선다형 평가
- SuperGLUE_2019_NLUBenchmark — NLU 통합 벤치마크 (RC 포함)
- MMLU_2020_Multitask — 다영역 지식 평가, RACE와 유사한 선다형 형식
- DROP_2019_NumericalReasoning — 수치 추론 독해, 추출형과 추론의 중간
- CommonsenseQA_2018_ConceptNet — 상식 기반 선다형 QA
핵심 용어
| 용어 | 설명 |
|---|---|
| Reading Comprehension (RC) | 기계가 지문을 읽고 질문에 답하는 NLU 과제 |
| Multiple-Choice QA | 주어진 선택지 중 정답을 고르는 QA 형식 |
| Extractive QA | 지문 내 span을 추출하여 답하는 방식 (cf. SQuAD) |
| Distractor | 오답 선택지, 그럴듯하지만 틀린 보기 |
| Inference Question | 지문에 명시되지 않은 내용을 논리적으로 추론하는 질문 |
| Cloze Test | 지문의 빈칸을 채우는 형식의 RC 과제 |
| Bloom’s Taxonomy | 인지 능력의 위계 (기억→이해→적용→분석→평가→창조) |
| Saturation | 벤치마크에서 모델 성능이 인간 수준에 도달하여 변별력이 사라지는 현상 |
Benchmark ReadingComprehension MultipleChoice NLU EMNLP English Inference RACE