RACE: Large-scale ReAding Comprehension Dataset From Examinations

Digest: 중국 중·고등학교 영어 시험에서 수집한 대규모 독해력 벤치마크. 27,933개 지문과 97,687개 문제(4지선다)로 구성되며, 기존 추출형 QA(SQuAD 등)와 달리 추론(inference), 요약(summarization), 태도 파악(attitude) 등 고차원적 이해력을 평가한다. 전문 교사가 출제한 시험 문제를 활용해 질 높은 distractor를 포함하며, RACE-M(중등)과 RACE-H(고등) 두 난이도로 분리하여 모델의 독해 능력을 세밀하게 측정할 수 있다.

메타데이터

항목	내용
제목	RACE: Large-scale ReAding Comprehension Dataset From Examinations
저자	Guokun Lai, Qizhe Xie, Hanxiao Liu, Yiming Yang, Eduard Hovy
소속	Carnegie Mellon University
학회	EMNLP 2017
arXiv	1704.04683
평가 지표	Accuracy (4-way classification)
라이선스	Research use

데이터셋 구성

규모 및 분할

분할	지문 수	질문 수	비율
Train	~25,100	87,866	90.0%
Dev	~1,400	4,887	5.0%
Test	~1,400	4,934	5.0%
전체	27,933	97,687	100%

하위 데이터셋 (Sub-datasets)

하위셋	대상	지문 수	난이도	지문 평균 길이
RACE-M	중학교 (Middle School)	6,409	상대적 쉬움	~250 words
RACE-H	고등학교 (High School)	21,524	상대적 어려움	~350 words

RACE-H가 전체의 **77%**를 차지하며, 추론·비판적 사고를 더 많이 요구한다.

Feature / Column 구조

Feature	Type	설명
`article`	string	지문 텍스트 (평균 ~300 words, 최대 1000+ words)
`question`	string	질문 텍스트
`options`	list[4]	4개 선택지 (A, B, C, D)
`answer`	string	정답 레이블 (A/B/C/D 중 하나)

질문 유형 분포 (난이도 분포)

질문 유형	비율	설명	난이도
Detail (세부 정보)	~30%	지문에 명시된 사실 확인	★★☆
Inference (추론)	~30%	지문 내용에서 논리적 추론	★★★
Main Idea (주제 파악)	~15%	전체 요지·제목 추론	★★★
Vocabulary (어휘)	~10%	문맥 내 단어 의미 파악	★★☆
Attitude/Tone (태도)	~15%	저자·화자의 태도·어조 판단	★★★

핵심 차별점: SQuAD 등 추출형 벤치마크는 Detail 유형에 집중하지만, RACE는 Inference + Main Idea + Attitude가 60% 이상을 차지하여 고차원적 독해력을 측정한다.

실제 데이터 예시

예시 1: Inference 유형

Passage (발췌): “The Arctic ice cap has been shrinking at an alarming rate over the past few decades. Scientists warn that if current trends continue, summer ice could disappear entirely by 2050…”

Question: What can we infer about the author’s attitude toward climate change?

선택지 내용
A Optimistic
B Pessimistic ✓
C Neutral
D Indifferent

정답: B — 지문의 “alarming rate”, “warn” 등 어조에서 추론

선택지	내용
A	Optimistic
B	Pessimistic ✓
C	Neutral
D	Indifferent

예시 2: Main Idea 유형

Passage (발췌): “In many countries, the tradition of eating together as a family is disappearing. Fast food restaurants and busy schedules have changed the way people eat…”

Question: What is the best title for this passage?

선택지 내용
A How to Cook Family Meals
B The History of Fast Food
C The Decline of Family Dining ✓
D Healthy Eating Habits

정답: C — 전체 맥락에서 주제를 요약하는 능력 평가

선택지	내용
A	How to Cook Family Meals
B	The History of Fast Food
C	The Decline of Family Dining ✓
D	Healthy Eating Habits

예시 3: Detail 유형 (RACE-M)

Passage (발췌): “Tom’s school held a sports day last Friday. He won first place in the 100-meter race and second place in the long jump…”

Question: How did Tom perform in the long jump?

선택지 내용
A First place
B Second place ✓
C Third place
D He didn’t participate

정답: B — 지문에서 직접 추출 가능 (RACE-M의 전형적 쉬운 문제)

선택지	내용
A	First place
B	Second place ✓
C	Third place
D	He didn’t participate

왜 이 연구를 하는가?

기존 한계

추출형 QA의 한계: SQuAD, CNN/DailyMail 등 기존 RC 벤치마크는 지문에서 span을 추출하는 방식으로, 표면적 패턴 매칭(surface-level matching)만으로도 높은 성능 달성 가능
Cloze-style의 제한: CNN/DailyMail의 빈칸 채우기 방식은 entity 대체에 의존하여 진정한 이해력 측정에 부족
규모 부족: MCTest(660문제) 등 기존 선다형 RC는 규모가 작아 딥러닝 학습에 부적합

RACE의 해결

전문가 출제 문제: 교사가 직접 설계한 distractor로 추론 없이는 정답 선택이 어려움
대규모: ~100K 문제로 신경망 학습에 충분한 규모 확보
다양한 추론 유형: 단순 사실 확인부터 태도 파악까지 포괄적 독해력 평가

방법: 데이터 수집 및 평가 파이프라인

flowchart TD
    A["중국 중·고등학교\n영어 시험 수집"] --> B["웹 크롤링\n(시험 문제 사이트)"]
    B --> C["데이터 정제\n중복 제거 / 형식 통일"]
    C --> D["RACE-M\n(중등 6,409 지문)"]
    C --> E["RACE-H\n(고등 21,524 지문)"]
    D --> F["Train / Dev / Test\n분할"]
    E --> F
    F --> G["Baseline 모델 평가"]
    G --> H["Sliding Window"]
    G --> I["Stanford AR"]
    G --> J["GA Reader"]
    G --> K["Human Performance"]
    H --> L["결과 비교 및 분석"]
    I --> L
    J --> L
    K --> L

주요 결과 (Results)

전체 성능 비교

모델	RACE-M	RACE-H	RACE (전체)	비고
Random Baseline	25.0%	25.0%	25.0%	4지선다 chance level
Sliding Window	37.3%	30.4%	32.2%	Word overlap 기반
Stanford AR	44.2%	43.0%	43.3%	Attention Reader
GA Reader	43.7%	44.2%	44.1%	Gated Attention
Turkers (crowdworker)	85.1%	69.4%	73.3%	Ceiling이 아님
Human (교사 수준)	~95%	~85%	~90%	Expert performance

후속 모델 성능 (Post-2017)

모델	RACE (전체)	연도
BERT-Large	~72%	2019
XLNet-Large	~81%	2019
ALBERT-xxlarge	~87%	2020
DeBERTa-v3	~90%	2021
GPT-4	~92%	2023

GPT-4가 human expert 수준을 초과하며, RACE는 사실상 saturation 단계에 도달했다.

이론적 의의

학술적 기여

RC 평가 패러다임 전환: 추출형(extractive) → 선다형(multiple-choice) 평가의 유효성을 대규모로 입증
고차원 이해력 측정: 추론, 요약, 태도 파악 등 Bloom’s Taxonomy 상위 수준의 인지 능력을 평가하는 벤치마크 제공
난이도 계층화: RACE-M/H 분리를 통해 모델의 독해 능력을 세밀하게 진단 가능

한계 및 비판

도메인 편향: 중국 영어 시험 특화로, 문화적·주제적 편향 존재
Saturation: 최신 LLM이 인간 수준을 초과하여 변별력 감소
Static benchmark: 시간에 따른 데이터 오염(data contamination) 우려
선택지 편향: 일부 문제에서 선택지 길이·패턴만으로 정답 추론 가능 (shortcut learning)

후속 발전

RACE++: 더 어려운 문제 추가로 천장 효과 완화 시도
ReClor, LogiQA: 논리적 추론에 특화된 후속 RC 벤치마크
DREAM: 대화형 독해로 확장

핵심 용어

용어	설명
Reading Comprehension (RC)	기계가 지문을 읽고 질문에 답하는 NLU 과제
Multiple-Choice QA	주어진 선택지 중 정답을 고르는 QA 형식
Extractive QA	지문 내 span을 추출하여 답하는 방식 (cf. SQuAD)
Distractor	오답 선택지, 그럴듯하지만 틀린 보기
Inference Question	지문에 명시되지 않은 내용을 논리적으로 추론하는 질문
Cloze Test	지문의 빈칸을 채우는 형식의 RC 과제
Bloom’s Taxonomy	인지 능력의 위계 (기억→이해→적용→분석→평가→창조)
Saturation	벤치마크에서 모델 성능이 인간 수준에 도달하여 변별력이 사라지는 현상

Benchmark ReadingComprehension MultipleChoice NLU EMNLP English Inference RACE

Juhyeon's Blog

탐색기

RACE - Large-scale ReAding Comprehension Dataset From Examinations

RACE: Large-scale ReAding Comprehension Dataset From Examinations

메타데이터

데이터셋 구성

규모 및 분할

하위 데이터셋 (Sub-datasets)

Feature / Column 구조

질문 유형 분포 (난이도 분포)

실제 데이터 예시

예시 1: Inference 유형

예시 2: Main Idea 유형

예시 3: Detail 유형 (RACE-M)

왜 이 연구를 하는가?

기존 한계

RACE의 해결

방법: 데이터 수집 및 평가 파이프라인

주요 결과 (Results)

전체 성능 비교

후속 모델 성능 (Post-2017)

이론적 의의

학술적 기여

한계 및 비판

후속 발전

관련 연구

핵심 용어

그래프 뷰

목차

Properties

백링크