RACE: 시험 문제 기반 대규모 독해 이해 데이터셋

Digest: 기존 독해 이해(reading comprehension) 데이터셋은 크라우드소싱이나 자동 생성 방식으로 구축되어 추론 깊이가 얕은 질문이 대부분이었다. Lai 등은 이를 해결하기 위해 중국 중·고등학교 영어 시험에서 전문 교사가 출제한 질문을 활용했다. 결과적으로 약 28,000개 지문과 100,000개 사지선다 문항을 수집하여 RACE(ReAding Comprehension dataset from Examinations)를 구축했다. 시험 문제의 특성상 단순 표면 매칭이 아닌 다단계 추론, 요약, 태도 분석 등 고차원 이해 능력을 요구한다. 당시 SOTA 모델이 43% 정확도에 그친 반면 인간 성능은 **95%**로, 52%p라는 극단적 격차가 독해 이해 연구의 난제를 부각했다. 한계점으로는 중국 교육과정 특유의 출제 패턴 편향, 시험이라는 특수한 맥락 의존성, 영어가 외국어인 학생 대상이라는 점이 있다. 미해결 질문은 시험 문제 기반 추론 능력이 일반적 독해 이해 능력과 동치인지, 그리고 다단계 추론을 체계적으로 분류하고 평가하는 방법이다.

섹션별 요약

Introduction

SQuAD, CNN/DailyMail 등 기존 독해 데이터셋은 span extraction이나 cloze 형태로, 대부분 텍스트 표면 매칭으로 답변 가능했다. 교육 시험은 전문가가 의도적으로 추론이 필요한 문제를 설계하므로, 더 도전적이고 다양한 추론을 요구한다.

Methods

데이터 소스: 중국 중학교(RACE-M)와 고등학교(RACE-H) 영어 시험에서 지문과 사지선다 문항을 수집.

데이터 규모: 약 28,000개 지문, ~100,000개 문항 (RACE-M: ~28K 문항, RACE-H: ~62K 문항).

문항 유형 분석: 세부 정보 이해, 추론, 주제 파악, 태도/톤 분석, 어휘 의미 등 다양한 인지 수준을 포괄.

Results

모델	RACE-M	RACE-H	RACE (전체)
랜덤	25.0%	25.0%	25.0%
Sliding Window	37.3%	30.4%	32.2%
Stanford AR	44.2%	43.0%	43.3%
GA Reader	43.7%	44.2%	44.1%
인간 수준	95.4%	94.2%	94.5%

Discussion

RACE-H(고등학교)가 RACE-M(중학교)보다 난이도가 높으며, 특히 추론형 문항에서 모델 성능이 급격히 하락. 시험 문제의 추론 요구 수준이 높아 당시 모델의 근본적 한계를 노출.

Insights

주목할 점: 모델-인간 격차 52%p는 당시 NLP 벤치마크 중 가장 큰 수준.
연결 고리: RACE → GLUE/SuperGLUE에서의 다중선택 QA 평가 → 현대 LLM 벤치마크(MMLU 등)로 이어지는 시험 기반 평가 전통.
비판적 코멘트: 중국 교육과정 특유의 문항 형태(주제 파악, 태도 분석)가 보편적 독해 능력 평가에 편향을 줄 수 있음.

메타데이터

항목	내용
제목	RACE: Large-scale ReAding Comprehension Dataset From Examinations
저자	Guokun Lai, Qizhe Xie, Hanxiao Liu, Yiming Yang, Eduard Hovy
소속	Carnegie Mellon University
연도	2017
발표	EMNLP 2017
링크	arXiv, 데이터셋, GitHub
키워드	reading comprehension, multiple choice QA, exam, RACE

방법 (Method)

프레임워크 개요

graph TB
    A["중국 중·고등학교<br/>영어 시험 수집"] --> B["지문 + 사지선다 문항 추출"]
    B --> C["RACE-M<br/>(중학교, ~28K 문항)"]
    B --> D["RACE-H<br/>(고등학교, ~62K 문항)"]
    C --> E["Train / Dev / Test 분할"]
    D --> E
    E --> F["NLI 형태로 변환 가능<br/>(지문=전제, 선택지=가설)"]

재현성 및 신뢰도 평가

항목	등급	비고
코드 공개	✅	GitHub 공개
데이터 공개	✅	공개 다운로드 가능
하이퍼파라미터	✅	베이스라인 상세 기술
실험 환경	✅	재현 가능 수준 기술
통계적 신뢰도	⚠️	단일 실행
종합 등급	A-

주장별 신뢰도

#	주장	근거	신뢰도
1	시험 문제가 크라우드소싱보다 추론 요구 수준이 높음	문항 유형 분석으로 다단계 추론 비율 제시	🟢
2	SOTA 모델(43%)과 인간(95%) 간 극단적 격차	복수 모델 일관된 결과	🟢
3	RACE-H가 RACE-M보다 어려움	고등학교 문항의 추론 복잡도가 높음을 정량적으로 입증	🟢

읽기 난이도: ⭐⭐

독해 이해 과제의 기본 개념만 있으면 이해 가능. 실험 설계가 직관적.

축	RACE (본 논문)	SQuAD (2016)	CNN/DailyMail (2015)	ARC (2018)
핵심 접근	시험 문제 수집	크라우드소싱 span QA	자동 cloze 생성	과학 시험 문제
답변 형태	사지선다	Span extraction	Fill-in-the-blank	사지선다
추론 깊이	높음 (다단계)	중간 (표면 매칭 가능)	낮음	높음
데이터 규모	100K 문항	100K+ QA	1M+	7.7K
모델-인간 격차	52%p	~10%p	~5%p	~40%p

원자적 인사이트 (Zettelkasten)

💡 교육 시험 문제는 NLP 모델의 추론 능력을 평가하는 효과적 벤치마크이다

출처: RACE - Large-scale ReAding Comprehension Dataset From Examinations 1 (Lai et al., 2017)
유형: 방법론적

전문 교사가 의도적으로 추론을 요구하도록 설계한 시험 문제는, 크라우드소싱이나 자동 생성 문항에 비해 표면 매칭 shortcut을 줄이고 깊은 이해를 평가할 수 있다. 이 원칙은 이후 MMLU, ARC 등 시험 기반 벤치마크로 계승되었다.

핵심 조건/맥락: 시험 문제의 품질은 출제자의 전문성에 의존.
연결: ARC, MMLU, GPQA
활용 가능성: LLM 평가에서 시험 기반 벤치마크의 설계 원칙으로 참고.

핵심 용어 정리

용어	정의
RACE	중국 중·고등학교 영어 시험에서 수집한 독해 이해 데이터셋
RACE-M / RACE-H	각각 중학교(Middle)와 고등학교(High) 문항 부분집합
Span Extraction	지문에서 답변에 해당하는 연속 텍스트 구간을 추출하는 QA 형태
Cloze Test	텍스트의 빈칸을 채우는 형태의 독해 평가
Stanford AR	Attentive Reader 기반 독해 이해 모델

Juhyeon's Blog

탐색기

RACE - Large-scale ReAding Comprehension Dataset From Examinations 1