RACE: 시험 문제 기반 대규모 독해 이해 데이터셋

Digest: 기존 독해 이해(reading comprehension) 데이터셋은 크라우드소싱이나 자동 생성 방식으로 구축되어 추론 깊이가 얕은 질문이 대부분이었다. Lai 등은 이를 해결하기 위해 중국 중·고등학교 영어 시험에서 전문 교사가 출제한 질문을 활용했다. 결과적으로 약 28,000개 지문과 100,000개 사지선다 문항을 수집하여 RACE(ReAding Comprehension dataset from Examinations)를 구축했다. 시험 문제의 특성상 단순 표면 매칭이 아닌 다단계 추론, 요약, 태도 분석 등 고차원 이해 능력을 요구한다. 당시 SOTA 모델이 43% 정확도에 그친 반면 인간 성능은 **95%**로, 52%p라는 극단적 격차가 독해 이해 연구의 난제를 부각했다. 한계점으로는 중국 교육과정 특유의 출제 패턴 편향, 시험이라는 특수한 맥락 의존성, 영어가 외국어인 학생 대상이라는 점이 있다. 미해결 질문은 시험 문제 기반 추론 능력이 일반적 독해 이해 능력과 동치인지, 그리고 다단계 추론을 체계적으로 분류하고 평가하는 방법이다.


섹션별 요약

Introduction

SQuAD, CNN/DailyMail 등 기존 독해 데이터셋은 span extraction이나 cloze 형태로, 대부분 텍스트 표면 매칭으로 답변 가능했다. 교육 시험은 전문가가 의도적으로 추론이 필요한 문제를 설계하므로, 더 도전적이고 다양한 추론을 요구한다.

Methods

데이터 소스: 중국 중학교(RACE-M)와 고등학교(RACE-H) 영어 시험에서 지문과 사지선다 문항을 수집.

데이터 규모: 약 28,000개 지문, ~100,000개 문항 (RACE-M: ~28K 문항, RACE-H: ~62K 문항).

문항 유형 분석: 세부 정보 이해, 추론, 주제 파악, 태도/톤 분석, 어휘 의미 등 다양한 인지 수준을 포괄.

Results

모델RACE-MRACE-HRACE (전체)
랜덤25.0%25.0%25.0%
Sliding Window37.3%30.4%32.2%
Stanford AR44.2%43.0%43.3%
GA Reader43.7%44.2%44.1%
인간 수준95.4%94.2%94.5%

Discussion

RACE-H(고등학교)가 RACE-M(중학교)보다 난이도가 높으며, 특히 추론형 문항에서 모델 성능이 급격히 하락. 시험 문제의 추론 요구 수준이 높아 당시 모델의 근본적 한계를 노출.

Insights

  • 주목할 점: 모델-인간 격차 52%p는 당시 NLP 벤치마크 중 가장 큰 수준.
  • 연결 고리: RACE → GLUE/SuperGLUE에서의 다중선택 QA 평가 → 현대 LLM 벤치마크(MMLU 등)로 이어지는 시험 기반 평가 전통.
  • 비판적 코멘트: 중국 교육과정 특유의 문항 형태(주제 파악, 태도 분석)가 보편적 독해 능력 평가에 편향을 줄 수 있음.

메타데이터

항목내용
제목RACE: Large-scale ReAding Comprehension Dataset From Examinations
저자Guokun Lai, Qizhe Xie, Hanxiao Liu, Yiming Yang, Eduard Hovy
소속Carnegie Mellon University
연도2017
발표EMNLP 2017
링크arXiv, 데이터셋, GitHub
키워드reading comprehension, multiple choice QA, exam, RACE

방법 (Method)

프레임워크 개요

graph TB
    A["중국 중·고등학교<br/>영어 시험 수집"] --> B["지문 + 사지선다 문항 추출"]
    B --> C["RACE-M<br/>(중학교, ~28K 문항)"]
    B --> D["RACE-H<br/>(고등학교, ~62K 문항)"]
    C --> E["Train / Dev / Test 분할"]
    D --> E
    E --> F["NLI 형태로 변환 가능<br/>(지문=전제, 선택지=가설)"]

재현성 및 신뢰도 평가

항목등급비고
코드 공개GitHub 공개
데이터 공개공개 다운로드 가능
하이퍼파라미터베이스라인 상세 기술
실험 환경재현 가능 수준 기술
통계적 신뢰도⚠️단일 실행
종합 등급A-

주장별 신뢰도

#주장근거신뢰도
1시험 문제가 크라우드소싱보다 추론 요구 수준이 높음문항 유형 분석으로 다단계 추론 비율 제시🟢
2SOTA 모델(43%)과 인간(95%) 간 극단적 격차복수 모델 일관된 결과🟢
3RACE-H가 RACE-M보다 어려움고등학교 문항의 추론 복잡도가 높음을 정량적으로 입증🟢

읽기 난이도: ⭐⭐

독해 이해 과제의 기본 개념만 있으면 이해 가능. 실험 설계가 직관적.


관련 연구 비교 매트릭스

RACE (본 논문)SQuAD (2016)CNN/DailyMail (2015)ARC (2018)
핵심 접근시험 문제 수집크라우드소싱 span QA자동 cloze 생성과학 시험 문제
답변 형태사지선다Span extractionFill-in-the-blank사지선다
추론 깊이높음 (다단계)중간 (표면 매칭 가능)낮음높음
데이터 규모100K 문항100K+ QA1M+7.7K
모델-인간 격차52%p~10%p~5%p~40%p

원자적 인사이트 (Zettelkasten)

💡 교육 시험 문제는 NLP 모델의 추론 능력을 평가하는 효과적 벤치마크이다

출처: RACE - Large-scale ReAding Comprehension Dataset From Examinations 1 (Lai et al., 2017)
유형: 방법론적

전문 교사가 의도적으로 추론을 요구하도록 설계한 시험 문제는, 크라우드소싱이나 자동 생성 문항에 비해 표면 매칭 shortcut을 줄이고 깊은 이해를 평가할 수 있다. 이 원칙은 이후 MMLU, ARC 등 시험 기반 벤치마크로 계승되었다.

핵심 조건/맥락: 시험 문제의 품질은 출제자의 전문성에 의존.
연결: ARC, MMLU, GPQA
활용 가능성: LLM 평가에서 시험 기반 벤치마크의 설계 원칙으로 참고.


핵심 용어 정리

용어정의
RACE중국 중·고등학교 영어 시험에서 수집한 독해 이해 데이터셋
RACE-M / RACE-H각각 중학교(Middle)와 고등학교(High) 문항 부분집합
Span Extraction지문에서 답변에 해당하는 연속 텍스트 구간을 추출하는 QA 형태
Cloze Test텍스트의 빈칸을 채우는 형태의 독해 평가
Stanford ARAttentive Reader 기반 독해 이해 모델

태그

paper #2017 RACE reading-comprehension QA multiple-choice exam benchmark EMNLP