AI2 추론 챌린지: ARC 데이터셋

Digest: Allen Institute for AI(AI2)는 기존 과학 QA 벤치마크의 근본적 문제를 지적했다: 대부분의 문제가 단순 **정보 검색(retrieval)**이나 단어 매칭만으로 풀린다는 것이다. **ARC(AI2 Reasoning Challenge)**는 3~9학년 과학 시험 7,787개 4지선다 문제를 수집한 뒤, 정보 검색과 단어 동시출현(co-occurrence) 알고리즘으로 풀리는 쉬운 문제(Easy Set)와 풀리지 않는 어려운 문제(Challenge Set)로 분리했다. 핵심 통찰은 벤치마크에서 “쉬운 문제를 필터링”함으로써 진정한 추론이 필요한 문제만 남긴다는 것이다. 2018년 기준 최고 모델이 Challenge Set에서 36.6% (Table 2), 랜덤 25%와 큰 차이가 없어 과학 추론의 어려움을 보여주었다.

메타데이터

항목	내용
제목	Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge
저자	Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, Oyvind Tafjord
소속	Allen Institute for AI (AI2)
연도	2018
발표	arXiv:1803.05457
링크	arXiv, Dataset
키워드	ARC, science reasoning, challenge set, adversarial filtering, question answering

데이터셋 구성

규모 및 분할

항목	Easy Set	Challenge Set	전체
Train	2,251	1,119	3,370
Dev	570	299	869
Test	2,376	1,172	3,548
합계	5,197	2,590	7,787

Feature/Column 구조

필드	설명	예시
`id`	문제 고유 ID	`MCAS_2004_8_29`
`question`	문제 텍스트	`"Which property of a mineral..."`
`choices`	보기 목록	`[{"label":"A","text":"color"}, ...]`
`answerKey`	정답 라벨	`"C"`
`split`	Easy/Challenge	`"Challenge"`

Easy vs Challenge 분류 기준

기준	Easy Set	Challenge Set
IR 솔버	✓ 정답 가능	✗ 정답 불가
PMI (단어 동시출현)	✓ 정답 가능	✗ 정답 불가
필요 능력	사실 기억, 키워드 매칭	추론, 인과관계, 실험 설계

실제 데이터 예시

예시 1: Easy Set

Question: Which of the following best describes the function
of the heart?
A. It fights off infections
B. It pumps blood throughout the body
C. It carries messages to the brain
D. It removes waste from the blood

Answer: B
(단순 사실 기억)

예시 2: Challenge Set (추론 필요)

Question: A student placed a cup of hot water and a cup of
cold water in a freezer. Which of the following describes
what will happen to the two cups of water?

A. The hot water will freeze first because hot water freezes faster
B. The cold water will freeze first because it is closer to 0°C
C. Both cups will freeze at the same time
D. Neither cup will freeze because they are liquids

Answer: B
(열역학적 추론 필요)

예시 3: Challenge Set (실험 설계)

Question: A group of students wanted to test which fertilizer
helps plants grow taller. What should they keep the same
in their experiment?

A. The type of fertilizer
B. The amount of water given to each plant
C. The height of each plant at the end
D. The type of plants and the fertilizer

Answer: B
(실험 설계 - 통제 변인 이해)

왜 이 연구를 하는가?

핵심 질문

기존 QA 벤치마크가 정말로 “추론”을 측정하고 있는가, 아니면 단순 검색/매칭으로 풀 수 있는가?

기존 접근법의 한계

한계	설명
검색으로 풀리는 문제	SQuAD 등은 지문에서 답을 직접 추출 가능
표면적 단서	많은 과학 QA가 키워드 매칭만으로 해결됨
추론 미요구	”왜?”, “어떻게?”를 묻지 않는 단순 사실 문제

핵심 통찰

벤치마크에서 쉬운 문제를 체계적으로 필터링하면, 모델이 진정한 추론 능력 없이는 풀 수 없는 문제만 남는다. 이 “적대적 필터링(adversarial filtering)” 아이디어는 이후 HellaSwag, WinoGrande 등에도 영향을 주었다.

방법 (Method)

프레임워크 개요

graph TB
    A["3-9학년 과학 시험<br/>7,787 문제 수집"] --> B["기본 솔버로 평가"]

    B --> C["IR 솔버<br/>(정보 검색)"]
    B --> D["PMI 솔버<br/>(단어 동시출현)"]

    C --> E{"정답?"}
    D --> E

    E -->|"둘 다 실패"| F["Challenge Set<br/>(2,590 문제)"]
    E -->|"하나라도 성공"| G["Easy Set<br/>(5,197 문제)"]

발견 (Findings)

주요 결과 (Challenge Set, 정확도)

모델	Challenge	Easy
Random	25.0%	25.0%
IR Solver	20.3%	62.6%
PMI	26.6%	41.7%
BiDAF (Reading Comprehension)	26.2%	50.1%
DecompAttn	36.6%	58.2%

(Table 2, 2018 기준)

이후 발전

모델	ARC-Challenge	연도
GPT-3.5	~79%	2023
GPT-4	~96%	2023
Claude 3.5	~96%	2024

핵심 발견

Challenge Set의 난이도: 2018년 최고 모델도 랜덤(25%)과 큰 차이 없는 36.6% (Table 2)
Easy/Challenge 격차: 같은 모델이 Easy에서 58%, Challenge에서 36% — 추론 요구의 차이
IR 솔버의 한계: 정보 검색은 Challenge Set에서 랜덤 이하(20.3%) — 검색만으로는 불가
과학 추론의 다양성: 인과, 실험 설계, 프로세스 이해 등 다양한 추론 유형 요구

이론적 의의

적대적 필터링의 선구

ARC의 “쉬운 문제 필터링” 방법론은 이후 HellaSwag(Adversarial Filtering), WinoGrande(AfLite) 등 영향력 있는 벤치마크 설계에 직접적 영향을 주었다. “벤치마크의 품질은 어려운 문제의 비율이 결정한다”는 철학을 확립했다.

핵심 용어 정리

용어	정의
ARC	AI2 Reasoning Challenge. 과학 추론 벤치마크
Challenge Set	정보 검색과 통계적 방법으로 풀리지 않는 어려운 문제 부분집합
Easy Set	기본 솔버로 풀리는 비교적 쉬운 문제 부분집합
IR Solver	Information Retrieval Solver. 외부 코퍼스에서 관련 문장을 검색하여 답을 찾는 방법
PMI	Pointwise Mutual Information. 단어 간 동시출현 통계량
Adversarial Filtering	기본 모델이 풀 수 있는 쉬운 예시를 필터링하여 벤치마크 난이도를 높이는 방법

Juhyeon's Blog

탐색기

Think you have Solved Question Answering Try ARC, the AI2 Reasoning Challenge