AI2 추론 챌린지: ARC 데이터셋

Digest: Allen Institute for AI(AI2)는 기존 과학 QA 벤치마크의 근본적 문제를 지적했다: 대부분의 문제가 단순 **정보 검색(retrieval)**이나 단어 매칭만으로 풀린다는 것이다. **ARC(AI2 Reasoning Challenge)**는 3~9학년 과학 시험 7,787개 4지선다 문제를 수집한 뒤, 정보 검색과 단어 동시출현(co-occurrence) 알고리즘으로 풀리는 쉬운 문제(Easy Set)와 풀리지 않는 어려운 문제(Challenge Set)로 분리했다. 핵심 통찰은 벤치마크에서 “쉬운 문제를 필터링”함으로써 진정한 추론이 필요한 문제만 남긴다는 것이다. 2018년 기준 최고 모델이 Challenge Set에서 36.6% (Table 2), 랜덤 25%와 큰 차이가 없어 과학 추론의 어려움을 보여주었다.


메타데이터

항목내용
제목Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge
저자Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, Oyvind Tafjord
소속Allen Institute for AI (AI2)
연도2018
발표arXiv:1803.05457
링크arXiv, Dataset
키워드ARC, science reasoning, challenge set, adversarial filtering, question answering

데이터셋 구성

규모 및 분할

항목Easy SetChallenge Set전체
Train2,2511,1193,370
Dev570299869
Test2,3761,1723,548
합계5,1972,5907,787

Feature/Column 구조

필드설명예시
id문제 고유 IDMCAS_2004_8_29
question문제 텍스트"Which property of a mineral..."
choices보기 목록[{"label":"A","text":"color"}, ...]
answerKey정답 라벨"C"
splitEasy/Challenge"Challenge"

Easy vs Challenge 분류 기준

기준Easy SetChallenge Set
IR 솔버✓ 정답 가능✗ 정답 불가
PMI (단어 동시출현)✓ 정답 가능✗ 정답 불가
필요 능력사실 기억, 키워드 매칭추론, 인과관계, 실험 설계

실제 데이터 예시

예시 1: Easy Set

Question: Which of the following best describes the function
of the heart?
A. It fights off infections
B. It pumps blood throughout the body
C. It carries messages to the brain
D. It removes waste from the blood

Answer: B
(단순 사실 기억)

예시 2: Challenge Set (추론 필요)

Question: A student placed a cup of hot water and a cup of
cold water in a freezer. Which of the following describes
what will happen to the two cups of water?

A. The hot water will freeze first because hot water freezes faster
B. The cold water will freeze first because it is closer to 0°C
C. Both cups will freeze at the same time
D. Neither cup will freeze because they are liquids

Answer: B
(열역학적 추론 필요)

예시 3: Challenge Set (실험 설계)

Question: A group of students wanted to test which fertilizer
helps plants grow taller. What should they keep the same
in their experiment?

A. The type of fertilizer
B. The amount of water given to each plant
C. The height of each plant at the end
D. The type of plants and the fertilizer

Answer: B
(실험 설계 - 통제 변인 이해)

왜 이 연구를 하는가?

핵심 질문

기존 QA 벤치마크가 정말로 “추론”을 측정하고 있는가, 아니면 단순 검색/매칭으로 풀 수 있는가?

기존 접근법의 한계

한계설명
검색으로 풀리는 문제SQuAD 등은 지문에서 답을 직접 추출 가능
표면적 단서많은 과학 QA가 키워드 매칭만으로 해결됨
추론 미요구”왜?”, “어떻게?”를 묻지 않는 단순 사실 문제

핵심 통찰

벤치마크에서 쉬운 문제를 체계적으로 필터링하면, 모델이 진정한 추론 능력 없이는 풀 수 없는 문제만 남는다. 이 “적대적 필터링(adversarial filtering)” 아이디어는 이후 HellaSwag, WinoGrande 등에도 영향을 주었다.


방법 (Method)

프레임워크 개요

graph TB
    A["3-9학년 과학 시험<br/>7,787 문제 수집"] --> B["기본 솔버로 평가"]

    B --> C["IR 솔버<br/>(정보 검색)"]
    B --> D["PMI 솔버<br/>(단어 동시출현)"]

    C --> E{"정답?"}
    D --> E

    E -->|"둘 다 실패"| F["Challenge Set<br/>(2,590 문제)"]
    E -->|"하나라도 성공"| G["Easy Set<br/>(5,197 문제)"]

발견 (Findings)

주요 결과 (Challenge Set, 정확도)

모델ChallengeEasy
Random25.0%25.0%
IR Solver20.3%62.6%
PMI26.6%41.7%
BiDAF (Reading Comprehension)26.2%50.1%
DecompAttn36.6%58.2%

(Table 2, 2018 기준)

이후 발전

모델ARC-Challenge연도
GPT-3.5~79%2023
GPT-4~96%2023
Claude 3.5~96%2024

핵심 발견

  1. Challenge Set의 난이도: 2018년 최고 모델도 랜덤(25%)과 큰 차이 없는 36.6% (Table 2)
  2. Easy/Challenge 격차: 같은 모델이 Easy에서 58%, Challenge에서 36% — 추론 요구의 차이
  3. IR 솔버의 한계: 정보 검색은 Challenge Set에서 랜덤 이하(20.3%) — 검색만으로는 불가
  4. 과학 추론의 다양성: 인과, 실험 설계, 프로세스 이해 등 다양한 추론 유형 요구

이론적 의의

적대적 필터링의 선구

ARC의 “쉬운 문제 필터링” 방법론은 이후 HellaSwag(Adversarial Filtering), WinoGrande(AfLite) 등 영향력 있는 벤치마크 설계에 직접적 영향을 주었다. “벤치마크의 품질은 어려운 문제의 비율이 결정한다”는 철학을 확립했다.


관련 연구


핵심 용어 정리

용어정의
ARCAI2 Reasoning Challenge. 과학 추론 벤치마크
Challenge Set정보 검색과 통계적 방법으로 풀리지 않는 어려운 문제 부분집합
Easy Set기본 솔버로 풀리는 비교적 쉬운 문제 부분집합
IR SolverInformation Retrieval Solver. 외부 코퍼스에서 관련 문장을 검색하여 답을 찾는 방법
PMIPointwise Mutual Information. 단어 간 동시출현 통계량
Adversarial Filtering기본 모델이 풀 수 있는 쉬운 예시를 필터링하여 벤치마크 난이도를 높이는 방법

태그

paper #2018 benchmark science_reasoning ARC challenge_set AI2 adversarial_filtering