Digest: Allen Institute for AI(AI2)는 기존 과학 QA 벤치마크의 근본적 문제를 지적했다: 대부분의 문제가 단순 **정보 검색(retrieval)**이나 단어 매칭만으로 풀린다는 것이다. **ARC(AI2 Reasoning Challenge)**는 3~9학년 과학 시험 7,787개 4지선다 문제를 수집한 뒤, 정보 검색과 단어 동시출현(co-occurrence) 알고리즘으로 풀리는 쉬운 문제(Easy Set)와 풀리지 않는 어려운 문제(Challenge Set)로 분리했다. 핵심 통찰은 벤치마크에서 “쉬운 문제를 필터링”함으로써 진정한 추론이 필요한 문제만 남긴다는 것이다. 2018년 기준 최고 모델이 Challenge Set에서 36.6% (Table 2), 랜덤 25%와 큰 차이가 없어 과학 추론의 어려움을 보여주었다.
메타데이터
항목
내용
제목
Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge
저자
Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, Oyvind Tafjord
Question: Which of the following best describes the function
of the heart?
A. It fights off infections
B. It pumps blood throughout the body
C. It carries messages to the brain
D. It removes waste from the blood
Answer: B
(단순 사실 기억)
예시 2: Challenge Set (추론 필요)
Question: A student placed a cup of hot water and a cup of
cold water in a freezer. Which of the following describes
what will happen to the two cups of water?
A. The hot water will freeze first because hot water freezes faster
B. The cold water will freeze first because it is closer to 0°C
C. Both cups will freeze at the same time
D. Neither cup will freeze because they are liquids
Answer: B
(열역학적 추론 필요)
예시 3: Challenge Set (실험 설계)
Question: A group of students wanted to test which fertilizer
helps plants grow taller. What should they keep the same
in their experiment?
A. The type of fertilizer
B. The amount of water given to each plant
C. The height of each plant at the end
D. The type of plants and the fertilizer
Answer: B
(실험 설계 - 통제 변인 이해)
왜 이 연구를 하는가?
핵심 질문
기존 QA 벤치마크가 정말로 “추론”을 측정하고 있는가, 아니면 단순 검색/매칭으로 풀 수 있는가?
기존 접근법의 한계
한계
설명
검색으로 풀리는 문제
SQuAD 등은 지문에서 답을 직접 추출 가능
표면적 단서
많은 과학 QA가 키워드 매칭만으로 해결됨
추론 미요구
”왜?”, “어떻게?”를 묻지 않는 단순 사실 문제
핵심 통찰
벤치마크에서 쉬운 문제를 체계적으로 필터링하면, 모델이 진정한 추론 능력 없이는 풀 수 없는 문제만 남는다. 이 “적대적 필터링(adversarial filtering)” 아이디어는 이후 HellaSwag, WinoGrande 등에도 영향을 주었다.
방법 (Method)
프레임워크 개요
graph TB
A["3-9학년 과학 시험<br/>7,787 문제 수집"] --> B["기본 솔버로 평가"]
B --> C["IR 솔버<br/>(정보 검색)"]
B --> D["PMI 솔버<br/>(단어 동시출현)"]
C --> E{"정답?"}
D --> E
E -->|"둘 다 실패"| F["Challenge Set<br/>(2,590 문제)"]
E -->|"하나라도 성공"| G["Easy Set<br/>(5,197 문제)"]
발견 (Findings)
주요 결과 (Challenge Set, 정확도)
모델
Challenge
Easy
Random
25.0%
25.0%
IR Solver
20.3%
62.6%
PMI
26.6%
41.7%
BiDAF (Reading Comprehension)
26.2%
50.1%
DecompAttn
36.6%
58.2%
(Table 2, 2018 기준)
이후 발전
모델
ARC-Challenge
연도
GPT-3.5
~79%
2023
GPT-4
~96%
2023
Claude 3.5
~96%
2024
핵심 발견
Challenge Set의 난이도: 2018년 최고 모델도 랜덤(25%)과 큰 차이 없는 36.6% (Table 2)
Easy/Challenge 격차: 같은 모델이 Easy에서 58%, Challenge에서 36% — 추론 요구의 차이
IR 솔버의 한계: 정보 검색은 Challenge Set에서 랜덤 이하(20.3%) — 검색만으로는 불가
과학 추론의 다양성: 인과, 실험 설계, 프로세스 이해 등 다양한 추론 유형 요구
이론적 의의
적대적 필터링의 선구
ARC의 “쉬운 문제 필터링” 방법론은 이후 HellaSwag(Adversarial Filtering), WinoGrande(AfLite) 등 영향력 있는 벤치마크 설계에 직접적 영향을 주었다. “벤치마크의 품질은 어려운 문제의 비율이 결정한다”는 철학을 확립했다.