ARC-AGI: Abstraction and Reasoning Corpus

Digest: Keras 창시자 François Chollet이 “On the Measure of Intelligence” (arXiv:1911.01547)에서 제안한 **ARC(Abstraction and Reasoning Corpus)**와 이를 기반으로 한 ARC-AGI Prize 2024 ($1M 상금 대회). 가변 크기 2D 컬러 그리드 퍼즐에서 2–5개의 입출력 예시를 보고 변환 규칙을 추상화한 뒤 새로운 입력에 일반화하는 능력을 측정한다. 핵심 철학은 “지능 = 스킬 그 자체가 아니라 스킬 습득 효율성(skill-acquisition efficiency)“이며, 인간 Core Knowledge 체계(객체성, 목표 지향성, 수/기하학)를 전제 조건으로 설정한다. 인간 평균 ~85%에 비해 GPT-4V ~5–10%, 2024 Kaggle 최고 솔루션 ~33%로 현재 AI의 진정한 일반화 능력 부재를 드러내는 리트머스 테스트이다.

메타데이터

항목	내용
논문	”On the Measure of Intelligence” (arXiv:1911.01547)
제안자	François Chollet (Google)
원본 ARC	2019년 공개
ARC-AGI Prize	2024년 ($1,000,000 상금)
형식	2D 컬러 그리드 입출력 쌍 → 변환 규칙 추론
평가 지표	Exact Match (예측 그리드가 정답과 정확히 일치)
라이선스	Apache 2.0
데이터 접근	GitHub / arcprize.org

데이터셋 구성

규모 및 분할

분할	태스크 수	용도
Training	400	공개, 솔루션 개발용
Evaluation	400	공개, 성능 검증용
Hidden Test	200	비공개, 최종 리더보드 채점
합계	1,000	—

Feature/Column 구조

각 태스크는 JSON 형식으로 다음 필드를 포함한다:

필드	타입	설명
`task_id`	string	고유 태스크 식별자 (예: `007bbfb7`)
`train`	list[dict]	데모 쌍 2–5개. 각 원소: `{"input": 2D grid, "output": 2D grid}`
`test`	list[dict]	테스트 쌍 1–3개. 입력만 제공, 출력을 예측해야 함

그리드 크기: 1×1 ~ 30×30 (가변)
색상 값: 0–9 정수 (10가지 색상)
변환 유형: 회전, 반사, 색상 매핑, 패턴 완성, 객체 이동/조작, 대칭, 확대/축소 등

난이도 분포

난이도	비율 (추정)	특징
Easy	~30%	단일 변환 (예: 색상 교체, 단순 반사)
Medium	~45%	복합 변환 (예: 객체 감지 + 이동 + 색칠)
Hard	~25%	다단계 추상화 (예: 재귀 패턴, 조건부 규칙)

실제 데이터 예시

예시 1: 수평 반사 (Horizontal Reflection)

Train Demo:

Input:          Output:
1 0 0           0 0 1
0 2 0    →      0 2 0
0 0 3           3 0 0

Test:

Input:          Expected Output:
4 0 0           0 0 4
0 5 0    →      0 5 0
0 0 6           6 0 0

규칙: 그리드를 좌우 반전(수평 반사)한다.

예시 2: 색상 매핑 (Color Mapping)

Train Demos:

Demo 1:                    Demo 2:
Input:     Output:         Input:     Output:
1 1 0      3 3 0           2 0 2      4 0 4
0 1 0  →   0 3 0           0 2 0  →   0 4 0

Test:

Input:          Expected Output:
5 0 5           7 0 7
0 5 0    →      0 7 0

규칙: 특정 색상 값을 다른 색상으로 일대일 대응시킨다. (1→3, 2→4, 5→7)

예시 3: 패턴 확장 (Pattern Expansion)

Train Demo:

Input (2×2):    Output (4×4):
1 2             1 2 1 2
3 4      →      3 4 3 4
                1 2 1 2
                3 4 3 4

규칙: 입력 그리드를 2×2 타일링하여 확장한다.

왜 이 연구를 하는가?

기존 벤치마크의 한계

기존 AI 벤치마크(ImageNet, GLUE, SuperGLUE 등)는 대규모 데이터 기반 패턴 매칭 능력을 측정한다. LLM이 이런 벤치마크를 “풀어버린” 현재, 두 가지 근본적 질문이 남는다:

일반화 vs. 암기: 높은 벤치마크 점수가 진정한 이해를 반영하는가?
지능의 정의: “지능”을 어떻게 정량적으로 측정할 것인가?

ARC의 철학적 입장

Chollet은 지능 = 스킬 습득 효율성이라 정의한다. 이미 학습된 스킬을 평가하는 것이 아니라, 새로운 태스크를 최소한의 경험으로 얼마나 빠르게 해결하는가를 측정해야 한다는 것이다. ARC는 이를 위해:

각 태스크가 고유한 변환 규칙을 가짐 (암기 불가)
데모 예시 2–5개만 제공 (few-shot)
인간의 Core Knowledge 체계만 전제 조건으로 가정

방법 (Method)

평가 프로토콜

flowchart LR
    A["태스크 로드<br/>task.json"] --> B["Train Demos<br/>2-5 쌍 관찰"]
    B --> C["변환 규칙<br/>추론/추상화"]
    C --> D["Test Input에<br/>규칙 적용"]
    D --> E["Output Grid<br/>생성"]
    E --> F{"Exact Match?"}
    F -->|일치| G["✓ 정답"]
    F -->|불일치| H["✗ 오답"]

Core Knowledge Priors (전제 조건)

Chollet이 정의한 인간 선천 지식 체계로, ARC 태스크 설계의 기반이 된다:

Prior	설명	ARC에서의 예시
Objectness	응집된 객체 인식	연결된 같은 색상 셀을 하나의 객체로 인식
Goal-directedness	목표 지향성	변환의 “의도”를 파악
Numbers & Counting	수와 셈	객체 수 세기, 크기 비교
Basic Geometry	기초 기하학	회전, 대칭, 확대/축소 이해

ARC-AGI-2 (2025)

2025년 발표된 ARC-AGI-2는 더 어려운 버전으로, 기존 ARC를 풀기 시작한 시스템에 대한 상한선을 높였다. 현재 SOTA ~4%로, AGI까지의 거리를 재확인시킨다.

발견 (Findings)

주요 성능 비교

접근법	정확도	비고
인간 (평균)	~85%	Mechanical Turk 기반 측정
인간 (전문가)	~95%+	퍼즐 전문가
ARC Prize 2024 1위	~33%	프로그램 합성 + 탐색
GPT-4V (2024)	~5–10%	비전-언어 모델
GPT-4o (2024)	~5%	텍스트 기반 추론
기본 CNN/ResNet	<3%	지도 학습 접근
ARC-AGI-2 SOTA	~4%	2025년 기준

성공/실패 패턴

AI가 잘 푸는 유형: 단순 색상 교체, 단일 축 반사, 크기 변환
AI가 실패하는 유형: 다단계 추상화, 조건부 규칙, 객체 간 관계 추론, 재귀적 패턴

핵심 발견

Scale ≠ Generalization: 파라미터 수 증가가 ARC 성능 향상으로 이어지지 않음
프로그램 합성이 유망: DSL(Domain-Specific Language) 기반 탐색이 신경망보다 효과적
인간-AI 격차 지속: 52–80% 포인트의 격차가 “진정한 추론 능력”의 부재를 시사
Few-shot의 본질적 어려움: 2–5개 예시로 규칙을 추론하는 것은 현재 AI 패러다임의 근본적 한계

이론적 의의

지능 측정 프레임워크

ARC는 단순한 벤치마크를 넘어 지능의 정량적 측정 이론을 제시한다:

$Intelligence \approx \frac{Generalization Skill}{Experience (Prior + Training)}$

이 프레임워크에서:

높은 지능 = 적은 경험으로 넓은 범위의 태스크를 해결
낮은 지능 = 대규모 데이터로 좁은 범위의 태스크만 해결

AGI 연구에 대한 함의

벤치마크 설계 패러다임 전환: 정적 데이터셋 → 동적/생성적 평가
Core Knowledge 기반 설계: 인간 인지 발달 이론과 AI 평가의 접점
Memorization 방지: 각 태스크가 고유하므로 training set 암기가 무의미
AI 안전성 연구와의 연결: 진정한 일반화 능력이 있어야 신뢰할 수 있는 AI 시스템 구축 가능

벤치마크	관계
MMLU_2020_Multitask	지식 기반 vs. 추론 기반 평가의 대비
GPQA_2023_GraduateLevel	전문가 수준 추론, 다른 접근
HumanEval_2021_CodeGeneration	코드 생성 ≈ 프로그램 합성의 한 형태
MATH_2021_CompetitionMath	수학적 추론, ARC와 상보적
BBH_2022_BIGBenchHard	어려운 추론 태스크 모음
HellaSwag_2019_CommonsenseReasoning	상식 추론, Core Knowledge와 관련
FrontierMath_2024_ResearchMath	최전선 난이도 평가, ARC와 유사한 철학

핵심 용어 정리

용어	정의
Skill-Acquisition Efficiency	새로운 태스크를 최소 경험으로 학습하는 능력; Chollet의 지능 정의
Core Knowledge	인간이 선천적으로 갖는 인지 체계 (객체성, 수, 기하학 등)
Program Synthesis	입출력 예시로부터 프로그램(변환 규칙)을 자동 생성하는 기법
DSL (Domain-Specific Language)	특정 도메인에 특화된 프로그래밍 언어; ARC 솔루션에서 변환 규칙 표현에 사용
Exact Match	예측 출력 그리드가 정답과 셀 단위로 완전히 일치해야 정답으로 인정
Abstract Reasoning	구체적 사례에서 일반적 규칙을 추출하고 새로운 상황에 적용하는 능력
Few-shot Generalization	소수의 예시만으로 새로운 패턴/규칙을 학습하여 일반화하는 것

benchmark reasoning abstraction generalization ARC AGI Chollet few-shot program-synthesis core-knowledge

Juhyeon's Blog

탐색기

ARC-AGI - Abstraction and Reasoning Corpus