ARC-AGI: Abstraction and Reasoning Corpus
Digest: Keras 창시자 François Chollet이 “On the Measure of Intelligence” (arXiv:1911.01547)에서 제안한 **ARC(Abstraction and Reasoning Corpus)**와 이를 기반으로 한 ARC-AGI Prize 2024 ($1M 상금 대회). 가변 크기 2D 컬러 그리드 퍼즐에서 2–5개의 입출력 예시를 보고 변환 규칙을 추상화한 뒤 새로운 입력에 일반화하는 능력을 측정한다. 핵심 철학은 “지능 = 스킬 그 자체가 아니라 스킬 습득 효율성(skill-acquisition efficiency)“이며, 인간 Core Knowledge 체계(객체성, 목표 지향성, 수/기하학)를 전제 조건으로 설정한다. 인간 평균 ~85%에 비해 GPT-4V ~5–10%, 2024 Kaggle 최고 솔루션 ~33%로 현재 AI의 진정한 일반화 능력 부재를 드러내는 리트머스 테스트이다.
메타데이터
| 항목 | 내용 |
|---|---|
| 논문 | ”On the Measure of Intelligence” (arXiv:1911.01547) |
| 제안자 | François Chollet (Google) |
| 원본 ARC | 2019년 공개 |
| ARC-AGI Prize | 2024년 ($1,000,000 상금) |
| 형식 | 2D 컬러 그리드 입출력 쌍 → 변환 규칙 추론 |
| 평가 지표 | Exact Match (예측 그리드가 정답과 정확히 일치) |
| 라이선스 | Apache 2.0 |
| 데이터 접근 | GitHub / arcprize.org |
데이터셋 구성
규모 및 분할
| 분할 | 태스크 수 | 용도 |
|---|---|---|
| Training | 400 | 공개, 솔루션 개발용 |
| Evaluation | 400 | 공개, 성능 검증용 |
| Hidden Test | 200 | 비공개, 최종 리더보드 채점 |
| 합계 | 1,000 | — |
Feature/Column 구조
각 태스크는 JSON 형식으로 다음 필드를 포함한다:
| 필드 | 타입 | 설명 |
|---|---|---|
task_id | string | 고유 태스크 식별자 (예: 007bbfb7) |
train | list[dict] | 데모 쌍 2–5개. 각 원소: {"input": 2D grid, "output": 2D grid} |
test | list[dict] | 테스트 쌍 1–3개. 입력만 제공, 출력을 예측해야 함 |
- 그리드 크기: 1×1 ~ 30×30 (가변)
- 색상 값: 0–9 정수 (10가지 색상)
- 변환 유형: 회전, 반사, 색상 매핑, 패턴 완성, 객체 이동/조작, 대칭, 확대/축소 등
난이도 분포
| 난이도 | 비율 (추정) | 특징 |
|---|---|---|
| Easy | ~30% | 단일 변환 (예: 색상 교체, 단순 반사) |
| Medium | ~45% | 복합 변환 (예: 객체 감지 + 이동 + 색칠) |
| Hard | ~25% | 다단계 추상화 (예: 재귀 패턴, 조건부 규칙) |
실제 데이터 예시
예시 1: 수평 반사 (Horizontal Reflection)
Train Demo:
Input: Output:
1 0 0 0 0 1
0 2 0 → 0 2 0
0 0 3 3 0 0
Test:
Input: Expected Output:
4 0 0 0 0 4
0 5 0 → 0 5 0
0 0 6 6 0 0
규칙: 그리드를 좌우 반전(수평 반사)한다.
예시 2: 색상 매핑 (Color Mapping)
Train Demos:
Demo 1: Demo 2:
Input: Output: Input: Output:
1 1 0 3 3 0 2 0 2 4 0 4
0 1 0 → 0 3 0 0 2 0 → 0 4 0
Test:
Input: Expected Output:
5 0 5 7 0 7
0 5 0 → 0 7 0
규칙: 특정 색상 값을 다른 색상으로 일대일 대응시킨다. (1→3, 2→4, 5→7)
예시 3: 패턴 확장 (Pattern Expansion)
Train Demo:
Input (2×2): Output (4×4):
1 2 1 2 1 2
3 4 → 3 4 3 4
1 2 1 2
3 4 3 4
규칙: 입력 그리드를 2×2 타일링하여 확장한다.
왜 이 연구를 하는가?
기존 벤치마크의 한계
기존 AI 벤치마크(ImageNet, GLUE, SuperGLUE 등)는 대규모 데이터 기반 패턴 매칭 능력을 측정한다. LLM이 이런 벤치마크를 “풀어버린” 현재, 두 가지 근본적 질문이 남는다:
- 일반화 vs. 암기: 높은 벤치마크 점수가 진정한 이해를 반영하는가?
- 지능의 정의: “지능”을 어떻게 정량적으로 측정할 것인가?
ARC의 철학적 입장
Chollet은 지능 = 스킬 습득 효율성이라 정의한다. 이미 학습된 스킬을 평가하는 것이 아니라, 새로운 태스크를 최소한의 경험으로 얼마나 빠르게 해결하는가를 측정해야 한다는 것이다. ARC는 이를 위해:
- 각 태스크가 고유한 변환 규칙을 가짐 (암기 불가)
- 데모 예시 2–5개만 제공 (few-shot)
- 인간의 Core Knowledge 체계만 전제 조건으로 가정
방법 (Method)
평가 프로토콜
flowchart LR A["태스크 로드<br/>task.json"] --> B["Train Demos<br/>2-5 쌍 관찰"] B --> C["변환 규칙<br/>추론/추상화"] C --> D["Test Input에<br/>규칙 적용"] D --> E["Output Grid<br/>생성"] E --> F{"Exact Match?"} F -->|일치| G["✓ 정답"] F -->|불일치| H["✗ 오답"]
Core Knowledge Priors (전제 조건)
Chollet이 정의한 인간 선천 지식 체계로, ARC 태스크 설계의 기반이 된다:
| Prior | 설명 | ARC에서의 예시 |
|---|---|---|
| Objectness | 응집된 객체 인식 | 연결된 같은 색상 셀을 하나의 객체로 인식 |
| Goal-directedness | 목표 지향성 | 변환의 “의도”를 파악 |
| Numbers & Counting | 수와 셈 | 객체 수 세기, 크기 비교 |
| Basic Geometry | 기초 기하학 | 회전, 대칭, 확대/축소 이해 |
ARC-AGI-2 (2025)
2025년 발표된 ARC-AGI-2는 더 어려운 버전으로, 기존 ARC를 풀기 시작한 시스템에 대한 상한선을 높였다. 현재 SOTA ~4%로, AGI까지의 거리를 재확인시킨다.
발견 (Findings)
주요 성능 비교
| 접근법 | 정확도 | 비고 |
|---|---|---|
| 인간 (평균) | ~85% | Mechanical Turk 기반 측정 |
| 인간 (전문가) | ~95%+ | 퍼즐 전문가 |
| ARC Prize 2024 1위 | ~33% | 프로그램 합성 + 탐색 |
| GPT-4V (2024) | ~5–10% | 비전-언어 모델 |
| GPT-4o (2024) | ~5% | 텍스트 기반 추론 |
| 기본 CNN/ResNet | <3% | 지도 학습 접근 |
| ARC-AGI-2 SOTA | ~4% | 2025년 기준 |
성공/실패 패턴
- AI가 잘 푸는 유형: 단순 색상 교체, 단일 축 반사, 크기 변환
- AI가 실패하는 유형: 다단계 추상화, 조건부 규칙, 객체 간 관계 추론, 재귀적 패턴
핵심 발견
- Scale ≠ Generalization: 파라미터 수 증가가 ARC 성능 향상으로 이어지지 않음
- 프로그램 합성이 유망: DSL(Domain-Specific Language) 기반 탐색이 신경망보다 효과적
- 인간-AI 격차 지속: 52–80% 포인트의 격차가 “진정한 추론 능력”의 부재를 시사
- Few-shot의 본질적 어려움: 2–5개 예시로 규칙을 추론하는 것은 현재 AI 패러다임의 근본적 한계
이론적 의의
지능 측정 프레임워크
ARC는 단순한 벤치마크를 넘어 지능의 정량적 측정 이론을 제시한다:
이 프레임워크에서:
- 높은 지능 = 적은 경험으로 넓은 범위의 태스크를 해결
- 낮은 지능 = 대규모 데이터로 좁은 범위의 태스크만 해결
AGI 연구에 대한 함의
- 벤치마크 설계 패러다임 전환: 정적 데이터셋 → 동적/생성적 평가
- Core Knowledge 기반 설계: 인간 인지 발달 이론과 AI 평가의 접점
- Memorization 방지: 각 태스크가 고유하므로 training set 암기가 무의미
- AI 안전성 연구와의 연결: 진정한 일반화 능력이 있어야 신뢰할 수 있는 AI 시스템 구축 가능
관련 연구
| 벤치마크 | 관계 |
|---|---|
| MMLU_2020_Multitask | 지식 기반 vs. 추론 기반 평가의 대비 |
| GPQA_2023_GraduateLevel | 전문가 수준 추론, 다른 접근 |
| HumanEval_2021_CodeGeneration | 코드 생성 ≈ 프로그램 합성의 한 형태 |
| MATH_2021_CompetitionMath | 수학적 추론, ARC와 상보적 |
| BBH_2022_BIGBenchHard | 어려운 추론 태스크 모음 |
| HellaSwag_2019_CommonsenseReasoning | 상식 추론, Core Knowledge와 관련 |
| FrontierMath_2024_ResearchMath | 최전선 난이도 평가, ARC와 유사한 철학 |
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| Skill-Acquisition Efficiency | 새로운 태스크를 최소 경험으로 학습하는 능력; Chollet의 지능 정의 |
| Core Knowledge | 인간이 선천적으로 갖는 인지 체계 (객체성, 수, 기하학 등) |
| Program Synthesis | 입출력 예시로부터 프로그램(변환 규칙)을 자동 생성하는 기법 |
| DSL (Domain-Specific Language) | 특정 도메인에 특화된 프로그래밍 언어; ARC 솔루션에서 변환 규칙 표현에 사용 |
| Exact Match | 예측 출력 그리드가 정답과 셀 단위로 완전히 일치해야 정답으로 인정 |
| Abstract Reasoning | 구체적 사례에서 일반적 규칙을 추출하고 새로운 상황에 적용하는 능력 |
| Few-shot Generalization | 소수의 예시만으로 새로운 패턴/규칙을 학습하여 일반화하는 것 |
benchmark reasoning abstraction generalization ARC AGI Chollet few-shot program-synthesis core-knowledge