ARC-AGI: Abstraction and Reasoning Corpus

Digest: Keras 창시자 François Chollet이 “On the Measure of Intelligence” (arXiv:1911.01547)에서 제안한 **ARC(Abstraction and Reasoning Corpus)**와 이를 기반으로 한 ARC-AGI Prize 2024 ($1M 상금 대회). 가변 크기 2D 컬러 그리드 퍼즐에서 2–5개의 입출력 예시를 보고 변환 규칙을 추상화한 뒤 새로운 입력에 일반화하는 능력을 측정한다. 핵심 철학은 “지능 = 스킬 그 자체가 아니라 스킬 습득 효율성(skill-acquisition efficiency)“이며, 인간 Core Knowledge 체계(객체성, 목표 지향성, 수/기하학)를 전제 조건으로 설정한다. 인간 평균 ~85%에 비해 GPT-4V ~5–10%, 2024 Kaggle 최고 솔루션 ~33%로 현재 AI의 진정한 일반화 능력 부재를 드러내는 리트머스 테스트이다.


메타데이터

항목내용
논문”On the Measure of Intelligence” (arXiv:1911.01547)
제안자François Chollet (Google)
원본 ARC2019년 공개
ARC-AGI Prize2024년 ($1,000,000 상금)
형식2D 컬러 그리드 입출력 쌍 → 변환 규칙 추론
평가 지표Exact Match (예측 그리드가 정답과 정확히 일치)
라이선스Apache 2.0
데이터 접근GitHub / arcprize.org

데이터셋 구성

규모 및 분할

분할태스크 수용도
Training400공개, 솔루션 개발용
Evaluation400공개, 성능 검증용
Hidden Test200비공개, 최종 리더보드 채점
합계1,000

Feature/Column 구조

각 태스크는 JSON 형식으로 다음 필드를 포함한다:

필드타입설명
task_idstring고유 태스크 식별자 (예: 007bbfb7)
trainlist[dict]데모 쌍 2–5개. 각 원소: {"input": 2D grid, "output": 2D grid}
testlist[dict]테스트 쌍 1–3개. 입력만 제공, 출력을 예측해야 함
  • 그리드 크기: 1×1 ~ 30×30 (가변)
  • 색상 값: 0–9 정수 (10가지 색상)
  • 변환 유형: 회전, 반사, 색상 매핑, 패턴 완성, 객체 이동/조작, 대칭, 확대/축소 등

난이도 분포

난이도비율 (추정)특징
Easy~30%단일 변환 (예: 색상 교체, 단순 반사)
Medium~45%복합 변환 (예: 객체 감지 + 이동 + 색칠)
Hard~25%다단계 추상화 (예: 재귀 패턴, 조건부 규칙)

실제 데이터 예시

예시 1: 수평 반사 (Horizontal Reflection)

Train Demo:

Input:          Output:
1 0 0           0 0 1
0 2 0    →      0 2 0
0 0 3           3 0 0

Test:

Input:          Expected Output:
4 0 0           0 0 4
0 5 0    →      0 5 0
0 0 6           6 0 0

규칙: 그리드를 좌우 반전(수평 반사)한다.

예시 2: 색상 매핑 (Color Mapping)

Train Demos:

Demo 1:                    Demo 2:
Input:     Output:         Input:     Output:
1 1 0      3 3 0           2 0 2      4 0 4
0 1 0  →   0 3 0           0 2 0  →   0 4 0

Test:

Input:          Expected Output:
5 0 5           7 0 7
0 5 0    →      0 7 0

규칙: 특정 색상 값을 다른 색상으로 일대일 대응시킨다. (1→3, 2→4, 5→7)

예시 3: 패턴 확장 (Pattern Expansion)

Train Demo:

Input (2×2):    Output (4×4):
1 2             1 2 1 2
3 4      →      3 4 3 4
                1 2 1 2
                3 4 3 4

규칙: 입력 그리드를 2×2 타일링하여 확장한다.


왜 이 연구를 하는가?

기존 벤치마크의 한계

기존 AI 벤치마크(ImageNet, GLUE, SuperGLUE 등)는 대규모 데이터 기반 패턴 매칭 능력을 측정한다. LLM이 이런 벤치마크를 “풀어버린” 현재, 두 가지 근본적 질문이 남는다:

  1. 일반화 vs. 암기: 높은 벤치마크 점수가 진정한 이해를 반영하는가?
  2. 지능의 정의: “지능”을 어떻게 정량적으로 측정할 것인가?

ARC의 철학적 입장

Chollet은 지능 = 스킬 습득 효율성이라 정의한다. 이미 학습된 스킬을 평가하는 것이 아니라, 새로운 태스크를 최소한의 경험으로 얼마나 빠르게 해결하는가를 측정해야 한다는 것이다. ARC는 이를 위해:

  • 각 태스크가 고유한 변환 규칙을 가짐 (암기 불가)
  • 데모 예시 2–5개만 제공 (few-shot)
  • 인간의 Core Knowledge 체계만 전제 조건으로 가정

방법 (Method)

평가 프로토콜

flowchart LR
    A["태스크 로드<br/>task.json"] --> B["Train Demos<br/>2-5 쌍 관찰"]
    B --> C["변환 규칙<br/>추론/추상화"]
    C --> D["Test Input에<br/>규칙 적용"]
    D --> E["Output Grid<br/>생성"]
    E --> F{"Exact Match?"}
    F -->|일치| G["✓ 정답"]
    F -->|불일치| H["✗ 오답"]

Core Knowledge Priors (전제 조건)

Chollet이 정의한 인간 선천 지식 체계로, ARC 태스크 설계의 기반이 된다:

Prior설명ARC에서의 예시
Objectness응집된 객체 인식연결된 같은 색상 셀을 하나의 객체로 인식
Goal-directedness목표 지향성변환의 “의도”를 파악
Numbers & Counting수와 셈객체 수 세기, 크기 비교
Basic Geometry기초 기하학회전, 대칭, 확대/축소 이해

ARC-AGI-2 (2025)

2025년 발표된 ARC-AGI-2는 더 어려운 버전으로, 기존 ARC를 풀기 시작한 시스템에 대한 상한선을 높였다. 현재 SOTA ~4%로, AGI까지의 거리를 재확인시킨다.


발견 (Findings)

주요 성능 비교

접근법정확도비고
인간 (평균)~85%Mechanical Turk 기반 측정
인간 (전문가)~95%+퍼즐 전문가
ARC Prize 2024 1위~33%프로그램 합성 + 탐색
GPT-4V (2024)~5–10%비전-언어 모델
GPT-4o (2024)~5%텍스트 기반 추론
기본 CNN/ResNet<3%지도 학습 접근
ARC-AGI-2 SOTA~4%2025년 기준

성공/실패 패턴

  • AI가 잘 푸는 유형: 단순 색상 교체, 단일 축 반사, 크기 변환
  • AI가 실패하는 유형: 다단계 추상화, 조건부 규칙, 객체 간 관계 추론, 재귀적 패턴

핵심 발견

  1. Scale ≠ Generalization: 파라미터 수 증가가 ARC 성능 향상으로 이어지지 않음
  2. 프로그램 합성이 유망: DSL(Domain-Specific Language) 기반 탐색이 신경망보다 효과적
  3. 인간-AI 격차 지속: 52–80% 포인트의 격차가 “진정한 추론 능력”의 부재를 시사
  4. Few-shot의 본질적 어려움: 2–5개 예시로 규칙을 추론하는 것은 현재 AI 패러다임의 근본적 한계

이론적 의의

지능 측정 프레임워크

ARC는 단순한 벤치마크를 넘어 지능의 정량적 측정 이론을 제시한다:

이 프레임워크에서:

  • 높은 지능 = 적은 경험으로 넓은 범위의 태스크를 해결
  • 낮은 지능 = 대규모 데이터로 좁은 범위의 태스크만 해결

AGI 연구에 대한 함의

  1. 벤치마크 설계 패러다임 전환: 정적 데이터셋 → 동적/생성적 평가
  2. Core Knowledge 기반 설계: 인간 인지 발달 이론과 AI 평가의 접점
  3. Memorization 방지: 각 태스크가 고유하므로 training set 암기가 무의미
  4. AI 안전성 연구와의 연결: 진정한 일반화 능력이 있어야 신뢰할 수 있는 AI 시스템 구축 가능

관련 연구

벤치마크관계
MMLU_2020_Multitask지식 기반 vs. 추론 기반 평가의 대비
GPQA_2023_GraduateLevel전문가 수준 추론, 다른 접근
HumanEval_2021_CodeGeneration코드 생성 ≈ 프로그램 합성의 한 형태
MATH_2021_CompetitionMath수학적 추론, ARC와 상보적
BBH_2022_BIGBenchHard어려운 추론 태스크 모음
HellaSwag_2019_CommonsenseReasoning상식 추론, Core Knowledge와 관련
FrontierMath_2024_ResearchMath최전선 난이도 평가, ARC와 유사한 철학

핵심 용어 정리

용어정의
Skill-Acquisition Efficiency새로운 태스크를 최소 경험으로 학습하는 능력; Chollet의 지능 정의
Core Knowledge인간이 선천적으로 갖는 인지 체계 (객체성, 수, 기하학 등)
Program Synthesis입출력 예시로부터 프로그램(변환 규칙)을 자동 생성하는 기법
DSL (Domain-Specific Language)특정 도메인에 특화된 프로그래밍 언어; ARC 솔루션에서 변환 규칙 표현에 사용
Exact Match예측 출력 그리드가 정답과 셀 단위로 완전히 일치해야 정답으로 인정
Abstract Reasoning구체적 사례에서 일반적 규칙을 추출하고 새로운 상황에 적용하는 능력
Few-shot Generalization소수의 예시만으로 새로운 패턴/규칙을 학습하여 일반화하는 것

benchmark reasoning abstraction generalization ARC AGI Chollet few-shot program-synthesis core-knowledge