On the Measure of Intelligence — 지능을 어떻게 측정할 것인가

Digest

Chollet의 핵심 주장은 단순하다. 어떤 과제에서 높은 점수를 얻었다고 해서 그 시스템이 지능적인 것은 아니다. 점수는 사전지식과 훈련 데이터로 얼마든지 끌어올릴 수 있기 때문이다. 체스, 바둑, 게임 벤치마크에서 높은 성능을 내는 시스템이 있어도, 그 성능이 많은 prior와 많은 experience로 “구매”된 것이라면 일반 지능의 증거로 보기 어렵다.

그래서 Chollet은 지능을 기술 자체가 아니라 기술을 얻는 효율로 정의한다. 더 정확히는, 어떤 시스템이 제한된 사전지식과 제한된 경험을 가지고 새로운 과제에 얼마나 빠르고 넓게 적응하는지를 보자는 것이다. 이때 중요한 축은 세 가지다. 시스템이 처음부터 가진 정보인 priors, 학습 중 받은 정보인 experience, 그리고 훈련에서 평가로 넘어갈 때 필요한 변화량인 generalization difficulty다.

이 정의를 실제 평가로 만들기 위해 제안한 것이 ARC, Abstraction and Reasoning Corpus다. ARC는 작은 색깔 격자 퍼즐 1,000개로 구성된다. 사람은 별도 훈련 없이 대부분 풀 수 있지만, 2019년 기준 일반적인 딥러닝 방법으로는 접근하기 어려웠다. ARC는 인간이 기본적으로 가지고 있다고 보는 Core Knowledge prior, 즉 objectness, agentness, numbers, geometry를 출발점으로 삼는다.

이 논문의 가치는 ARC 점수 자체보다 평가 철학에 있다. AI 평가는 “어떤 과제를 잘하느냐”에서 “얼마나 적은 사전지식과 경험으로 새로운 기술을 얻느냐”로 이동해야 한다. 다만 형식 정의는 Kolmogorov complexity에 기대기 때문에 직접 계산하기 어렵고, ARC가 인간 지능을 충분히 대표하는지도 아직 열린 문제다.


한 문장으로 이해하기

Important

지능은 이미 잘하는 능력이 아니라, 낯선 과제를 적은 경험으로 배워내는 능력이다.

이 문장을 붙잡고 읽으면 논문의 구조가 훨씬 단순해진다. Chollet은 “성능”과 “지능”을 분리하려 한다. 어떤 모델이 특정 벤치마크에서 높은 점수를 받았다는 사실은 그 모델이 그 과제에 능숙하다는 뜻이다. 하지만 그것만으로 그 모델이 일반적으로 지능적이라고 말할 수는 없다.

왜냐하면 과제 점수는 세 요소가 섞인 결과이기 때문이다.

요소쉬운 설명
Priors시스템이 학습 전에 이미 가지고 있던 사전지식
Experience학습 과정에서 받은 데이터, 피드백, 훈련 경험
Generalization이전에 본 것과 다른 상황에 적응하는 능력

지능을 보려면 마지막 요소를 봐야 한다. 그런데 prior와 experience를 통제하지 않으면 generalization을 제대로 볼 수 없다.


왜 이 논문이 중요한가?

AI는 오랫동안 “인간이 지능적으로 해야 할 일을 기계가 하게 만드는 것”으로 정의되어 왔다. 이 정의는 직관적이지만 위험하다. 인간에게 지능이 필요해 보이는 과제를 기계가 잘한다고 해서, 그 기계가 인간과 같은 방식으로 지능을 가진 것은 아니기 때문이다. (like 중국인 방 문제.)

예를 들어 체스 챔피언을 이기는 시스템을 만들 수 있다. 하지만 그 시스템이 체스에 특화된 엄청난 탐색, 하드코딩된 지식, 대규모 자기대국 데이터를 통해 만들어졌다면, 우리는 무엇을 측정한 것일까? 체스 기술을 측정한 것인가, 아니면 일반 지능을 측정한 것인가?

Chollet은 많은 AI 평가가 이 둘을 혼동해 왔다고 본다. 특히 벤치마크가 공개되고, 연구자들이 그 벤치마크에 맞춰 모델과 학습 절차를 반복적으로 조정하는 상황에서는 더 그렇다. 성능은 계속 올라가지만, 그것이 새로운 상황에 적응하는 능력의 향상인지는 분명하지 않다.

따라서 이 논문은 다음 문제를 다룬다.

AI 시스템의 “점수”가 아니라 “지능”을 측정하려면 무엇을 통제하고 무엇을 봐야 하는가?


이 논문의 큰 흐름

논문은 크게 세 부분으로 읽을 수 있다.

  1. 기존 지능 정의와 AI 평가 방식의 문제를 비판한다.
  2. 지능을 skill-acquisition efficiency로 다시 정의한다.
  3. 이 정의를 실제로 평가하려는 벤치마크로 ARC를 제안한다.

여기서 가장 중요한 전환은 skill에서 skill-acquisition으로의 이동이다. 이미 획득한 기술을 재는 것이 아니라, 새로운 기술을 얻는 과정을 재자는 것이다.


기존 지능관의 두 갈래

Chollet은 AI와 심리학의 지능관을 크게 두 갈래로 정리한다.

1. 지능을 과제 수행 능력으로 보는 관점

첫 번째 관점은 지능을 특정 과제를 잘 수행하는 능력으로 본다. “사람이 지능을 써야 할 과제를 기계가 수행하면 AI다”라는 식의 정의가 여기에 속한다.

이 관점은 평가하기 쉽다. 체스 점수, ImageNet 정확도, 게임 점수처럼 명확한 숫자를 얻을 수 있다. 하지만 문제도 있다. 특정 과제의 고득점은 그 과제에 특화된 지식과 훈련으로 만들어질 수 있다. 즉, 기술을 측정할 수는 있지만 지능을 측정한다고 보장할 수 없다.

2. 지능을 일반 학습 능력으로 보는 관점

두 번째 관점은 지능을 새로운 것을 배우고 적응하는 능력으로 본다. Turing 이후의 여러 AI 논의, 특히 범용 학습 시스템에 대한 기대가 이쪽에 가깝다.

이 관점은 “일반 지능”에 더 가까워 보인다. 하지만 단순한 tabula rasa, 즉 백지 상태에서 모든 것을 데이터로 배운다는 생각은 문제가 있다. 인간도 완전한 백지로 태어나지 않는다. 인간은 사물, 수, 공간, 행위자에 대한 기본적인 인지 편향을 가지고 태어난다.

Chollet은 이 두 관점을 모두 수정해야 한다고 본다. 지능은 단순한 과제 수행 능력도 아니고, 아무 prior 없이 학습하는 순수한 백지도 아니다. 지능은 주어진 prior와 experience를 이용해 새로운 skill을 얻는 효율이다.

Question

그렇다면 chollet의 주장은, 지능은 제한된 자원을 사용해서 develope 하는 거라고 생각하는 건가?

이해 검토

거의 맞다. 다만 조금 더 정확히 말하면, Chollet에게 지능은 제한된 자원으로 develop되는 것이라기보다, 제한된 사전지식과 제한된 경험을 얼마나 효율적으로 새로운 skill로 바꾸는가이다.

여기서 자원은 단순히 GPU, 시간, 에너지 같은 계산 자원만 뜻하지 않는다. 더 중요한 자원은 priorsexperience다. 어떤 시스템이 이미 많은 prior를 갖고 있거나, 엄청난 양의 훈련 경험을 받았다면 높은 task score를 얻을 수 있다. 하지만 Chollet은 그런 점수를 곧바로 intelligence라고 보지 않는다.

따라서 질문을 조금 다듬으면 이렇게 된다. “지능은 제한된 prior와 제한된 experience 아래에서 새로운 skill을 만들어내는 효율인가?” 이 표현이 Chollet의 주장에 가장 가깝다. 계산 시간, 에너지, 위험 같은 자원도 논문에서 언급되지만, 중심축은 정보 효율이다.

원문에서 짚는 연구자 계보

쉬운 설명을 위해 본문에서는 두 관점만 먼저 잡았지만, 원문은 이 논의를 꽤 넓은 역사적 계보 위에 놓는다.

연구자/전통핵심 개념개념 소개Chollet과의 연결
Sternberg & Detterman정의 다원성심리학자들에게도 intelligence가 무엇인지 합의된 단일 정의가 없다는 점을 보여주는 사례다. Sternberg와 Detterman의 편집서는 여러 학자의 정의를 모은 작업으로, “지능 정의는 하나로 고정되어 있지 않다”는 출발점을 제공한다.Chollet은 그래서 완벽한 철학적 정의보다, AI 연구를 실제로 이끄는 actionable definition이 필요하다고 본다.
Legg & HutterUniversal intelligence, AIXI가능한 모든 환경에서 agent가 얻는 reward를 Kolmogorov Complexity로 가중 평균해 지능을 정의하려는 이론적 접근이다. AIXI는 이 관점에서 이상적인 보편 지능 agent에 가깝다.Chollet은 이 정의가 너무 universal하다고 본다. 모든 가능한 환경보다, 인간이 의미 있다고 보는 task scope 안에서 지능을 정의해야 한다고 주장한다.
Cattell, Horn, CarrollGf/Gc, CHC theoryGf는 낯선 문제를 푸는 fluid intelligence, Gc는 학습과 경험으로 쌓인 crystallized intelligence다. CHC theory는 여러 인지 능력을 계층 구조로 설명하는 심리측정학 모델이다.Chollet의 skill-acquisition efficiency는 Gf에 가깝고, task-specific skill은 Gc에 가깝다. 즉 “이미 아는 것”과 “새로 배우는 능력”을 구분하는 배경이다.
Darwin, Cosmides & Tooby진화심리학, modular mind인간 마음은 완전한 백지가 아니라, 진화 과정에서 생긴 여러 문제 해결 장치들의 집합이라는 관점이다. Cosmides와 Tooby는 인간 인지를 domain-specific module들의 조합으로 보는 진화심리학 흐름을 대표한다.이 계보는 “지능 = 특정 skill들의 묶음”이라는 관점과 연결된다. Chollet은 이 관점을 인정하면서도, skill 묶음만으로 general intelligence를 설명하기에는 부족하다고 본다.
MinskyAI as task performanceMinsky식 정의는 “인간이라면 지능이 필요할 과제를 기계가 수행하게 하는 것”에 가깝다. 이 정의는 AI를 task performance 중심으로 보게 만든다.Chollet이 비판하는 skill-based AI 평가의 대표적 배경이다. 어떤 과제를 잘한다고 해서 general intelligence를 입증한 것은 아니다.
McCarthySymbolic AI, knowledge baseMcCarthy는 general intelligence를 중시했지만, 초기 AI에서는 지식을 명시적으로 표현하고 조작하는 symbolic AI와 knowledge base가 핵심이었다.Chollet은 McCarthy의 generality 열망을 이어받지만, 단순히 더 큰 knowledge base를 쌓는 것만으로는 intelligence 측정이 되지 않는다고 본다.
Turing, Friedberg, PapertLearning machine기계가 미리 준비된 skill만 수행하는 것이 아니라, 경험을 통해 새 skill을 학습해야 한다는 관점이다. Turing은 child machine을, Friedberg는 self-improving machine을, Papert는 학습과 일반화의 중요성을 논의한 계보로 읽힌다.Chollet의 “지능 = skill-acquisition efficiency”는 이 일반 학습 능력 관점과 직접 연결된다.
Locke, Hobbes, Rousseau, AristotleTabula rasa, empiricism마음이 경험을 통해 형성된다는 오래된 철학적 계보다. 현대 ML에서는 random initialization에서 시작해 데이터로 모든 것을 배운다는 은유와 닮아 있다.Chollet은 이 관점을 그대로 받아들이지 않는다. 인간도 완전한 백지가 아니며, prior 없는 학습은 불가능하다고 본다.
Hernández-Orallo, Cohen & HoweAbility-oriented evaluationAI 평가를 개별 task score가 아니라 더 넓은 ability 측정으로 옮기려는 선행 평가론이다. Hernández-Orallo는 universal psychometrics와 anytime intelligence test 계열에서도 중요하다.Chollet의 ARC는 이 흐름 위에 있다. 다만 그는 자동 생성 문제보다, 인간 Core Knowledge prior를 명시한 manually curated task set을 선택한다.

일반화 스펙트럼

Chollet은 AI 평가를 이해하기 위해 일반화를 여러 단계로 나눈다. 이 구분은 논문 전체에서 중요하다.

단계의미예시
No generalization가능한 상황을 거의 모두 미리 열거할 수 있음tic-tac-toe 완전 탐색
Local generalization / Robustness같은 과제 안에서 조금 다른 입력에 견딤이미지 분류 모델의 일반 test set 성능
Broad generalization / Flexibility관련된 여러 과제 사이에서 적응함다양한 집안일을 처리하는 로봇
Extreme generalization / Generality과제 범위 자체가 낯설어도 적은 경험으로 적응함인간이 새로운 퍼즐이나 도구 사용법을 배우는 경우
Universality모든 가능한 환경에 대한 이론적 일반성AIXI 같은 이론적 개념

현대 딥러닝의 많은 성공은 local generalization에 강하다. 하지만 Chollet이 관심을 갖는 것은 broad generalization과 human-centric extreme generalization이다. 인간은 완전히 무한한 universality를 가진 것은 아니지만, 인간 세계 안에서는 매우 넓은 범위의 낯선 과제에 빠르게 적응한다.

benchmark, robustness, gradient descent

대부분의 benchmark가 robustness를 명시적으로 측정하지 않기 때문에, 딥러닝의 gradient descent가 loss를 낮추는 쉬운 지름길로 수렴하는 것이 문제라고 봐도 될까? 그렇다면 robust한 모델을 만들려면 단순히 loss가 작은 하나의 local minimum만 볼 것이 아니라, 여러 local minima나 flatter minima까지 분석해야 하는 것 아닐까?

[!answer] 이해 검토

이 해석은 절반 이상 맞다. Chollet이 비판하는 핵심은 모델이 loss를 낮추는 과정에서 shortcut을 찾는다는 점이다. 예를 들어 비전 모델은 물체의 구조를 이해하기보다 texture나 surface statistics에 기대어 benchmark 점수를 올릴 수 있다. benchmark가 robustness와 generalization을 요구하지 않으면, gradient descent는 그 요구를 만족시키는 방향으로 갈 이유가 없다.

다만 논문의 초점은 local minima 자체보다 benchmark design에 더 가깝다. Flatter minima를 찾거나 여러 minima를 분석하는 것은 robustness 연구에서 중요한 접근일 수 있지만, Chollet이 여기서 말하는 근본 처방은 평가 기준을 바꾸는 것이다. 즉, 모델이 shortcut으로 해결할 수 없는 unseen task, 제한된 experience, 명시된 priors, 그리고 generalization difficulty를 포함하는 평가가 필요하다는 뜻이다.

따라서 이 메모의 결론은 이렇게 정리할 수 있다. Robustness를 고민할 때 optimization landscape 분석도 중요하지만, 이 논문이 강조하는 것은 “어떤 해로 수렴했는가”보다 “benchmark가 shortcut으로도 높은 점수를 허용하는가”이다.

AI 평가 방식의 계보

원문은 “AI 평가가 왜 task-specific skill로 기울었는가”를 설명하기 위해 여러 평가 방식을 정리한다. 논문 전체를 따라가려면 이 계보도 중요하다.

평가 방식예시Chollet의 평가
Human reviewTuring Test, Total Turing Test, Loebner Prize자동화와 객관성이 약하고, 인간 심판에게 정의 문제를 떠넘긴다.
White-box analysis완전히 기술된 문제에서 알고리즘을 분석하거나 optimality proof를 제시닫힌 과제에는 유용하지만 broad ability 평가는 어렵다.
Peer confrontation체스, 바둑, PvP 게임에서 인간이나 다른 AI와 대결skill 측정에는 좋지만, skill-acquisition efficiency를 직접 측정하지 않는다.
Fixed benchmarkImageNet/ILSVRC, DARPA Grand Challenge, Kaggle, ChaLearn, Hutter Prize재현성과 경쟁 유도에는 강하지만, 최적화 대상이 좁으면 shortcut과 benchmark overfitting을 만든다.

이 맥락에서 Chollet은 “AI effect”도 다시 해석한다. McCorduck과 Reed가 말한 것처럼, 기계가 어떤 일을 잘하게 되면 사람들은 곧 “그건 진짜 지능이 아니다”라고 말한다. Chollet은 이것을 단순한 goalpost 이동으로 보지 않는다. 인간의 경우 체스를 잘 둔다면 그 skill을 얻기 위해 일반 지능을 썼다고 추정할 수 있지만, 기계의 경우 그 skill이 개발자와 데이터가 만든 artifact일 수 있기 때문이다.

Question

“기계의 경우 그 skill이 개발자와 데이터가 만든 artifact일 수 있기 때문이다.”
이 말이 결국 사람의 inductive-bias에 의해 모델이 만들어지면, 그게 진정으로 지능을 대변할 수 있는가? 이러한 맥락과 궤를 같이 하는 것 같은데? 맞으려나?

이해 검토

맞는 방향의 해석이다. 이 질문은 Inductive Bias와 Chollet의 prior 통제 논의를 정확히 건드린다. 모델 구조, 학습 알고리즘, 데이터셋, augmentation, pretraining objective는 모두 사람이 설계하거나 선택한 inductive bias로 볼 수 있다. 따라서 어떤 모델의 skill이 이런 설계 선택 덕분에 나온 것인지, 아니면 모델이 제한된 experience로 새 skill을 효율적으로 획득한 것인지를 분리해야 한다.

다만 Chollet은 “사람이 넣은 inductive bias가 있으면 지능이 아니다”라고 말하는 것은 아니다. 인간도 Core Knowledge prior를 가지고 태어난다. prior 자체는 문제라기보다, 어떤 prior를 얼마나 가지고 시작했는지 숨긴 채 task score만 비교하는 것이 문제다.

그래서 핵심은 이렇다. 사람이 설계한 inductive bias는 지능 평가에서 Priors P로 계산되어야 한다. 그 bias가 특정 benchmark를 풀기 위한 task-specific shortcut이라면 지능의 증거가 약해진다. 반대로 objectness, geometry, sequence modeling처럼 넓은 scope에서 일반화에 도움을 주는 broad prior라면, 그것을 명시한 상태에서 skill-acquisition efficiency를 평가할 수 있다.

따라서 질문을 더 정밀하게 쓰면 이렇게 된다. “기계의 성능이 개발자가 넣은 inductive bias와 데이터셋에 의해 만들어진 artifact라면, 그 score만으로는 intelligence를 대변할 수 없다. 하지만 inductive bias를 명시하고 통제한다면, 그 위에서 얼마나 효율적으로 새 skill을 획득하는지는 intelligence 평가 대상이 될 수 있다.”

Broad AI evaluation의 선행 시도

원문은 ARC 이전에도 broad ability를 재려는 시도가 있었다고 본다.

벤치마크/흐름원문에서의 위치
Psychometric AI / Universal PsychometricsBringsjord, Hernández-Orallo 등이 제안한 “인간·기계 지능을 함께 평가하자”는 계보
C-Test / Anytime Intelligence TestAlgorithmic complexity 기반으로 자동 생성 문제를 내는 선행 평가 방식
ALE, GVGAI, OpenAI Gym류여러 게임 환경을 통해 generalization을 보려는 시도지만, local generalization에 머무를 위험이 있다.
CoinRun, Obstacle Tower, General Video Game AI절차적 생성이나 새로운 level을 제공하지만, Chollet 기준으로는 종종 “같은 게임 안의 known unknowns”에 가깝다.
GLUE, SuperGLUE, bAbI, BabyAI언어·추론 평가를 넓히려는 시도지만, task family와 데이터셋 설계에 따라 shortcut 가능성이 남는다.
Animal-AI Environment, I-Athlon, Turing Olympics인간 외 동물 인지나 다차원적 지능 평가에서 영감을 받은 broad evaluation 흐름

이 보강점의 핵심은 ARC가 갑자기 나온 것이 아니라는 점이다. ARC는 기존 심리측정학, universal psychometrics, broad AI benchmark의 문제의식을 이어받되, developer-aware generalization과 명시적 Core Knowledge prior를 더 강하게 밀어붙인 시도다.


핵심 비판: 기술은 살 수 있다

논문에서 가장 중요한 문장은 다음 생각으로 압축된다.

기술은 prior와 experience로 살 수 있다.

어떤 시스템이 특정 과제에서 높은 점수를 받았다고 하자. 그 이유는 여러 가지일 수 있다.

  • 이미 그 과제에 필요한 지식이 시스템 안에 들어 있었을 수 있다.
  • 매우 많은 훈련 데이터를 보았을 수 있다.
  • 개발자가 평가셋의 성격을 알고 모델을 반복적으로 조정했을 수 있다.
  • 실제로 새로운 상황에 잘 일반화했을 수 있다.

이 네 경우는 겉으로는 모두 높은 점수로 보인다. 하지만 지능을 측정하려면 마지막 경우를 분리해야 한다.

따라서 Chollet의 결론은 명확하다. Priors, experience, generalization difficulty를 통제하지 않은 점수는 지능의 좋은 척도가 아니다.


Priors: 인간도 백지가 아니다

Chollet은 발달심리학을 끌어와 “인간은 어떤 사전지식을 가지고 태어나는가”를 논한다. 이 부분은 ARC를 이해하는 데 중요하다.

인간의 prior는 크게 세 층으로 볼 수 있다.

층위설명평가에서의 의미
Low-level sensorimotor priors반사, 감각-운동 수준의 기본 기제ARC에서는 직접 다루지 않음
Meta-learning priors모듈성, 인과성, 시공간 연속성 같은 학습 구조Chollet은 이것을 지능 자체에 가까운 것으로 봄
High-level knowledge priors사물, 행위자, 수, 공간에 대한 기본 지식ARC가 명시적으로 허용하는 prior

여기서 핵심은 high-level knowledge priors다. Chollet은 Spelke의 Core Knowledge 이론을 받아들여 네 가지 축을 제시한다. (이 네 축이 어떤 발달심리학적 증거 위에 서 있는지는 Core Knowledge 노트에 정리해 두었다.)

Core Knowledge prior쉬운 설명
Objectness세상에는 하나의 물체로 묶이는 대상이 있고, 물체는 계속 존재하며, 접촉을 통해 영향을 주고받는다는 직관
Agentness / Goal-directedness어떤 대상은 목표와 의도를 가진 행위자처럼 행동한다는 직관
Numbers작은 수량을 세고 비교할 수 있다는 직관
Geometry / Topology거리, 방향, 안과 밖, 연결, 대칭 같은 공간 직관

ARC는 인간이 이 정도 prior는 가지고 있다고 가정한다. 즉, AI와 인간을 비교하려면 AI에게도 이 정도 prior를 허용하거나, 최소한 무엇을 prior로 넣었는지 명시해야 한다는 것이다.

Question

왜 하필 저것들일까?


형식 정의: 지능은 기술 획득 효율이다

Chollet은 지능을 다음처럼 정의한다.

지능은 어떤 task scope 안에서, 주어진 priors와 experience를 사용해, 일반화가 필요한 새로운 skill을 얻는 효율이다.

조금 더 직관적으로 쓰면 다음과 같다.

Intelligence ≈ valuable task에서의 skill 획득량
               --------------------------------
               사용한 priors + 사용한 experience

물론 실제 논문에서는 여기에 generalization difficulty와 task value를 넣어 더 엄밀하게 쓴다. 하지만 직관은 위 식으로 충분하다.

Question

task value?

이해 보강

Task value어떤 task를 일정 수준 이상으로 잘 수행하는 것이 얼마나 중요한가를 나타내는 가중치다. 원문에서는 task와 skill threshold의 조합에 scalar value를 부여하는 함수로 생각한다. 직관적으로 쓰면 , 즉 “task 에서 skill 수준 를 달성하는 것의 가치”다.

이 값이 필요한 이유는 모든 task가 지능 평가에서 똑같이 중요하지 않기 때문이다. 예를 들어 인간형 지능을 평가하고 싶다면, 무작위 비트열 맞히기보다 언어 이해, 물체 조작, 공간 추론, 새로운 규칙 학습 같은 인간 세계와 관련 있는 task에 더 높은 가치를 줄 수 있다.

따라서 task value는 난이도가 아니라 중요도에 가깝다. 어려운 task라고 무조건 value가 높은 것은 아니고, 쉬운 task라고 무조건 value가 낮은 것도 아니다. Chollet의 정의에서는 지능을 “가치 있는 task들에서, 어려운 일반화를, 적은 prior와 experience로 얼마나 효율적으로 달성하는가”로 보려는 것이다.

각 변수의 의미

기호/개념쉬운 의미
Scope어떤 과제 공간에서 지능을 볼 것인가. 예를 들어 인간 생활 세계, 게임 세계, 수학 퍼즐 세계 등
Task value특정 task에서 특정 skill 수준을 달성하는 것에 부여하는 중요도. 모든 과제가 지능 평가에서 똑같이 중요하지 않기 때문에 필요하다.
Priors P시스템이 시작할 때 이미 가지고 있는 관련 정보
Experience E학습 중 받은 새롭고 관련 있는 정보
Generalization Difficulty GD훈련 예시에서 평가 문제로 넘어가기 위해 필요한 변화량
Skill특정 과제를 실제로 수행하는 능력

이 정의에서 중요한 것은 분모다. 같은 성능을 내더라도 더 적은 prior와 더 적은 experience로 달성했다면 더 지능적인 시스템으로 볼 수 있다.

왜 AIT가 등장하는가?

Chollet은 Algorithmic Information Theory, 특히 Kolmogorov complexity를 사용해 “필요한 정보량”을 표현하려 한다. 예를 들어 generalization difficulty는 대략 이렇게 볼 수 있다.

훈련 예시를 설명하는 프로그램에서 평가 문제를 푸는 프로그램으로 가려면 얼마나 많은 프로그램 수정이 필요한가?

수정이 거의 필요 없다면 쉬운 일반화다. 수정이 많이 필요하다면 어려운 일반화다. 이 아이디어는 깔끔하지만, Kolmogorov complexity는 일반적으로 계산할 수 없다. 그래서 이 형식 정의는 철학적으로 강하지만, 실측하려면 근사가 필요하다.

정보 효율 외의 효율성

효율성의미왜 중요한가
Computation efficiency of skill programs만들어진 skill program이 실행될 때 계산 자원을 얼마나 적게 쓰는가inference-time 비용이 큰 응용에서 중요하다.
Computation efficiency of the intelligent systemskill program을 만들어내는 과정 자체가 얼마나 계산 효율적인가training-time compute가 비싼 상황에서 중요하다.
Time efficiency새 skill program을 얼마나 빠르게 만들어내는가시간이 제한된 환경에서 중요하다.
Energy efficiency학습, skill 생성, skill 실행에 들어가는 에너지가 얼마나 적은가생물학적 지능이나 embedded system에서 중요하다.
Risk efficiencyexperience를 수집하는 과정에서 위험을 얼마나 줄이는가로봇, 생물, 실세계 탐험처럼 학습 과정이 위험할 때 중요하다.

Chollet은 당장은 information efficiency가 가장 실용적인 축이라고 보지만, 응용 맥락에 따라 계산·시간·에너지·위험 효율을 regularization처럼 함께 고려할 수 있다고 본다.


Intelligent System과 Skill Program의 분리

이 논문에서 흥미로운 부분은 agent를 보는 방식이다. Chollet은 agent를 하나의 거대한 블랙박스로 보지 말자고 한다.

대신 두 층을 나눈다.

구성요소역할
Intelligent System (IS)새로운 과제에 맞는 skill program을 만들어내는 엔진
Skill ProgramIS가 만든 결과물. 실제 행동이나 문제 풀이를 수행하지만, 그 자체가 지능은 아님

이 구분은 중요하다. 특정 과제를 잘 수행하는 skill program을 보고 바로 “이 시스템은 지능적이다”라고 말하면 안 된다. 지능은 그 skill program을 어떻게, 얼마나 적은 정보로, 얼마나 넓은 과제 범위에서 만들어냈는가에 있다.

Summary

결국 goal을 달성하기 위한 압축적인 방법을 얼마나 효율적으로 알아냈냐.

이 관점은 강화학습에서 흔한 “agent = 관측을 받아 행동을 내는 블랙박스 정책”이라는 생각과 다르다. Chollet에게 지능의 핵심은 행동 정책 자체가 아니라, 새로운 행동 정책이나 문제풀이 절차를 만들어내는 쪽에 있다.


ARC란 무엇인가?

ARC는 Abstraction and Reasoning Corpus의 약자다. 이 논문에서 Chollet은 자신의 지능 정의를 현실적으로 평가하기 위한 첫 시도로 ARC를 제안한다.

ARC task는 작은 색깔 격자 퍼즐이다. 각 task에는 몇 개의 input-output 예시가 주어지고, 모델은 같은 규칙을 test input에 적용해 output grid를 만들어야 한다.

항목내용
전체 task 수1,000개
Train set400개
Public evaluation400개
Private evaluation200개
Grid 크기1×1부터 30×30까지
색상 수10개
평균 demonstration 수task당 약 3.3개
점수task별 0/1
허용 시도test 예시당 3회

ARC는 Raven’s Progressive Matrices 같은 IQ 퍼즐과 비슷해 보이지만 목적이 조금 다르다. 단순히 사람을 테스트하려는 것이 아니라, 기계가 적은 예시로 추상 규칙을 찾아낼 수 있는지를 보려 한다.


ARC가 가정하는 Core Knowledge

ARC는 완전한 백지 학습을 요구하지 않는다. 오히려 인간에게 공정한 비교를 하려면 인간이 가진 기본 prior를 명시해야 한다고 본다.

Core Knowledge priorARC에서 나타나는 방식
Objectness같은 색으로 이어진 영역을 하나의 물체처럼 보기, 가려져도 물체가 유지된다고 보기
Agentness격자의 변화 과정을 어떤 의도적 행동이나 목표 달성 과정처럼 해석하기
Numbers개수 세기, 정렬하기, 많고 적음 비교하기
Geometry대칭, 회전, 확대/축소, 안과 밖, 선 긋기, 도형 이동

여기서 Agentness가 따로 중요한 이유는, Chollet이 인간의 기본 인지 prior 안에 “목표를 가진 행위자”에 대한 직관을 포함하기 때문이다. ARC에는 시간이 직접적으로 표현되지는 않지만, 사람은 input과 output을 시작 상태와 끝 상태처럼 해석하면서 문제를 푸는 경우가 많다.


ARC가 측정하려는 것

ARC는 단순히 “퍼즐을 많이 맞혔는가”를 보려는 것이 아니다. 더 정확히는 다음을 보려 한다.

  1. 시스템이 제한된 train task만 보고도 새로운 eval task에 적응하는가.
  2. 개발자가 평가 task를 직접 알 수 없는 developer-aware generalization 조건을 만족하는가.
  3. 사람에게는 자연스러운 Core Knowledge prior를 사용해 넓은 추상 규칙을 찾는가.
  4. task-specific shortcut이나 대량 데이터 암기에 의존하지 않는가.

이 때문에 ARC는 2019년 당시 일반적인 딥러닝 방식으로는 풀기 어렵다고 주장된다. Deep learning은 대량의 유사 데이터에서 패턴을 찾는 데 강하지만, ARC는 적은 예시에서 규칙을 추론해야 한다.

ARC와 기존 IQ test의 차이

ARC는 Raven’s Progressive Matrices 같은 심리측정학적 IQ test와 겉모습이 닮아 있다. 하지만 원문은 ARC가 기존 IQ test와 중요한 차이를 가진다고 강조한다.

차이설명
Crystallized intelligence를 피한다ARC는 언어, 실제 사물 사진, 문화적 상식, 학교 교육 지식을 요구하지 않으려 한다. 목표는 acquired knowledge가 아니라 fluid intelligence에 가까운 추상 추론이다.
Developer-aware generalization을 겨냥한다평가 task는 test-taking system뿐 아니라 개발자에게도 알려지지 않아야 한다. private evaluation set이 중요한 이유다.
Task diversity를 높인다수백 개의 서로 다른 task를 사용해 hard-coded shortcut이 실용적이지 않게 만든다.
Static master program 생성에 의존하지 않는다C-Test처럼 하나의 생성 프로그램에서 문제를 대량 생성하면, 그 master program을 역공학하는 shortcut이 생길 수 있다. ARC는 다수 task를 수작업으로 구성해 이 위험을 줄이려 한다.

즉 ARC는 “기계용 IQ test”라기보다, IQ test 형식을 빌려 prior와 experience를 통제한 broad generalization 평가를 만들려는 시도에 가깝다.

이상적 지능 벤치마크의 조건

원문 II.3.2는 ARC를 제안하기 전에, 좋은 general intelligence benchmark가 가져야 할 조건을 정리한다. 현재 노트에서는 이 부분이 요약되어 있었으므로 보강한다.

조건쉬운 설명
Scope와 validity를 밝혀야 한다이 benchmark가 어떤 과제 공간을 대표하는지, benchmark 성능이 실제 과제 성능과 관련되는지 검증해야 한다.
Reliability가 있어야 한다stochastic 요소가 있더라도 반복 평가나 독립 연구자 평가에서 비슷한 결론이 나와야 한다.
Broad ability와 developer-aware generalization을 봐야 한다단순 skill이나 maximum skill만 보면 안 되고, 개발자도 모르는 새로운 task 적응을 봐야 한다.
Generalization difficulty를 정량화하거나 최소한 명시해야 한다local, broad, extreme 중 무엇을 측정하려는지 분명해야 한다.
Priors를 명시해야 한다benchmark가 허용하는 사전지식이 무엇인지 숨기면 공정 비교가 어렵다.
Experience를 통제해야 한다시스템이 task를 풀기 전 받은 데이터, 피드백, practice 양을 관리해야 한다.

이 조건들을 기준으로 보면 ARC는 꽤 야심찬 시도지만 완성형은 아니다. 특히 validity, generalization difficulty 정량화, human baseline 규모는 이후 연구가 보강해야 할 부분이다.


주요 주장 정리

주장쉽게 풀어쓴 의미
Skill ≠ Intelligence과제 점수는 지능이 아니라 기술 수준이다.
Skill can be boughtprior와 experience를 많이 주면 특정 과제 점수는 올릴 수 있다.
Intelligence is efficiency지능은 적은 정보로 새로운 skill을 얻는 효율이다.
No tabula rasaprior 없는 학습은 불가능하다. 인간도 기본 prior를 가지고 태어난다.
Generalization must be controlled평가에서는 prior, experience, generalization difficulty를 분리해야 한다.
ARC is a first attemptARC는 이 철학을 구현하려는 첫 벤치마크다.

결과와 근거

이 논문은 실험 논문이라기보다 이론·입장 논문이다. 따라서 모델별 성능 표가 중심은 아니다. 보고되는 경험적 근거는 제한적이다.

항목출처
ARC train set400 tasksp.46
ARC public eval set400 tasksp.46
ARC private eval set200 tasksp.46
평균 demonstration 수3.3개 / taskp.46
Grid 크기1×1 ~ 30×30, median 9×10p.46-47
색상 수10 unique symbolsp.47
시도 허용 횟수3 trialsp.47
인간 baselinehigh-IQ 3인 그룹이 합동으로 전 task 해결 가능p.51
머신 baseline2019년 기준 기존 ML 기법으로는 접근이 어렵다고 주장p.52

주의할 점은 본문에 강한 정량 baseline이 많지 않다는 것이다. ARC의 실제 모델 성능 비교는 이후 Kaggle ARC Challenge와 ARC Prize 계열 작업에서 더 본격적으로 다뤄진다.


프레임워크 다이어그램

flowchart TB
    subgraph Definition["지능 정의"]
        I["Intelligence<br/>= skill-acquisition efficiency"]
    end

    subgraph Axes["통제해야 할 축"]
        SCOPE["Scope<br/>어떤 과제 공간인가"]
        PRIORS["Priors P<br/>초기 사전지식"]
        EXP["Experience E<br/>학습 중 받은 정보"]
        GD["Generalization Difficulty GD<br/>훈련에서 평가로 넘어가는 난이도"]
    end

    subgraph System["Chollet의 시스템 구분"]
        IS["Intelligent System<br/>skill program 생성 엔진"]
        SP["Skill Program<br/>특정 과제를 수행하는 산출물"]
        TASK["Task<br/>situation, score, feedback"]
        IS --> SP
        SP --> TASK
        TASK --> IS
    end

    subgraph CoreK["Core Knowledge priors"]
        OBJ["Objectness"]
        AGT["Agentness<br/>goal-directedness"]
        NUM["Numbers"]
        GEO["Geometry"]
    end

    subgraph Benchmark["ARC"]
        ARC["1,000 grid tasks<br/>400 train / 400 public / 200 private"]
    end

    Definition --> Axes
    Axes --> System
    CoreK --> PRIORS
    CoreK --> ARC
    System --> Benchmark
    ARC --> Definition

    style I fill:#e8f4ff,stroke:#1f77b4,stroke-width:2px
    style AGT fill:#fff0c2,stroke:#cc7700,stroke-width:2px
    style ARC fill:#e8ffe8,stroke:#2ca02c,stroke-width:2px

한계와 비판점

1. 형식 정의는 계산하기 어렵다

논문의 수식은 Algorithmic Information Theory에 기대고 있다. 하지만 Kolmogorov complexity는 일반적으로 계산 불가능하다. 따라서 이 정의를 실제 지표로 쓰려면 근사 방법이 필요하다. Chollet도 이 점을 인정한다.

2. ARC가 general intelligence를 충분히 대표하는지는 불분명하다

ARC는 시각 격자 퍼즐이다. 추상 규칙 추론을 잘 평가하지만, 언어, 상식, 물리적 상호작용, 사회적 추론 전체를 포괄하지는 않는다. 따라서 ARC 점수가 높다고 곧바로 AGI라고 말할 수는 없다.

3. 인간 baseline이 제한적이다

논문에서 언급되는 인간 baseline은 통계적으로 큰 표본이 아니다. high-IQ 3인 그룹이 task를 풀 수 있었다는 보고는 ARC가 사람에게 가능하다는 근거는 되지만, 심리측정학적 타당성을 충분히 입증하지는 않는다.

4. Core Knowledge prior가 충분한지 열린 문제다 ⭐

Objectness, agentness, numbers, geometry는 인간 인지의 중요한 축이지만, 인간이 실제로 사용하는 prior가 이 네 가지로 충분히 설명되는지는 확실하지 않다.

5. Program synthesis가 정답인지도 아직 가설이다

Chollet은 ARC solver가 program synthesis engine 형태일 가능성이 높다고 본다. 하지만 이것은 방향 제안이지 증명된 결론은 아니다. 이후 neural-symbolic, LLM, test-time search 접근들이 이 문제를 계속 탐색하고 있다.


이론적 의의

1. AI 평가의 단위를 바꾼다

이 논문은 “모델이 어떤 과제를 얼마나 잘하느냐”보다 “그 과제를 잘하게 되기까지 얼마나 많은 정보가 필요했느냐”를 보자고 한다. 이는 평가 단위를 skill에서 skill-acquisition process로 바꾸는 제안이다.

2. Prior를 숨기지 말고 드러내라고 요구한다

AI 시스템은 언제나 prior를 가진다. 모델 구조, 학습 알고리즘, 데이터셋, 개발자의 튜닝 모두 prior로 작동할 수 있다. Chollet은 이것을 숨기지 말고 명시해야 공정한 비교가 가능하다고 본다.

3. Agent를 블랙박스 정책으로만 보지 않는다

행동을 내는 정책 자체보다, 새로운 skill program을 만들어내는 intelligent system이 더 중요하다. 이 관점은 Agentness나 program synthesis 기반 agent 설계와 연결된다.

4. Universal intelligence보다 인간 기준 scope를 중시한다

Legg-Hutter식 universal intelligence는 모든 가능한 환경을 상정한다. Chollet은 그것이 인간이 관심 갖는 지능 평가와 너무 멀다고 본다. 그는 인간 세계를 기준으로 한 anthropocentric scope가 필요하다고 주장한다.


관련 연구 비교

논문연도지능 정의/관점본 논문과의 관계
Binet & Simon, Binet-Simon Test1904인간 지능을 테스트 문항으로 측정하려는 초기 심리측정학Chollet이 AI 평가가 심리측정학에서 배워야 한다고 보는 배경이다.
Spearman, g factor1904/1927여러 인지검사 간 공통 요인으로서 일반 지능Chollet의 extreme generalization과 g factor 연결의 심리측정학적 배경이다.
Cattell / Horn / Carroll, Gf-Gc, CHC1971 이후fluid intelligence, crystallized intelligence, broad abilities의 계층 모델skill과 skill-acquisition을 구분하는 핵심 배경이다.
Legg & Hutter, Universal Intelligence2007가능한 모든 환경에서의 보상 평균Chollet은 너무 universal해서 인간 지능 평가에 부적합하다고 비판한다.
Bringsjord & Schimanski, Psychometric AI2003AI를 심리측정학적 테스트로 평가하려는 접근기존 IQ test를 기계 평가에 가져오는 흐름의 대표 사례다.
Hernández-Orallo, C-Test / Anytime Intelligence Test2010/2017Algorithmic complexity 기반 테스트AIT 기반 평가의 선행 연구다.
Hernández-Orallo et al., Universal Psychometrics2014자연 지능과 인공 지능을 같은 측정 틀에서 보려는 시도Chollet의 공정 비교 문제의식과 직접 연결된다.
[[Core Knowledge|Spelke & Kinzler, Core Knowledge]]2007인간이 가진 기본 인지 시스템 (objects/agents/number/geometry + 후보 5번째 social partners)ARC의 prior 집합에 직접적인 기반을 제공한다. → Core Knowledge
Lake et al., Building Machines That Learn and Think Like People2017Bayesian program induction과 인간형 학습ARC가 기대하는 solver 방향과 가깝다.
LeCun, A Path Towards Autonomous Machine Intelligence2022world model 기반 자율 지능Chollet의 program synthesis 관점에 대한 대안적 agent architecture로 볼 수 있다.

원자적 인사이트

1. Skill은 결과이고, intelligence는 변환률이다

한 과제의 점수는 최종 결과다. 하지만 지능은 그 결과를 만들기 위해 얼마나 많은 prior와 experience가 필요했는지까지 포함해 봐야 한다. 같은 점수를 더 적은 정보로 얻는 시스템이 더 지능적이다.

2. Generalization은 prior와 experience의 양과 다르다

Prior와 experience를 늘리면 특정 task 점수는 올라갈 수 있다. 하지만 그것이 일반화 능력의 증가를 의미하지는 않는다. 평가에서는 이 세 축을 분리해야 한다.

3. Tabula rasa는 좋은 AGI 모델이 아니다

인간은 백지로 태어나지 않는다. 인간 수준 지능을 평가하려면 인간이 가진 기본 prior를 무시하면 안 된다. No Free Lunch 관점에서도 prior 없는 학습은 불가능하다.

4. Agent는 policy 하나가 아니다

Chollet에게 지능은 행동을 바로 출력하는 policy에 있지 않다. 지능은 새로운 문제에 맞는 skill program을 만들어내는 system에 있다.

5. Anthropocentric scope는 약점이 아니라 조건이다

인간 지능을 논하려면 인간이 사는 세계, 인간이 가치 있다고 보는 과제 공간을 기준으로 삼아야 한다. 모든 가능한 환경에 대한 보편 지능은 이론적으로 흥미롭지만, 실제 AI 평가의 북극성으로는 너무 멀다.

6. ARC는 “퍼즐 벤치마크”가 아니라 평가 철학의 구현이다

ARC의 핵심은 grid puzzle 자체가 아니다. 적은 예시, 제한된 prior, developer-aware held-out task를 통해 broad generalization을 측정하려는 설계가 핵심이다.


핵심 용어 정리

용어정의
Skill특정 과제를 수행하는 능력이다. 높은 skill이 곧 높은 intelligence를 뜻하지는 않는다.
Skill-acquisition efficiency제한된 prior와 experience로 새로운 skill을 얻는 효율이다. Chollet이 제안하는 지능의 핵심 정의다.
Priors시스템이 학습 전에 이미 가지고 있는 관련 정보다. 모델 구조, 하드코딩된 지식, 인간의 Core Knowledge 등이 포함될 수 있다.
Experience학습 과정에서 받은 데이터, 예시, 피드백이다. 단순 반복 노출은 새로운 experience로 보기 어렵다.
Generalization Difficulty훈련 상황에서 평가 상황으로 넘어가기 위해 필요한 변화의 난이도다. 논문에서는 AIT로 형식화한다.
Task value어떤 task에서 특정 skill 수준을 달성하는 것이 얼마나 중요한지를 나타내는 가중치다. 난이도가 아니라 평가자가 중요하게 보는 정도다.
Scope지능을 평가할 과제 공간과 가치 함수다. Chollet은 인간 기준 scope가 필요하다고 본다.
Core Knowledge인간이 기본적으로 가진다고 보는 사전지식 체계다. Objectness, Agentness, Numbers, Geometry가 핵심 축이다.
Agentness어떤 대상이 목표와 의도를 가지고 효율적으로 행동한다고 보는 기본 직관이다.
Intelligent System새로운 task에 맞는 skill program을 만들어내는 시스템이다.
Skill ProgramIntelligent System이 생성한 특정 과제 해결 절차다. 행동을 수행하지만 그 자체가 지능은 아니다.
ARCAbstraction and Reasoning Corpus. Core Knowledge prior를 바탕으로 적은 예시에서 추상 규칙을 찾는 1,000개 grid puzzle 벤치마크다.
Developer-aware generalization모델뿐 아니라 개발자도 평가 task를 미리 알지 못하는 조건에서의 일반화다.

재현성 및 신뢰도 평가

항목등급근거
데이터셋 공개AARC train/public eval은 GitHub에 공개되어 있다. Private eval은 developer-aware generalization 보호를 위해 비공개다.
코드 공개C논문은 solver를 제안하지 않는다. 데이터셋과 로더 중심이다.
형식 정의의 검증 가능성C핵심 수식이 Kolmogorov Complexity에 기반하므로 직접 계산하기 어렵다.
결과 수치의 통계적 근거D인간 baseline은 소규모 비공식 보고에 가깝다.
통계 검정N/A입장 논문이라 표준적인 가설 검정은 없다.

종합 등급: B. 논증의 방향과 문제 제기는 강하다. 다만 수식의 직접 계산 가능성, ARC의 심리측정학적 타당성, 인간 baseline의 규모는 후속 연구가 필요하다.

주장별 신뢰도

주장평가
Skill과 intelligence를 구분해야 한다강함. 현대 벤치마크 과적합과 task-specific training 사례가 잘 뒷받침한다.
ARC는 2019년 딥러닝으로 어렵다2019년 기준 강함. 이후 LLM과 test-time search가 일부 진전을 보였지만, ARC 계열은 여전히 어려운 benchmark로 남아 있다.
Program synthesis가 일반 지능의 핵심 경로다중간. 중요한 가설이지만 아직 결정적 증명은 없다.
Core Knowledge 4축이 공정한 출발선이다중간. 발달심리 근거는 있지만, 인간 prior 전체를 포괄하는지는 열린 문제다.

관련 연구


태그

AGI 지능정의 ARC Generalization CoreKnowledge Agentness ProgramSynthesis Psychometrics AIT Position-Paper Chollet2019


BibTeX

@article{chollet2019measure,
  title   = {On the Measure of Intelligence},
  author  = {Chollet, Fran{\c{c}}ois},
  journal = {arXiv preprint arXiv:1911.01547},
  year    = {2019},
  url     = {https://arxiv.org/abs/1911.01547},
  note    = {Submitted Nov 5, 2019; revised Nov 25, 2019. Affiliation: Google, Inc.}
}