I. Context and history


I.1 Need for an actionable definition and measure of intelligence


I.2 Defining intelligence: two divergent visions


I.2.1 Intelligence as a collection of task-specific skills

I.2.2 Intelligence as a general learning ability

I.3 AI evaluation: from measuring skills to measuring broad abilities


I.3.1 Skill-based, narrow AI evaluation

I.3.2 The spectrum of generalization: robustness, flexibility, generality

I.3.3 Measuring broad abilities and general intelligence: the psychometrics perspective

I.3.4 Integrating AI evaluation and psychometrics


Quote

This is due in large part to the fact that most benchmarks do not pay much attention
to formally assessing robustness and quantifying generalization, and thus can be solved
via “shortcuts” that gradient descent is apt at exploiting (e.g. surface statistics such as
textures in the case of computer vision [46])

이 맥락에서 대부분의 benchmark는 robustness를 측정 대상으로 보지 않기 때문에 딥러닝의 GD 방법이 최적해 하나만 탐구하는 방법인 것이 근본적 문제를 일으키고 있다고 해석하면 되는거지? 그렇다면 robust한 모델을 실제로 고려하려면 loss 값이 단순히 작은 하나의 local minima만 고려하는 것이 아니라, 여러 local minima에 대한 분석이 필요하다고 해석하면 될까?

네, 사용자님의 해석이 맞습니다. 논문은 현재 대부분의 벤치마크가 Robustness(강건성)와 Generalization(일반화)을 공식적으로 평가하는 데 충분한 주의를 기울이지 않아, Deep Learning 모델의 Gradient Descent(GD) 학습 방식이 ‘지름길(shortcuts)‘을 이용하게 되는 근본적인 문제를 지적하고 있습니다.

이 내용을 더 자세히 설명해 드릴게요.

  • 현재 벤치마크의 한계:

    • 논문은 현재 AI, 특히 Deep Learning 분야의 벤치마크들이 특정 작업에서 높은 *기술(skill)*을 달성하는 데 초점을 맞추고 있다고 비판합니다.
    • 이러한 벤치마크들은 모델이 얼마나 새로운 상황에 잘 대처하고(Robustness), **학습 데이터와 약간 다른 상황에도 잘 작동하는지(Generalization)**를 충분히 평가하지 못합니다.
    • 예를 들어, 컴퓨터 비전 태스크에서 모델이 이미지의 실제 객체 형태를 이해하기보다는 배경이나 질감 같은 **‘표면 통계(surface statistics)‘**에 의존하여 높은 정확도를 달성할 수 있는데, 이는 GD가 손실 함수를 최소화하기 위해 발견하는 ‘지름길’ 중 하나입니다.
  • Gradient Descent(GD)의 역할:

    • Gradient Descent는 손실 함수(loss function)를 최소화하는 방향으로 모델 파라미터를 업데이트하는 알고리즘입니다.
    • 만약 벤치마크나 손실 함수 자체가 Robustness나 Generalization을 명확하게 요구하지 않는다면, GD는 해당 벤치마크에서 가장 쉽게 점수를 올릴 수 있는 방향, 즉 ‘지름길’을 찾아 학습하게 됩니다.
    • 이렇게 ‘지름길’을 통해 학습된 모델은 학습 데이터와는 조금만 다른 새로운 데이터에 대해서는 매우 취약해지는 ‘Brittle(깨지기 쉬운)’ 특성을 보이게 됩니다. Deep Learning 모델의 Robustness 문제가 종종 언급되는 이유이기도 합니다.

사용자님께서 “딥러닝의 GD 방법이 최적해 하나만 탐구하는 방법인 것이 근본적 문제를 일으키고 있다고 해석하면 되는거지?”라고 질문하신 부분은, GD가 단순히 손실을 최소화하는 데 집중하여 벤치마크가 허용하는 ‘쉬운 방법’으로 수렴하게 되고, 이것이 모델의 진정한 지능(Robustness 및 Generalization)을 측정하는 데 방해가 된다는 논문의 핵심 주장과 일치합니다.

두 번째 질문, “그렇다면 robust한 모델을 실제로 고려하려면 loss 값이 단순히 작은 하나의 local minima만 고려하는 것이 아니라, 여러 local minima에 대한 분석이 필요하다고 해석하면 될까?”에 대해서는 다음과 같이 답변할 수 있습니다.

  • Local Minima와 Robustness의 관계:

    • 딥러닝에서 ‘local minima(지역 최솟값)‘를 탐색하는 것은 중요한 문제입니다. 일반적으로 손실 함수의 더 ‘평평한(flatter)’ 지역 최솟값(wider local minima)에 수렴한 모델이 더 나은 Generalization 성능을 보인다는 연구 결과들이 있습니다. 이는 작은 입력 변화에도 출력값이 크게 변하지 않기 때문에 Robustness와도 관련될 수 있습니다.
    • 따라서 여러 local minima를 분석하거나, flatter minima를 찾는 전략(예: Entropy-SGD: Learning Local Optima that Generalize Well)은 Robustness를 개선하는 하나의 접근 방식이 될 수 있습니다.
  • 논문에서 제시하는 해결책의 초점:

    • 하지만 이 논문에서 강조하는 바는 Local Minima 자체의 문제가 아니라, ‘벤치마크 디자인’의 문제입니다. 즉, 현재의 벤치마크가 GD가 어떤 종류의 local minima에 수렴하든 상관없이 ‘지름길’을 허용하고 있다는 것이 핵심입니다.
    • 논문은 Robustness와 Generalization을 높이기 위해 단순히 손실 함수의 특성(local minima의 개수나 형태)을 탐색하는 것을 넘어, 평가 방식 자체를 근본적으로 바꿔야 한다고 주장합니다.
    • 이를 위해 논문은 다음과 같은 방향을 제시합니다.
      • 새로운 벤치마크 설계: 모델이 ‘지름길’을 이용할 수 없도록, 미리 알 수 없는(previously unknown) 다양한 태스크와 환경에 대한 적응력을 평가하는 벤치마크가 필요합니다. 본문에서 제안하는 Abstraction and Reasoning Corpus (ARC)가 그 예시입니다.
      • Priors와 Experience에 대한 통제: 모델이 가지고 있는 **사전 지식(priors)**과 **학습 경험(experience)**의 양을 명확히 통제하고, 이러한 요소들이 일반화 능력에 미치는 영향을 정량적으로 평가해야 합니다 (II.1.1, II.1.2 참조).
      • Skill-acquisition efficiency(기술 습득 효율성) 측정: 단순히 최종 기술 수준이 아닌, 주어진 priors와 experience를 바탕으로 새로운 기술을 얼마나 효율적으로 습득하는지를 지능의 척도로 삼아야 합니다 (II.2.1 참조).

요약하자면, 사용자님의 두 번째 질문은 딥러닝 연구에서 중요한 한 방향이지만, 이 논문이 해당 문단에서 지적하는 핵심적인 문제는 ‘GD가 어떤 local minima에 수렴하는가’보다는 ‘벤치마크가 GD에게 어떤 local minima로 수렴해도 상관없게끔 지름길을 허용하는가’에 더 가깝다고 볼 수 있습니다. 논문은 Robustness를 얻기 위해 평가 기준과 벤치마크 디자인 자체를 재고할 것을 강조합니다.

II. A new perspective


II.1 Critical assessment


II.1.1 Measuring the right thing: evaluating skill alone does not move us forward

II.1.2 The meaning of generality: grounding the g factor

II.1.3 Separating the innate from the acquired: insights from developmental psychology

II.2 Defining intelligence: a formal synthesis


II.2.1 Intelligence as skill-acquisition efficiency

II.2.2 Computation efficiency, time efficiency, energy efficiency, and risk efficiency

II.2.3 Practical implications

II.3 Evaluating intelligence in this light


II.3.1 Fair comparisons between intelligent systems

II.3.2 What to expect of an ideal intelligence benchmark

III. A benchmark proposal: the ARC dataset


III.1 Description and goals


III.1.1 What is ARC?

III.1.2 Core Knowledge priors

III.1.3 Key differences with psychometric intelligence tests

III.1.4 What a solution to ARC may look like, and what it would imply for AI applications

III.2 Weaknesses and future refinements


III.3 Possible alternatives

III.3.1 Repurposing skill benchmarks to measure broad generalization

III.3.2 Open-ended adversarial or collaborative approaches