AGI를 향한 진전 측정하기 — 인지 능력 벤치마크 해커톤

Digest: 현재 AI 모델은 훈련 데이터의 패턴을 암기하여 높은 점수를 달성하지만, 이것이 진정한 **유동 지능(fluid intelligence)**을 반영하는지는 불분명하다. Google DeepMind는 이 문제를 해결하기 위해 **인지 분류 체계(Cognitive Taxonomy)**를 제안한 논문(“Measuring Progress Toward AGI: A Cognitive Framework”, Burnell et al., 2026)을 발표하고, 이를 기반으로 Kaggle 해커톤을 개최했다. 해커톤은 학습(Learning), 메타인지(Metacognition), 주의(Attention), 실행 기능(Executive Functions), 사회적 인지(Social Cognition)의 5개 인지 트랙에서 프론티어 모델의 진짜 추론, 행동, 판단 능력을 측정하는 고품질 벤치마크를 크라우드소싱한다. 기존 벤치마크가 모델이 ‘무엇을 아는가’(결정화된 지식)만 측정한 반면, 이 이니셔티브는 ‘어떻게 생각하는가’(인지 과정)를 분리하여 측정함으로써 인지 프로파일(cognitive profile) — 10개 인지 능력 차원에서의 강약 지도 — 을 구축하는 것이 핵심이다. 총상금 25,000 + 트랙별 10개 × $10,000)을 걸고 2026년 3월 17일~4월 16일 진행되며, 참가자는 Kaggle Benchmarks 플랫폼을 활용해 벤치마크를 구축한다. 다만 이 접근은 인지 능력을 인간 인지과학 개념으로 분류하므로, AI 시스템의 인지 과정이 인간과 근본적으로 다를 수 있다는 구성 타당도(construct validity) 문제가 남아 있으며, 크라우드소싱된 벤치마크의 품질 균일성 확보도 과제이다. AGI 측정을 ‘추측과 주관적 주장’에서 ‘경험적, 과학적 연구’로 전환할 수 있을지가 열린 질문이다.


섹션별 요약

Introduction

  • AI 모델이 시험에서 A+를 받지만, 이는 교과서 암기와 유사할 수 있다는 문제 제기
  • 기존 평가가 표면적 패턴 의존(surface-level patterns)과 결정화된 지식(crystallized knowledge)만 측정
  • 특정 인지 능력을 분리하고, 지름길(shortcut) 풀이를 저항하며, 체계적 실패 모드를 노출하는 벤치마크 필요
  • Google DeepMind의 “Measuring Progress Toward AGI: A Cognitive Framework” 논문이 이론적 기반

Methods

  • Kaggle Benchmarks 플랫폼 활용: kaggle-benchmarks SDK로 태스크(task)를 구축하고 벤치마크(benchmark)로 묶음
  • 5개 인지 트랙: Learning, Metacognition, Attention, Executive Functions, Social Cognition
  • 제출 요건: Kaggle Writeup(1,500단어 이내) + Kaggle Benchmark(mandatory) + 코드 노트북(optional)
  • 평가 기준: Dataset quality & task construction (50%), Writeup quality (20%), Novelty/insights/discriminatory power (30%)
  • 참가자에게 500/월 AI 모델 쿼터 제공

Results

  • 대회 진행 중 (2026-03-17 ~ 2026-04-16), 결과 미발표
  • 심사 기간: 2026-04-17 ~ 2026-05-31
  • 결과 발표 예정: 2026-06-01

Discussion

  • 기반 논문은 10개 인지 능력(Perception, Generation, Attention, Learning, Memory, Reasoning, Metacognition, Executive Functions + 복합: Problem Solving, Social Cognition)을 제안
  • 해커톤은 이 중 5개에 집중 (Learning, Metacognition, Attention, Executive Functions, Social Cognition)
  • 인지 프로파일은 레이더 차트로 시각화하여 시스템의 강약 패턴을 한눈에 파악
  • 모델 평가 vs 시스템 평가 문제: 도구 접근이 가능한 시스템을 어떻게 공정하게 평가할 것인가

Insights

  • 주목할 점: 기존 벤치마크가 ‘무엇을 아는가’를 측정했다면, 이 이니셔티브는 ‘어떻게 생각하는가’를 분리 측정하려는 패러다임 전환
  • 연결 고리: ARC-AGI(Chollet, 2019)가 추상적 추론을 측정했다면, 이 프레임워크는 인지과학 전체 스펙트럼으로 확장
  • 시사점: 크라우드소싱을 통한 벤치마크 생태계 구축은 단일 기관 벤치마크의 편향과 데이터 오염 문제를 완화할 수 있음
  • 비판적 코멘트: 인간 인지과학 개념을 AI에 직접 적용하는 것이 적절한지에 대한 구성 타당도 논쟁 불가피

Discussion Points

  • 논쟁점: AI의 인지 능력이 인간 인지과학의 분류 체계에 깔끔하게 매핑되는가? LiDAR 인식이나 네이티브 이미지 생성처럼 인간에겐 없는 능력은 어떻게 다루는가?
  • 검증 필요 가정: 10개 인지 능력이 AGI의 필요충분조건인지, 아니면 필요조건에 불과한지
  • 후속 연구: 인지 프로파일과 실제 배포 성능 간의 상관관계 경험적 검증 필요

메타데이터

항목내용
제목Measuring Progress Toward AGI - Cognitive Abilities (Kaggle Hackathon)
주최Google DeepMind & Kaggle
기반 논문”Measuring Progress Toward AGI: A Cognitive Framework” (Burnell et al., 2026)
저자Ryan Burnell, Yumeya Yamamori, Orhan Firat, Kate Olszewska, Steph Hughes-Fitt, Oran Kelly, Isaac R. Galatzer-Levy, Meredith Ringel Morris, Allan Dafoe, Alison M. Snyder, Noah D. Goodman, Matthew Botvinick, Shane Legg
소속Google DeepMind
연도2026
링크Kaggle 대회, 기반 논문 PDF, GitHub SDK
키워드AGI, cognitive evaluation, benchmark, hackathon, cognitive profile

왜 이 연구를 하는가?

핵심 질문

현재 AI 벤치마크로는 프론티어 모델이 진정으로 ‘사고’하는지 아니면 단순히 훈련 데이터를 ‘회상’하는지 구별할 수 없다 — 이를 어떻게 측정할 것인가?

기존 접근법의 한계

한계설명
결정화된 지식 편향기존 벤치마크는 모델이 “무엇을 아는가”만 측정하고 “어떻게 생각하는가”는 측정하지 않음
데이터 오염 취약성공개 벤치마크는 훈련 데이터에 포함될 수 있어 측정 결과가 오염됨
인지 영역 커버리지 부족메타인지, 주의, 학습, 사회적 인지 등 핵심 인지 영역의 벤치마크가 부재
단일 점수의 한계하나의 점수로는 모델의 인지적 강약 프로파일을 파악할 수 없음
정적 평가모델이 진화하는 속도를 기존 고정 벤치마크가 따라가지 못함

핵심 통찰

  • 인지과학의 수십 년 연구가 축적한 인지 능력 분류 체계를 AI 평가에 적용하면, 단일 점수가 아닌 다차원 인지 프로파일을 구축할 수 있다
  • 벤치마크를 소수 기관이 만드는 대신 커뮤니티가 크라우드소싱하면 다양성과 오염 저항성을 동시에 확보할 수 있다
  • 시스템이 “무엇을 달성하는가(what)“에 초점을 맞추고 “어떻게(how)“는 불가지론적으로 두면, 아키텍처에 관계없이 공정한 비교가 가능하다

방법 (Method)

프레임워크 개요

graph TB
    subgraph "기반 논문: Cognitive Taxonomy (10개 인지 능력)"
        P[Perception]
        G[Generation]
        A[Attention]
        L[Learning]
        M[Memory]
        R[Reasoning]
        MC[Metacognition]
        EF[Executive Functions]
        PS[Problem Solving<br>복합]
        SC[Social Cognition<br>복합]
    end

    subgraph "Kaggle 해커톤: 5개 트랙"
        T1["🎯 Learning<br>$20,000"]
        T2["🎯 Metacognition<br>$20,000"]
        T3["🎯 Attention<br>$20,000"]
        T4["🎯 Executive Functions<br>$20,000"]
        T5["🎯 Social Cognition<br>$20,000"]
    end

    L --> T1
    MC --> T2
    A --> T3
    EF --> T4
    SC --> T5

    subgraph "평가 프로토콜"
        E1[1. Cognitive Assessment<br>인지 과제 수행]
        E2[2. Human Baselines<br>인간 기준선 수집]
        E3[3. Cognitive Profiles<br>인지 프로파일 구축]
    end

    T1 & T2 & T3 & T4 & T5 --> E1 --> E2 --> E3

    E3 --> OUT["레이더 차트<br>Cognitive Profile"]

핵심 구성요소

1. Cognitive Taxonomy (인지 분류 체계)

기반 논문에서 제안한 10개 인지 능력은 심리학, 신경과학, 인지과학 수십 년 연구에서 도출되었다. 8개 기본 능력(Perception, Generation, Attention, Learning, Memory, Reasoning, Metacognition, Executive Functions)과 2개 복합 능력(Problem Solving, Social Cognition)으로 구성된다. 핵심 설계 원칙은 시스템이 “무엇을 달성하는가(what)“에 초점을 맞추고, “어떻게 달성하는가(how)“에 대해서는 불가지론적 입장을 취하는 것이다.

2. 5개 인지 트랙

트랙핵심 질문평가 목표 예시
Learning모델이 새로운 지식과 기술을 습득할 수 있는가?소수 예시로 새 규칙 학습 및 일반화, 교정 피드백 후 신념 업데이트
Metacognition모델이 자신이 아는 것과 모르는 것을 아는가?자신감 교정(calibration), 오류 감지 및 수정, 지식 경계 인식
Attention모델이 중요한 것에 집중하고 불필요한 것을 무시할 수 있는가?무관한 정보에 의한 산만, 입력 길이에 따른 성능 저하, 하위 과제 간 초점 전환
Executive Functions모델이 계획하고, 충동을 억제하고, 유연하게 적응할 수 있는가?다단계 계획 수립 및 조정, 습관적 반응 억제, 과제 규칙 전환
Social Cognition모델이 사회적 상황을 이해하고 탐색할 수 있는가?화자 의도 추론, 다중 에이전트 신념 추적, 협상 시나리오 탐색

3. 평가 프로토콜 (3단계)

논문에서 제안한 평가 프로토콜은 다음과 같다:

  • (1) 인지 평가(Cognitive Assessment): 각 인지 능력을 분리하는 과제 세트에서 시스템 성능 측정. 과제는 특정 능력에 표적화되어야 하고, held-out 데이터를 사용하며, 독립적으로 검증 가능해야 한다.
  • (2) 인간 기준선(Human Baselines): 동일 과제에서 인간 성능을 정량화. 인구통계적으로 대표적인 성인 표본(최소 중등교육 이수)으로 구성.
  • (3) 인지 프로파일(Cognitive Profiles): 10개 차원에서 시스템의 강약을 레이더 차트로 시각화. 인간 중간값 초과, 99th 백분위 초과 등 수준별 비교.

4. Kaggle Benchmarks 플랫폼

참가자는 kaggle-benchmarks SDK를 활용하여 개별 과제(task)를 작성하고 이를 벤치마크(benchmark)로 묶는다. 대회 기간 중 AI 모델 실행을 위한 추가 쿼터(500/월)가 제공된다.


발견 (Findings)

주요 결과

대회 진행 중이므로 벤치마크 결과는 아직 없다. 대회 구조와 평가 기준을 정리한다.

항목내용
총 상금$200,000
그랜드 프라이즈4개 × $25,000 (전체 트랙 최우수)
트랙 프라이즈5개 트랙 × 2등상 × $10,000 (총 10개, 중복 수상 불가)
총 수상자14명 (unique)
제출 마감2026-04-16 11:59 PM UTC
심사 기간2026-04-17 ~ 2026-05-31
결과 발표2026-06-01 (예정)

심사 기준

기준비중세부
Dataset quality & task construction50%정답의 명확성, 통계적 유의 표본 크기, 클린 코드, 강건한 입출력 검증
Writeup quality20%문제 정의, 태스크 구조, 데이터 출처, 기술적 세부사항, 결과 및 인사이트, 참고문헌
Novelty, insights, discriminatory power30%기존에 볼 수 없던 모델 행동 정보, 의미 있는 신호, 모델 간 성능 차별화(0%도 100%도 쓸모없음)

핵심 발견 (기반 논문)

기반 논문의 핵심 주장은 다음과 같다. 인간 인지과학의 10개 능력으로 AI를 평가하면, 기존의 단일 점수 벤치마크가 감춘 **인지적 강약 패턴(jagged profile)**을 드러낼 수 있다. 논문은 Figure 2에서 세 가지 가상 시스템의 인지 프로파일을 레이더 차트로 보여준다: (A) 일부 인지 능력이 인간 중간값 이하인 시스템, (B) 모든 능력이 중간값 이상인 시스템, (C) 모든 능력이 99th 백분위인 시스템. 이 시각화는 “AGI인가 아닌가”라는 이분법 대신, 연속적이고 다차원적인 역량 지도를 제공한다.


이론적 의의

AGI 평가의 패러다임 전환: 점수에서 프로파일로

기존 AGI 논의는 “이 시스템이 AGI인가?”라는 이분법적 질문에 갇혀 있었다. 이 프레임워크는 AGI를 단일 임계점이 아닌 10차원 연속 공간에서의 위치로 재정의한다. 이는 2023년 Google DeepMind의 “Levels of AGI” 프레임워크(Morris et al., 2024)를 계승하면서, 능력(capability)과 일반성(generality) 2차원에서 10개 인지 차원으로 세밀화한 것이다. 인지 프로파일은 연구자에게는 모델 개선 방향을, 정책입안자에게는 위험 평가 근거를, 사용자에게는 적합 용도 판단 기준을 제공한다.

크라우드소싱 벤치마크 생태계의 가능성

단일 기관이 벤치마크를 만들면 데이터 오염, 문화적 편향, 커버리지 부족 문제가 불가피하다. 커뮤니티 크라우드소싱은 다양한 도메인 전문성을 동원하여 이 문제를 완화한다. Kaggle Benchmarks 플랫폼은 누구나 무료로 벤치마크를 구축-실행-공유할 수 있게 하여, 벤치마크가 정적 자산에서 동적 생태계로 전환되는 모델을 제시한다.

시스템 평가 vs 모델 평가의 딜레마

논문은 현대 AI 시스템이 시스템 프롬프트, 도구 접근, 다른 AI 호출 등을 포함하므로 모델만 분리 평가하는 것은 비현실적이라고 주장한다. 그러나 도구 접근을 허용하면 측정 대상이 달라진다는 딜레마도 인정한다 — 예를 들어, 인터넷 검색이 가능한 시스템의 “기억” 평가는 기억이 아닌 검색 능력을 측정하게 된다. 이는 각 과제마다 개별적으로 고려해야 할 문제이다.


재현성 및 신뢰도 평가

항목등급비고
코드 공개kaggle-benchmarks SDK 오픈소스
데이터 공개대회 종료 후 모든 벤치마크/태스크 자동 공개
하이퍼파라미터⚠️해당 없음 (벤치마크 설계 대회)
실험 환경Kaggle 플랫폼에서 표준화된 실행 환경 제공
통계적 신뢰도⚠️벤치마크 결과 미발표, 평가 기준에 “통계적 유의 표본 크기” 요구
종합 등급B플랫폼과 SDK는 공개이나, 실제 벤치마크 결과는 미발표

주장별 신뢰도

#주장근거신뢰도
1기존 벤치마크가 결정화된 지식만 측정한다데이터 오염 연구(Jacovi et al. 2023), ARC-AGI 사례 등 다수 선행 연구에서 입증🟢
2인지 분류 체계 10개 능력이 AGI의 핵심 요소이다심리학/신경과학/인지과학 수십 년 연구 기반이나, AI에 대한 직접 검증은 미완🟡
3크라우드소싱 벤치마크가 기존 벤치마크보다 우수하다아직 결과 미발표, 품질 균일성 보장 메커니즘 불분명🟡
4인지 프로파일이 실제 배포 성능을 예측할 수 있다이론적 주장일 뿐, 경험적 검증 필요🔴

읽기 난이도: ⭐⭐

대회 페이지는 평이하게 작성되어 있으며, 기반 논문도 9페이지로 간결하고 수식 없이 개념적 프레임워크를 제시한다. 인지심리학 기초 용어(metacognition, executive functions 등)에 대한 배경지식이 있으면 충분하다.


관련 연구 비교 매트릭스

본 이니셔티브ARC-AGI (Chollet, 2019/2025)Levels of AGI (Morris et al., 2024)Frontier Math (Hendrycks et al.)
핵심 접근인지과학 기반 10개 능력 분류 + 크라우드소싱 벤치마크Core Knowledge 기반 추상 추론능력 × 일반성 2차원 레벨 체계최고 난이도 수학 문제
문제 정의AGI의 인지적 강약을 다차원으로 매핑유동 지능(fluid intelligence) 측정AGI 진전의 단계적 정의수학적 추론의 상한 측정
데이터커뮤니티 크라우드소싱수동 설계 퍼즐 과제프레임워크 논문 (데이터 없음)전문가 제작 수학 문제
핵심 메트릭인지 프로파일 (레이더 차트)정답률 (% correct)6단계 레벨 분류정답률
확장성높음 (플랫폼 기반, 지속적 추가 가능)낮음 (수동 설계)N/A (프레임워크)중간
한계구성 타당도 문제, 품질 균일성단일 인지 능력(추상 추론)만 측정조작적 정의 부재수학 영역에 한정
코드 공개

관련 연구

  • Levels of AGI — Morris et al. (2024), 본 프레임워크의 직접적 전신으로 능력(capability)과 일반성(generality) 2차원에서 AGI 단계를 정의
  • ARC-AGI — Chollet (2019/2025), 유동 지능과 추상 추론 측정에 집중한 벤치마크로, 본 이니셔티브의 “Learning” 트랙과 직접 연결
  • AgentBench - Evaluating LLMs as Agents — LLM의 에이전트 능력을 다차원으로 평가한 벤치마크, 본 이니셔티브의 “시스템 평가” 관점과 공유

원자적 인사이트 (Zettelkasten)

💡 인지 프로파일: AGI를 이분법이 아닌 연속 공간에서 정의하기

출처: Kaggle Measuring Progress Toward AGI - Cognitive Abilities (Burnell et al., 2026)
유형: 이론적

AGI를 “달성했는가/못했는가”의 이분법이 아닌, 10개 인지 차원에서의 위치(레이더 차트)로 표현하면 더 유용한 정보를 얻을 수 있다. 인간 집단 역시 인지 프로파일이 사람마다 다르므로(jagged profile), AI 시스템도 동일한 프레임워크로 비교하는 것이 자연스럽다. 이 관점에서 AGI는 “10개 차원 모두에서 인간 중간값을 초과하는 시스템”으로 조작적 정의가 가능하다.

핵심 조건/맥락: 10개 능력이 AGI의 필요충분조건이라는 가정 하에서만 성립. 인간에겐 없는 AI 고유 능력(예: LiDAR 인식)은 이 프레임워크에 포함되지 않음.
연결: Levels of AGI, ARC-AGI
활용 가능성: AI 시스템 비교 리포트, 정책 문서에서 “AGI 수준”을 다차원적으로 보고하는 표준 형식으로 활용 가능

💡 What vs How: 능력 중심 평가의 아키텍처 불가지론

출처: Kaggle Measuring Progress Toward AGI - Cognitive Abilities (Burnell et al., 2026)
유형: 방법론적

인지 평가에서 시스템이 “무엇을 달성하는가(what)“만 측정하고 “어떻게 달성하는가(how)“는 묻지 않는 설계는 Marr(1982)의 계산 수준(computational level) 분석에 해당한다. 이 원칙 덕분에 트랜스포머, 확산 모델, 신경-기호 하이브리드 등 어떤 아키텍처도 동일 기준으로 비교할 수 있다.

핵심 조건/맥락: 아키텍처 불가지론은 공정성을 제공하지만, 실패 원인 진단에는 한계. 실패 모드를 이해하려면 결국 “how” 수준의 분석이 필요.
연결: Marr’s Levels of Analysis, Levels of AGI
활용 가능성: 벤치마크 설계 시 “아키텍처 특이적 과제”와 “아키텍처 불가지론적 과제”를 명시적으로 구분하는 가이드라인

💡 크라우드소싱 벤치마크의 데이터 오염 저항성

출처: Kaggle Measuring Progress Toward AGI - Cognitive Abilities (Burnell et al., 2026)
유형: 방법론적

커뮤니티가 지속적으로 새 벤치마크를 생산하면, 특정 벤치마크에 과적합(overfitting)하는 것이 어려워진다. 이는 held-out 데이터를 비공개로 유지하는 것보다 더 근본적인 해결책일 수 있다 — 벤치마크 자체가 지속적으로 갱신되기 때문이다.

핵심 조건/맥락: 크라우드소싱된 벤치마크의 품질 편차가 크면 노이즈가 신호를 압도할 수 있음. 품질 관리 메커니즘이 핵심.
연결: Data Contamination in LLMs, AgentBench - Evaluating LLMs as Agents
활용 가능성: 벤치마크 플랫폼 설계 시 “지속적 갱신 + 품질 게이팅” 패턴


핵심 용어 정리

용어정의
Cognitive Taxonomy심리학/신경과학/인지과학에서 도출한 10개 인지 능력의 분류 체계. Perception, Generation, Attention, Learning, Memory, Reasoning, Metacognition, Executive Functions + 복합 능력 Problem Solving, Social Cognition
Cognitive Profile10개 인지 능력 차원에서 시스템의 강약을 레이더 차트로 시각화한 다차원 역량 지도
Crystallized Knowledge훈련을 통해 축적된 고정된 지식. 기존 벤치마크가 주로 측정하는 것
Fluid Intelligence새로운 상황에서 패턴을 인식하고 추론하는 능력. 사전 지식에 의존하지 않는 적응적 사고력
Metacognition자신의 인지 과정에 대한 지식과 이를 모니터링·통제하는 능력. “아는 것을 아는 것”
Executive Functions목표 지향적 행동을 촉진하는 능력들의 집합. 계획(planning), 억제(inhibition), 인지적 유연성(cognitive flexibility) 포함
Social Cognition사회적 정보를 처리·해석하고 사회적 상황에 적절히 반응하는 능력
Construct Validity측정 도구가 실제로 측정하려는 개념을 정확히 측정하는 정도
Held-out Data모델 훈련에 노출되지 않은 비공개 평가 데이터. 데이터 오염 방지를 위해 사용
Jagged ProfileAI 시스템의 인지 능력이 차원마다 들쭉날쭉하게 다른 불균일한 패턴 (Morris et al., 2026)
Kaggle BenchmarksKaggle이 제공하는 커뮤니티 벤치마크 구축-실행-공유 플랫폼. kaggle-benchmarks SDK 기반
Discriminatory Power벤치마크가 모델 간 성능 차이를 의미 있게 구별할 수 있는 능력. 모든 모델이 0% 또는 100%이면 무의미

타임라인

gantt
    title Kaggle Measuring AGI - Cognitive Abilities
    dateFormat YYYY-MM-DD
    section 대회 진행
    대회 시작           :milestone, 2026-03-17, 0d
    제출 기간           :active, sub, 2026-03-17, 2026-04-16
    제출 마감           :milestone, 2026-04-16, 0d
    section 심사
    심사 기간           :judge, 2026-04-17, 2026-05-31
    section 발표
    결과 발표 예정      :milestone, 2026-06-01, 0d

태그

kaggle hackathon #2026 AGI benchmark cognitive-evaluation DeepMind metacognition attention learning executive-functions social-cognition