AGI를 향한 진전 측정하기 — 인지 능력 벤치마크 해커톤

Digest: 현재 AI 모델은 훈련 데이터의 패턴을 암기하여 높은 점수를 달성하지만, 이것이 진정한 **유동 지능(fluid intelligence)**을 반영하는지는 불분명하다. Google DeepMind는 이 문제를 해결하기 위해 **인지 분류 체계(Cognitive Taxonomy)**를 제안한 논문(“Measuring Progress Toward AGI: A Cognitive Framework”, Burnell et al., 2026)을 발표하고, 이를 기반으로 Kaggle 해커톤을 개최했다. 해커톤은 학습(Learning), 메타인지(Metacognition), 주의(Attention), 실행 기능(Executive Functions), 사회적 인지(Social Cognition)의 5개 인지 트랙에서 프론티어 모델의 진짜 추론, 행동, 판단 능력을 측정하는 고품질 벤치마크를 크라우드소싱한다. 기존 벤치마크가 모델이 ‘무엇을 아는가’(결정화된 지식)만 측정한 반면, 이 이니셔티브는 ‘어떻게 생각하는가’(인지 과정)를 분리하여 측정함으로써 인지 프로파일(cognitive profile) — 10개 인지 능력 차원에서의 강약 지도 — 을 구축하는 것이 핵심이다. 총상금 $200, 000 (그랜드프라이즈 4 개 \times$ 25,000 + 트랙별 10개 × $10,000)을 걸고 2026년 3월 17일~4월 16일 진행되며, 참가자는 Kaggle Benchmarks 플랫폼을 활용해 벤치마크를 구축한다. 다만 이 접근은 인지 능력을 인간 인지과학 개념으로 분류하므로, AI 시스템의 인지 과정이 인간과 근본적으로 다를 수 있다는 구성 타당도(construct validity) 문제가 남아 있으며, 크라우드소싱된 벤치마크의 품질 균일성 확보도 과제이다. AGI 측정을 ‘추측과 주관적 주장’에서 ‘경험적, 과학적 연구’로 전환할 수 있을지가 열린 질문이다.

섹션별 요약

Introduction

AI 모델이 시험에서 A+를 받지만, 이는 교과서 암기와 유사할 수 있다는 문제 제기
기존 평가가 표면적 패턴 의존(surface-level patterns)과 결정화된 지식(crystallized knowledge)만 측정
특정 인지 능력을 분리하고, 지름길(shortcut) 풀이를 저항하며, 체계적 실패 모드를 노출하는 벤치마크 필요
Google DeepMind의 “Measuring Progress Toward AGI: A Cognitive Framework” 논문이 이론적 기반

Methods

Kaggle Benchmarks 플랫폼 활용: kaggle-benchmarks SDK로 태스크(task)를 구축하고 벤치마크(benchmark)로 묶음
5개 인지 트랙: Learning, Metacognition, Attention, Executive Functions, Social Cognition
제출 요건: Kaggle Writeup(1,500단어 이내) + Kaggle Benchmark(mandatory) + 코드 노트북(optional)
평가 기준: Dataset quality & task construction (50%), Writeup quality (20%), Novelty/insights/discriminatory power (30%)
참가자에게 $50/ 일,$ 500/월 AI 모델 쿼터 제공

Results

대회 진행 중 (2026-03-17 ~ 2026-04-16), 결과 미발표
심사 기간: 2026-04-17 ~ 2026-05-31
결과 발표 예정: 2026-06-01

Discussion

기반 논문은 10개 인지 능력(Perception, Generation, Attention, Learning, Memory, Reasoning, Metacognition, Executive Functions + 복합: Problem Solving, Social Cognition)을 제안
해커톤은 이 중 5개에 집중 (Learning, Metacognition, Attention, Executive Functions, Social Cognition)
인지 프로파일은 레이더 차트로 시각화하여 시스템의 강약 패턴을 한눈에 파악
모델 평가 vs 시스템 평가 문제: 도구 접근이 가능한 시스템을 어떻게 공정하게 평가할 것인가

Insights

주목할 점: 기존 벤치마크가 ‘무엇을 아는가’를 측정했다면, 이 이니셔티브는 ‘어떻게 생각하는가’를 분리 측정하려는 패러다임 전환
연결 고리: ARC-AGI(Chollet, 2019)가 추상적 추론을 측정했다면, 이 프레임워크는 인지과학 전체 스펙트럼으로 확장
시사점: 크라우드소싱을 통한 벤치마크 생태계 구축은 단일 기관 벤치마크의 편향과 데이터 오염 문제를 완화할 수 있음
비판적 코멘트: 인간 인지과학 개념을 AI에 직접 적용하는 것이 적절한지에 대한 구성 타당도 논쟁 불가피

Discussion Points

논쟁점: AI의 인지 능력이 인간 인지과학의 분류 체계에 깔끔하게 매핑되는가? LiDAR 인식이나 네이티브 이미지 생성처럼 인간에겐 없는 능력은 어떻게 다루는가?
검증 필요 가정: 10개 인지 능력이 AGI의 필요충분조건인지, 아니면 필요조건에 불과한지
후속 연구: 인지 프로파일과 실제 배포 성능 간의 상관관계 경험적 검증 필요

메타데이터

항목	내용
제목	Measuring Progress Toward AGI - Cognitive Abilities (Kaggle Hackathon)
주최	Google DeepMind & Kaggle
기반 논문	”Measuring Progress Toward AGI: A Cognitive Framework” (Burnell et al., 2026)
저자	Ryan Burnell, Yumeya Yamamori, Orhan Firat, Kate Olszewska, Steph Hughes-Fitt, Oran Kelly, Isaac R. Galatzer-Levy, Meredith Ringel Morris, Allan Dafoe, Alison M. Snyder, Noah D. Goodman, Matthew Botvinick, Shane Legg
소속	Google DeepMind
연도	2026
링크	Kaggle 대회, 기반 논문 PDF, GitHub SDK
키워드	AGI, cognitive evaluation, benchmark, hackathon, cognitive profile

왜 이 연구를 하는가?

핵심 질문

현재 AI 벤치마크로는 프론티어 모델이 진정으로 ‘사고’하는지 아니면 단순히 훈련 데이터를 ‘회상’하는지 구별할 수 없다 — 이를 어떻게 측정할 것인가?

기존 접근법의 한계

한계	설명
결정화된 지식 편향	기존 벤치마크는 모델이 “무엇을 아는가”만 측정하고 “어떻게 생각하는가”는 측정하지 않음
데이터 오염 취약성	공개 벤치마크는 훈련 데이터에 포함될 수 있어 측정 결과가 오염됨
인지 영역 커버리지 부족	메타인지, 주의, 학습, 사회적 인지 등 핵심 인지 영역의 벤치마크가 부재
단일 점수의 한계	하나의 점수로는 모델의 인지적 강약 프로파일을 파악할 수 없음
정적 평가	모델이 진화하는 속도를 기존 고정 벤치마크가 따라가지 못함

핵심 통찰

인지과학의 수십 년 연구가 축적한 인지 능력 분류 체계를 AI 평가에 적용하면, 단일 점수가 아닌 다차원 인지 프로파일을 구축할 수 있다
벤치마크를 소수 기관이 만드는 대신 커뮤니티가 크라우드소싱하면 다양성과 오염 저항성을 동시에 확보할 수 있다
시스템이 “무엇을 달성하는가(what)“에 초점을 맞추고 “어떻게(how)“는 불가지론적으로 두면, 아키텍처에 관계없이 공정한 비교가 가능하다

방법 (Method)

프레임워크 개요

graph TB
    subgraph "기반 논문: Cognitive Taxonomy (10개 인지 능력)"
        P[Perception]
        G[Generation]
        A[Attention]
        L[Learning]
        M[Memory]
        R[Reasoning]
        MC[Metacognition]
        EF[Executive Functions]
        PS[Problem Solving<br>복합]
        SC[Social Cognition<br>복합]
    end

    subgraph "Kaggle 해커톤: 5개 트랙"
        T1["🎯 Learning<br>$20,000"]
        T2["🎯 Metacognition<br>$20,000"]
        T3["🎯 Attention<br>$20,000"]
        T4["🎯 Executive Functions<br>$20,000"]
        T5["🎯 Social Cognition<br>$20,000"]
    end

    L --> T1
    MC --> T2
    A --> T3
    EF --> T4
    SC --> T5

    subgraph "평가 프로토콜"
        E1[1. Cognitive Assessment<br>인지 과제 수행]
        E2[2. Human Baselines<br>인간 기준선 수집]
        E3[3. Cognitive Profiles<br>인지 프로파일 구축]
    end

    T1 & T2 & T3 & T4 & T5 --> E1 --> E2 --> E3

    E3 --> OUT["레이더 차트<br>Cognitive Profile"]

핵심 구성요소

1. Cognitive Taxonomy (인지 분류 체계)

기반 논문에서 제안한 10개 인지 능력은 심리학, 신경과학, 인지과학 수십 년 연구에서 도출되었다. 8개 기본 능력(Perception, Generation, Attention, Learning, Memory, Reasoning, Metacognition, Executive Functions)과 2개 복합 능력(Problem Solving, Social Cognition)으로 구성된다. 핵심 설계 원칙은 시스템이 “무엇을 달성하는가(what)“에 초점을 맞추고, “어떻게 달성하는가(how)“에 대해서는 불가지론적 입장을 취하는 것이다.

2. 5개 인지 트랙

트랙	핵심 질문	평가 목표 예시
Learning	모델이 새로운 지식과 기술을 습득할 수 있는가?	소수 예시로 새 규칙 학습 및 일반화, 교정 피드백 후 신념 업데이트
Metacognition	모델이 자신이 아는 것과 모르는 것을 아는가?	자신감 교정(calibration), 오류 감지 및 수정, 지식 경계 인식
Attention	모델이 중요한 것에 집중하고 불필요한 것을 무시할 수 있는가?	무관한 정보에 의한 산만, 입력 길이에 따른 성능 저하, 하위 과제 간 초점 전환
Executive Functions	모델이 계획하고, 충동을 억제하고, 유연하게 적응할 수 있는가?	다단계 계획 수립 및 조정, 습관적 반응 억제, 과제 규칙 전환
Social Cognition	모델이 사회적 상황을 이해하고 탐색할 수 있는가?	화자 의도 추론, 다중 에이전트 신념 추적, 협상 시나리오 탐색

3. 평가 프로토콜 (3단계)

논문에서 제안한 평가 프로토콜은 다음과 같다:

(1) 인지 평가(Cognitive Assessment): 각 인지 능력을 분리하는 과제 세트에서 시스템 성능 측정. 과제는 특정 능력에 표적화되어야 하고, held-out 데이터를 사용하며, 독립적으로 검증 가능해야 한다.
(2) 인간 기준선(Human Baselines): 동일 과제에서 인간 성능을 정량화. 인구통계적으로 대표적인 성인 표본(최소 중등교육 이수)으로 구성.
(3) 인지 프로파일(Cognitive Profiles): 10개 차원에서 시스템의 강약을 레이더 차트로 시각화. 인간 중간값 초과, 99th 백분위 초과 등 수준별 비교.

4. Kaggle Benchmarks 플랫폼

참가자는 kaggle-benchmarks SDK를 활용하여 개별 과제(task)를 작성하고 이를 벤치마크(benchmark)로 묶는다. 대회 기간 중 AI 모델 실행을 위한 추가 쿼터( $50/ 일,$ 500/월)가 제공된다.

발견 (Findings)

주요 결과

대회 진행 중이므로 벤치마크 결과는 아직 없다. 대회 구조와 평가 기준을 정리한다.

항목	내용
총 상금	$200,000
그랜드 프라이즈	4개 × $25,000 (전체 트랙 최우수)
트랙 프라이즈	5개 트랙 × 2등상 × $10,000 (총 10개, 중복 수상 불가)
총 수상자	14명 (unique)
제출 마감	2026-04-16 11:59 PM UTC
심사 기간	2026-04-17 ~ 2026-05-31
결과 발표	2026-06-01 (예정)

심사 기준

기준	비중	세부
Dataset quality & task construction	50%	정답의 명확성, 통계적 유의 표본 크기, 클린 코드, 강건한 입출력 검증
Writeup quality	20%	문제 정의, 태스크 구조, 데이터 출처, 기술적 세부사항, 결과 및 인사이트, 참고문헌
Novelty, insights, discriminatory power	30%	기존에 볼 수 없던 모델 행동 정보, 의미 있는 신호, 모델 간 성능 차별화(0%도 100%도 쓸모없음)

핵심 발견 (기반 논문)

기반 논문의 핵심 주장은 다음과 같다. 인간 인지과학의 10개 능력으로 AI를 평가하면, 기존의 단일 점수 벤치마크가 감춘 **인지적 강약 패턴(jagged profile)**을 드러낼 수 있다. 논문은 Figure 2에서 세 가지 가상 시스템의 인지 프로파일을 레이더 차트로 보여준다: (A) 일부 인지 능력이 인간 중간값 이하인 시스템, (B) 모든 능력이 중간값 이상인 시스템, (C) 모든 능력이 99th 백분위인 시스템. 이 시각화는 “AGI인가 아닌가”라는 이분법 대신, 연속적이고 다차원적인 역량 지도를 제공한다.

이론적 의의

AGI 평가의 패러다임 전환: 점수에서 프로파일로

기존 AGI 논의는 “이 시스템이 AGI인가?”라는 이분법적 질문에 갇혀 있었다. 이 프레임워크는 AGI를 단일 임계점이 아닌 10차원 연속 공간에서의 위치로 재정의한다. 이는 2023년 Google DeepMind의 “Levels of AGI” 프레임워크(Morris et al., 2024)를 계승하면서, 능력(capability)과 일반성(generality) 2차원에서 10개 인지 차원으로 세밀화한 것이다. 인지 프로파일은 연구자에게는 모델 개선 방향을, 정책입안자에게는 위험 평가 근거를, 사용자에게는 적합 용도 판단 기준을 제공한다.

크라우드소싱 벤치마크 생태계의 가능성

단일 기관이 벤치마크를 만들면 데이터 오염, 문화적 편향, 커버리지 부족 문제가 불가피하다. 커뮤니티 크라우드소싱은 다양한 도메인 전문성을 동원하여 이 문제를 완화한다. Kaggle Benchmarks 플랫폼은 누구나 무료로 벤치마크를 구축-실행-공유할 수 있게 하여, 벤치마크가 정적 자산에서 동적 생태계로 전환되는 모델을 제시한다.

시스템 평가 vs 모델 평가의 딜레마

논문은 현대 AI 시스템이 시스템 프롬프트, 도구 접근, 다른 AI 호출 등을 포함하므로 모델만 분리 평가하는 것은 비현실적이라고 주장한다. 그러나 도구 접근을 허용하면 측정 대상이 달라진다는 딜레마도 인정한다 — 예를 들어, 인터넷 검색이 가능한 시스템의 “기억” 평가는 기억이 아닌 검색 능력을 측정하게 된다. 이는 각 과제마다 개별적으로 고려해야 할 문제이다.

재현성 및 신뢰도 평가

항목	등급	비고
코드 공개	✅	kaggle-benchmarks SDK 오픈소스
데이터 공개	✅	대회 종료 후 모든 벤치마크/태스크 자동 공개
하이퍼파라미터	⚠️	해당 없음 (벤치마크 설계 대회)
실험 환경	✅	Kaggle 플랫폼에서 표준화된 실행 환경 제공
통계적 신뢰도	⚠️	벤치마크 결과 미발표, 평가 기준에 “통계적 유의 표본 크기” 요구
종합 등급	B	플랫폼과 SDK는 공개이나, 실제 벤치마크 결과는 미발표

주장별 신뢰도

#	주장	근거	신뢰도
1	기존 벤치마크가 결정화된 지식만 측정한다	데이터 오염 연구(Jacovi et al. 2023), ARC-AGI 사례 등 다수 선행 연구에서 입증	🟢
2	인지 분류 체계 10개 능력이 AGI의 핵심 요소이다	심리학/신경과학/인지과학 수십 년 연구 기반이나, AI에 대한 직접 검증은 미완	🟡
3	크라우드소싱 벤치마크가 기존 벤치마크보다 우수하다	아직 결과 미발표, 품질 균일성 보장 메커니즘 불분명	🟡
4	인지 프로파일이 실제 배포 성능을 예측할 수 있다	이론적 주장일 뿐, 경험적 검증 필요	🔴

읽기 난이도: ⭐⭐

대회 페이지는 평이하게 작성되어 있으며, 기반 논문도 9페이지로 간결하고 수식 없이 개념적 프레임워크를 제시한다. 인지심리학 기초 용어(metacognition, executive functions 등)에 대한 배경지식이 있으면 충분하다.

축	본 이니셔티브	ARC-AGI (Chollet, 2019/2025)	Levels of AGI (Morris et al., 2024)	Frontier Math (Hendrycks et al.)
핵심 접근	인지과학 기반 10개 능력 분류 + 크라우드소싱 벤치마크	Core Knowledge 기반 추상 추론	능력 × 일반성 2차원 레벨 체계	최고 난이도 수학 문제
문제 정의	AGI의 인지적 강약을 다차원으로 매핑	유동 지능(fluid intelligence) 측정	AGI 진전의 단계적 정의	수학적 추론의 상한 측정
데이터	커뮤니티 크라우드소싱	수동 설계 퍼즐 과제	프레임워크 논문 (데이터 없음)	전문가 제작 수학 문제
핵심 메트릭	인지 프로파일 (레이더 차트)	정답률 (% correct)	6단계 레벨 분류	정답률
확장성	높음 (플랫폼 기반, 지속적 추가 가능)	낮음 (수동 설계)	N/A (프레임워크)	중간
한계	구성 타당도 문제, 품질 균일성	단일 인지 능력(추상 추론)만 측정	조작적 정의 부재	수학 영역에 한정
코드 공개	✅	✅	❌	❌

원자적 인사이트 (Zettelkasten)

💡 인지 프로파일: AGI를 이분법이 아닌 연속 공간에서 정의하기

출처: Kaggle Measuring Progress Toward AGI - Cognitive Abilities (Burnell et al., 2026)
유형: 이론적

AGI를 “달성했는가/못했는가”의 이분법이 아닌, 10개 인지 차원에서의 위치(레이더 차트)로 표현하면 더 유용한 정보를 얻을 수 있다. 인간 집단 역시 인지 프로파일이 사람마다 다르므로(jagged profile), AI 시스템도 동일한 프레임워크로 비교하는 것이 자연스럽다. 이 관점에서 AGI는 “10개 차원 모두에서 인간 중간값을 초과하는 시스템”으로 조작적 정의가 가능하다.

핵심 조건/맥락: 10개 능력이 AGI의 필요충분조건이라는 가정 하에서만 성립. 인간에겐 없는 AI 고유 능력(예: LiDAR 인식)은 이 프레임워크에 포함되지 않음.
연결: Levels of AGI, ARC-AGI
활용 가능성: AI 시스템 비교 리포트, 정책 문서에서 “AGI 수준”을 다차원적으로 보고하는 표준 형식으로 활용 가능

💡 What vs How: 능력 중심 평가의 아키텍처 불가지론

출처: Kaggle Measuring Progress Toward AGI - Cognitive Abilities (Burnell et al., 2026)
유형: 방법론적

인지 평가에서 시스템이 “무엇을 달성하는가(what)“만 측정하고 “어떻게 달성하는가(how)“는 묻지 않는 설계는 Marr(1982)의 계산 수준(computational level) 분석에 해당한다. 이 원칙 덕분에 트랜스포머, 확산 모델, 신경-기호 하이브리드 등 어떤 아키텍처도 동일 기준으로 비교할 수 있다.

핵심 조건/맥락: 아키텍처 불가지론은 공정성을 제공하지만, 실패 원인 진단에는 한계. 실패 모드를 이해하려면 결국 “how” 수준의 분석이 필요.
연결: Marr’s Levels of Analysis, Levels of AGI
활용 가능성: 벤치마크 설계 시 “아키텍처 특이적 과제”와 “아키텍처 불가지론적 과제”를 명시적으로 구분하는 가이드라인

💡 크라우드소싱 벤치마크의 데이터 오염 저항성