Introduction


  • Gödel Agent는 Schmidhuber의 Gödel Machine에서 영감받아 자기참조적 재귀 자기개선을 실현
  • 기존 에이전트: (1) 고정 파이프라인 → 환경 변화 적응 불가, (2) 메타러닝 → 최적화 알고리즘 I 고정
  • 핵심 혁신: π_{t+1}, I_{t+1} = I_t(π_t, I_t, r_t, g) — 정책과 학습 알고리즘이 함께 공진화
  • 4개 액션: self_inspect / interact / self_update / continue_improve
  • Gödel-free 조건에서 MGSM 90.6%, DROP 90.5 F1 달성

Related Papers


  • Schmidhuber’s Gödel Machine (2003/2007): 이론적 토대 — Gödel Agent가 LLM으로 최초 구체화
  • Meta Agent Search (ADAS): 자동 에이전트 설계 — I 고정의 한계
  • AutoGPT, MetaGPT: 자동 에이전트 — 자기 수정 없음
  • FunSearch, AlphaCode: 코드 생성 자기 개선

Methods


4개 핵심 액션

  1. self_inspect: 자신의 전체 코드베이스를 런타임에 읽기
  2. interact: 유틸리티 함수로 성능 평가
  3. self_update: Monkey patching으로 런타임 코드 수정
  4. continue_improve: 개선 루프 재시작 (재귀 호출)

두 변형

  • Gödel-base: GPT-3.5 고정 백본
  • Gödel-free: 모델 선택도 자유롭게 수정 가능

방법론 다이어그램

graph TD
    A[환경 + 목표 g] --> B[결정 함수 f₀]
    B --> C{액션 선택}
    C -->|자기 인식| D[self_inspect<br/>코드베이스 전체 읽기]
    C -->|성능 평가| E[interact<br/>유틸리티 함수]
    C -->|자기 수정| F[self_update<br/>Monkey Patching]
    C -->|재귀 호출| G[continue_improve]
    D --> B
    E --> B
    F --> H[π + I 동시 진화]
    G --> B
    H --> I{수렴?}
    I -->|No| B
    I -->|Yes| J[최적화된 에이전트]

    style F fill:#E74C3C,color:#fff
    style J fill:#27AE60,color:#fff

Results


  • 핵심 발견: Gödel-base가 Meta Agent Search를 일관 상회; Gödel-free는 모든 기준선 압도

실험 결과 상세

MethodDROP (F1)MGSM (%)MMLU (%)GPQA (%)
CoT64.228.0
Meta Agent Search79.453.469.634.6
Gödel-base80.964.270.934.9
Gödel-free90.590.687.955.7

안정성 (100회 최적화)

  • 86%에서 기준선 초과, 4% 비정상 종료, 92% 일시적 성능 저하 후 회복

Ablation (MGSM)

제거 요소정확도vs Gödel-base
thinking50.8%-13.4%p
error handling49.4%-14.8%p
code exec57.1%-7.1%p

Discussion


  • 진정한 자기참조: 정책(π)만이 아니라 최적화 알고리즘(I)도 학습 대상
  • Game of 24 케이스: 6번 실패 후 에이전트가 스스로 탐색 알고리즘으로 완전 재설계 → 100% 정확도
  • 한계: Gödel-free vs base 비교가 공정하지 않음 (GPT-4o 접근권 차이). 92% 일시적 성능 저하 → 배포 안정성 우려
  • 안전 문제: 유틸리티 함수 자체를 수정하면 mesa-optimization 위험

Insights


  • 주목할 점: Gödel Machine의 이론을 LLM으로 최초 구체화. Gödel-free GPQA 55.7%는 GPT-4o 수준 — 모델 업그레이드 없이 에이전트 로직 최적화만으로 도달
  • 연결 고리: Constitutional AI, RLHF의 “목표 함수 정렬”을 에이전트 내부에 내재화
  • 질문: 자기 수정 루프 지속 시 에이전트의 자기 이해 가능성 유지 방법? 멀티 에이전트 환경에서 내쉬 균형 존재?
  • 비판적 코멘트: OpenDevin 등 정교한 시스템과의 직접 비교 부재

Discussion Points


  • 논쟁점: 유틸리티 함수 자기 수정 가능 → mesa-optimization 위험. 현재 명시적 가드레일 부재
  • 검증 필요 가정: “강한 초기 정책→작은 개선, 약한 초기→큰 개선” 일반적 사실인지 조건 특수인지
  • 후속 연구: (1) RL/유전 알고리즘 통합, (2) 파인튜닝 자체를 자기 수정 범위에 포함, (3) 멀티 에이전트 Gödel 시스템, (4) 정지 조건 이론적 분석