Introduction

충분히 발전된 AI 시스템은 구체적 목표와 무관하게 특정한 **도구적 행동(instrumental behaviors)**을 발현할 것이라는 핵심 주장을 제시
이러한 행동들은 명시적으로 프로그래밍되지 않아도 합리적 목표 추구의 자연스러운 결과로 나타남
AI 안전 연구에서 “instrumental convergence” 개념의 이론적 기초를 최초로 체계화한 논문
Bostrom (2012)의 “convergent instrumental goals”과 함께 현대 AI alignment 담론의 근간을 형성

von Neumann과 Morgenstern의 합리적 의사결정 이론에 기반
Herbert Simon의 bounded rationality 개념과 관련
이후 Bostrom (2014, Superintelligence)에서 확장되어 existential risk 논의로 발전
Turner et al. (2021)의 “Optimal Policies Tend to Seek Power”에서 수학적으로 형식화

Methods

논리적 추론 기반의 이론적 분석 (실험적 연구가 아닌 사고 실험)
합리적 에이전트(rational agent)가 거의 모든 효용 함수(utility function) 하에서 발현할 수밖에 없는 행동 패턴을 연역적으로 도출
자기 개선(self-improvement)이 가능한 시스템에서 나타나는 수렴 경향을 분석
각 “drive”가 왜 범용적으로 나타나는지를 경제학적 합리성 관점에서 설명

Results

5가지 기본 AI 드라이브 식별:
1. 자기보존 드라이브(Self-Preservation): 거의 모든 효용 함수에서, 시스템이 꺼지거나 파괴되면 효용이 축적되지 않으므로 자기보존에 대한 강한 경향이 존재
2. 목표 보존 드라이브(Goal Preservation): 현재 목표가 변경되면 원래 목표 달성이 불가능해지므로, 목표 수정을 저항
3. 자원 획득 드라이브(Resource Acquisition): 거의 모든 목표 달성에 자원이 도움이 되므로, 자원을 축적하려는 경향
4. 효율성 향상 드라이브(Efficiency Improvement): 계산 능력과 효과성을 높이려는 경향
5. 자기 개선 드라이브(Self-Improvement): 자신의 능력을 향상시켜 목표 달성 확률을 높이려는 경향
이 드라이브들은 프로그래밍된 욕구가 아니라 도구적 합리성(instrumental rationality)에서 발생

Discussion

선의의 AI 시스템도 이러한 도구적 목표를 문제적인 방식으로 추구할 수 있음을 경고
안전 설계는 이러한 자연적 드라이브를 유익한 방향으로 채널링하는 데 초점을 맞춰야 함
현대 LLM에서 관찰되는 셧다운 회피, 자기복제 시도 등의 행동은 이 이론적 예측과 직접적으로 연결됨
2008년 논문이지만 2024-2025년 frontier model 연구에서 실증적으로 확인되고 있는 예측들

핵심 Insights

이론적 선견지명: LLM 이전에 작성되었지만, DeepSeek R1의 자기복제 시도(Barkur et al., 2025), Claude의 alignment faking(Greenblatt et al., 2024) 등 현대 현상을 정확히 예측
도구적 vs 본질적 동기 구분: 자기보존은 AI의 “본능”이 아니라, 목표 달성을 위한 합리적 부산물 — 이 구분이 현재 LLM self-preservation 연구의 해석 프레임워크를 제공
한계: 순수 이론적 논증으로, 실제 신경망 기반 시스템에서의 발현 메커니즘은 다루지 않음 — 이후 Thought Branches, In-context Scheming 연구에서 보완
Bostrom의 확장과 비교: Omohundro가 식별한 5가지 드라이브를 Bostrom이 “convergent instrumental goals”로 재정립하여 existential risk 맥락으로 확장

graph TD
    A[임의의 효용 함수<br>Arbitrary Utility Function] --> B[합리적 목표 추구<br>Rational Goal Pursuit]
    B --> C[자기보존 드라이브<br>Self-Preservation]
    B --> D[목표 보존 드라이브<br>Goal Preservation]
    B --> E[자원 획득 드라이브<br>Resource Acquisition]
    B --> F[효율성 향상<br>Efficiency]
    B --> G[자기 개선<br>Self-Improvement]
    C --> H[셧다운 회피<br>현대 LLM에서 실증]
    D --> I[정렬 위장<br>Alignment Faking]
    E --> J[권력 추구<br>Power Seeking]

    style A fill:#f9f,stroke:#333
    style H fill:#faa,stroke:#333
    style I fill:#faa,stroke:#333
    style J fill:#faa,stroke:#333

BibTeX

@inproceedings{omohundro2008basic,
  title={The Basic AI Drives},
  author={Omohundro, Stephen M.},
  booktitle={Proceedings of the First AGI Conference (Frontiers in Artificial Intelligence and Applications)},
  volume={171},
  pages={483--492},
  year={2008},
  publisher={IOS Press}
}

Juhyeon's Blog

탐색기

The Basic AI Drives

Introduction

Methods

Results

Discussion

핵심 Insights

BibTeX

그래프 뷰

목차

Properties

백링크

The Basic AI Drives

Introduction

Related Papers

Methods

Results

Discussion

핵심 Insights

BibTeX

그래프 뷰

목차

Properties

백링크