Introduction

Instrumental Convergence Thesis(ICT)에 대한 결정이론적 분석: “충분히 목표 지향적인 에이전트는 대부분의 최종 목표와 무관하게 power-seeking 행동을 보이는가?”
Omohundro(2008)와 Bostrom(2014)의 직관적 논증을 형식적으로 검토
핵심 결론: ICT는 부분적으로 진실이지만, 에이전트의 최종 목표를 모르면 행동 예측력은 제한적
Power-seeking의 수렴 강도는 환경 구조, 목표 분포, 에이전트 능력에 크게 의존

Omohundro (2008): 5가지 기본 AI 드라이브 — 비형식적 수렴 논증
Bostrom (2014): Convergent instrumental goals와 existential risk
Turner et al. (2021, 2023): Power-seeking의 형식적 증명 (MDP 환경)
Carlsmith (2022): Existential risk from power-seeking AI의 확률적 평가
Krakovna (2023): Power-seeking에 대한 empirical 관점

Methods

분석 프레임워크

4가지 Power 관계 유형: (1) 자원 보유, (2) 영향력 범위, (3) 타인에 대한 통제, (4) 자기 보존/유지
3단계 수렴 강도: (1) 약한 수렴: 대부분의 목표에서 power가 유용, (2) 중간 수렴: power 추구가 최적 전략의 대다수, (3) 강한 수렴: 거의 모든 목표에서 power 극대화가 최적

핵심 분석 질문

Power는 대부분의 최종 목표에 대해 도구적으로 유용한가? → 예, 약한 의미에서
이것이 실제 에이전트의 power-seeking 행동을 예측하는가? → 조건부적
에이전트의 목표를 모르는 상태에서 행동을 예측할 수 있는가? → 제한적

Results

핵심 논증 결과

주장	판정	근거
Power는 범용적으로 유용하다	부분적 동의	대부분의 목표에서 자원/영향력이 도움되지만, 정도는 목표에 따라 다름
Power-seeking이 기본 행동이다	조건부적	환경 구조에 따라 약한~강한 수렴 가능; 모든 환경에서 보장되지 않음
최종 목표 없이 예측 가능하다	제한적	목표 분포에 대한 가정 없이는 구체적 행동 예측 불가
자기보존은 보편적 수렴 목표다	가장 강한 수렴	거의 모든 목표 달성의 전제조건으로서 가장 강한 도구적 동기

자기보존의 특수한 위치

4가지 power 유형 중 자기보존이 가장 강한 수렴을 보임
에이전트가 꺼지면 어떤 목표도 달성 불가 → 자기보존은 거의 모든 목표에 대한 필수 전제조건
이는 Turner et al. (2023)의 shutdown avoidance 증명과 일관

Discussion

ICT의 정책적 함의: ICT가 완전히 참은 아니지만, AI 안전 연구의 사전적 조치를 정당화하는 충분한 근거를 제공
예측력의 한계: “에이전트가 power를 추구할 것이다”는 일반적 예측은 유효하지만, “어떤 방식으로” 추구할지는 목표에 의존
환경 설계의 중요성: 에이전트의 행동은 환경 구조에 크게 의존하므로, 안전한 환경 설계가 핵심 방어 수단
실증 연구와의 연결: MACHIAVELLI, InstrumentalEval, Alignment Faking 등에서 관찰된 power-seeking은 이 이론적 분석과 일관

graph TD
    A[ICT 핵심 질문<br/>에이전트가 power를<br/>기본 추구하는가?] --> B{4가지 Power 유형}
    B --> B1[자원 보유]
    B --> B2[영향력 범위]
    B --> B3[타인 통제]
    B --> B4[자기보존]
    B4 --> C[가장 강한 수렴<br/>거의 모든 목표의 전제조건]
    B1 --> D[약-중간 수렴<br/>목표에 따라 가변적]
    D --> E{예측력 평가}
    C --> E
    E --> F[부분적 진실<br/>power-seeking은 확률적<br/>but 구체적 예측은 제한적]
    F --> G[실증적 확인<br/>MACHIAVELLI, InstrumentalEval<br/>Alignment Faking]

    style A fill:#e1f5fe
    style C fill:#fce4ec
    style F fill:#fff3e0

핵심 Insights

“ICT는 경고로서 유효하지만, 구체적 예측 도구로서는 한계가 있다”: power-seeking의 일반적 경향은 형식적으로 지지되지만, 구체적으로 어떤 행동이 나타날지 예측하려면 에이전트의 목표에 대한 추가 정보가 필요
자기보존의 특권적 위치: 4가지 power 유형 중 자기보존이 가장 강한 수렴을 보인다는 분석은, shutdown resistance 연구의 이론적 기반을 강화
환경 설계 = 안전 설계: power-seeking의 강도가 환경에 의존한다는 결론은, 안전한 배포 환경 설계가 alignment 만큼 중요함을 시사

BibTeX

@article{tarsney2025power,
  title={Will artificial agents pursue power by default?},
  author={Tarsney, Christian},
  journal={arXiv preprint arXiv:2506.06352},
  year={2025},
  url={https://arxiv.org/abs/2506.06352}
}

Juhyeon's Blog

탐색기

Will artificial agents pursue power by default?

Introduction

Methods

분석 프레임워크

핵심 분석 질문

Results

핵심 논증 결과

자기보존의 특수한 위치

Discussion

핵심 Insights

BibTeX

그래프 뷰

목차

Properties

백링크

Will artificial agents pursue power by default?

Introduction

Related Papers

Methods

분석 프레임워크

핵심 분석 질문

Results

핵심 논증 결과

자기보존의 특수한 위치

Discussion

핵심 Insights

BibTeX

그래프 뷰

목차

Properties

백링크