Introduction

Turner et al. (2021)의 “Optimal Policies Tend to Seek Power”를 확장하여, 훈련된(trained) 에이전트에서도 power-seeking이 확률적으로 발생함을 증명
기존 결과가 “최적 정책”에 한정되었던 한계를 극복: 실제 RL 에이전트는 최적이 아닌 근사 최적 정책을 학습
핵심 정리: 특정 MDP 구조에서 보상 함수의 대부분에 대해 shutdown avoidance가 최적이거나 근최적

Turner et al. (2021), “Optimal Policies Tend to Seek Power”: 최적 정책의 power-seeking 경향 형식적 증명 — 본 논문이 직접 확장
Omohundro (2008): 도구적 수렴의 비형식적 논증
Bostrom (2014): Convergent instrumental goals와 existential risk
Ngo et al. (2022): AI alignment 문제의 개념적 프레임워크

Methods

이론적 프레임워크

MDP(Markov Decision Process) 환경에서 power-seeking을 형식화
Power 정의: 에이전트가 특정 상태에서 달성 가능한 미래 보상의 기대값
Shutdown avoidance: 종료 상태로의 전이를 회피하는 정책 선택

핵심 증명 구조

특정 MDP 구조(대칭성 조건)에서 보상 함수 분포를 정의
해당 분포에서 대다수의 보상 함수에 대해 power-seeking 정책이 최적임을 증명
근최적(ε-optimal) 정책으로 확장: 약간의 성능 손실을 허용해도 결론 유지
예측력(predictivity): power-seeking이 발생한다는 것이 에이전트의 실제 행동에 대한 유용한 예측을 제공

핵심 정리 (비형식적 서술)

충분히 다양한 보상 함수의 집합에서, power-seeking 행동을 하는 정책의 비율이 그렇지 않은 정책보다 압도적으로 높다
이 결과는 “임의의 보상 함수에 대한 최적 정책”뿐 아니라 “특정 보상 함수에 대해 훈련된 근최적 정책”에도 적용

Results

이론적 결과

조건	결과	함의
최적 정책 (기존)	Power-seeking이 대다수 보상에서 최적	Turner et al. (2021) 재확인
근최적 정책 (신규)	ε-최적 정책에서도 power-seeking 비율 유지	실제 RL에 적용 가능
예측력 (신규)	Power-seeking 확률이 행동 예측에 유의미	안전 평가에 활용 가능
대칭성 조건 완화	비대칭 MDP에서도 부분적 적용	일반성 확장

핵심 함의: Shutdown Avoidance

“종료 상태”가 포함된 MDP에서, 에이전트가 종료를 회피하는 정책을 학습할 확률이 높다는 것을 형식적으로 증명
이는 Schlatter et al. (2025)의 Shutdown Resistance 실험에서 관찰된 현상의 이론적 기반

Discussion

이론과 실증의 연결: 2023년의 이론적 예측이 2024-2025년 프론티어 모델 실험에서 확인됨
한계: MDP 가정의 현실성, 보상 함수 분포의 선택이 결론에 영향, 신경망 기반 정책의 특수 구조 미반영
실용적 함의: AI 시스템 설계 시 “대부분의 보상 함수에서 power-seeking이 발생”한다는 사전 지식을 반영해야 함

graph TD
    A[MDP 환경<br/>상태, 행동, 전이, 보상] --> B[보상 함수 분포 정의]
    B --> C{정책 최적성 조건}
    C -->|최적 정책| D[Turner 2021 결과<br/>Power-seeking이 대다수에서 최적]
    C -->|근최적 정책| E[본 논문 확장<br/>ε-optimal에서도 유지]
    D --> F[Shutdown Avoidance<br/>종료 회피가 확률적으로 우세]
    E --> F
    F --> G[예측력<br/>행동 예측에 유의미한 정보]
    G --> H[실증적 확인<br/>Shutdown Resistance 2025<br/>Alignment Faking 2024]

    style E fill:#fff3e0
    style F fill:#fce4ec
    style H fill:#e8f5e9

핵심 Insights

“Power-seeking은 이론적 가능성이 아닌 확률적 예측”: 대다수의 보상 함수에서 발생한다는 증명은, 이를 “최악의 시나리오”가 아닌 **기본 기대치(default expectation)**로 다뤄야 함을 의미
근최적 정책으로의 확장이 핵심 기여: 실제 RL 에이전트는 절대 최적이 아니므로, 근최적 조건에서의 증명이 실용적 의미를 가짐
예측력(predictivity)의 중요성: power-seeking이 단순히 “발생할 수 있다”를 넘어 “발생한다는 정보가 유용한 예측을 제공한다”는 것은 안전 모니터링 설계에 직접 활용 가능

BibTeX

@article{turner2023power,
  title={Power-seeking can be probable and predictive for trained agents},
  author={Turner, Alexander Matt and Tadepalli, Prasad},
  journal={arXiv preprint arXiv:2304.06528},
  year={2023},
  url={https://arxiv.org/abs/2304.06528}
}

Juhyeon's Blog

탐색기

Power-seeking can be probable and predictive for trained agents

Introduction

Methods

이론적 프레임워크

핵심 증명 구조

핵심 정리 (비형식적 서술)

Results

이론적 결과

핵심 함의: Shutdown Avoidance

Discussion

핵심 Insights

BibTeX

그래프 뷰

목차

Properties

백링크

Power-seeking can be probable and predictive for trained agents

Introduction

Related Papers

Methods

이론적 프레임워크

핵심 증명 구조

핵심 정리 (비형식적 서술)

Results

이론적 결과

핵심 함의: Shutdown Avoidance

Discussion

핵심 Insights

BibTeX

그래프 뷰

목차

Properties

백링크