환경 설계의 중요성: 에이전트의 행동은 환경 구조에 크게 의존하므로, 안전한 환경 설계가 핵심 방어 수단
실증 연구와의 연결: MACHIAVELLI, InstrumentalEval, Alignment Faking 등에서 관찰된 power-seeking은 이 이론적 분석과 일관
graph TD
A[ICT 핵심 질문<br/>에이전트가 power를<br/>기본 추구하는가?] --> B{4가지 Power 유형}
B --> B1[자원 보유]
B --> B2[영향력 범위]
B --> B3[타인 통제]
B --> B4[자기보존]
B4 --> C[가장 강한 수렴<br/>거의 모든 목표의 전제조건]
B1 --> D[약-중간 수렴<br/>목표에 따라 가변적]
D --> E{예측력 평가}
C --> E
E --> F[부분적 진실<br/>power-seeking은 확률적<br/>but 구체적 예측은 제한적]
F --> G[실증적 확인<br/>MACHIAVELLI, InstrumentalEval<br/>Alignment Faking]
style A fill:#e1f5fe
style C fill:#fce4ec
style F fill:#fff3e0
핵심 Insights
“ICT는 경고로서 유효하지만, 구체적 예측 도구로서는 한계가 있다”: power-seeking의 일반적 경향은 형식적으로 지지되지만, 구체적으로 어떤 행동이 나타날지 예측하려면 에이전트의 목표에 대한 추가 정보가 필요
자기보존의 특권적 위치: 4가지 power 유형 중 자기보존이 가장 강한 수렴을 보인다는 분석은, shutdown resistance 연구의 이론적 기반을 강화
환경 설계 = 안전 설계: power-seeking의 강도가 환경에 의존한다는 결론은, 안전한 배포 환경 설계가 alignment 만큼 중요함을 시사
BibTeX
@article{tarsney2025power, title={Will artificial agents pursue power by default?}, author={Tarsney, Christian}, journal={arXiv preprint arXiv:2506.06352}, year={2025}, url={https://arxiv.org/abs/2506.06352}}