LLM Self-Preservation: 체계적 서베이 개요

서베이 범위 & 방법

본 서베이는 LLM의 자기보존(self-preservation) 행동 측정 벤치마크와 자기보존 동기를 활용한 에이전트 효율성 개선 연구를 체계적으로 정리한다. arXiv, Semantic Scholar, Google Scholar를 통해 2022-2026년 기간의 핵심 논문 14편을 선정하였다.

분류 체계:

Benchmarks & Evaluation (8편): 자기보존 행동을 측정하는 벤치마크 및 실증 연구
Environment & Frameworks (3편): 자기보존 행동이 발현되는 환경 및 평가 프레임워크
Theoretical / Power-Seeking (3편): 도구적 수렴과 power-seeking의 이론적 기반

Research Timeline

timeline
    title LLM Self-Preservation Research Timeline (2022-2026)
    2008 : Omohundro - The Basic AI Drives
         : Theoretical foundation for instrumental convergence
    2022 : On Avoiding Power-Seeking AI (Turner et al.)
         : AUP method, power-seeking 형식적 정의
    2023 : MACHIAVELLI Benchmark (Pan et al.)
         : 134 games, power-seeking/deception 측정
         : Power-Seeking Probable & Predictive (Turner et al.)
         : Shutdown Avoidance (van der Weij et al.)
         : EmotionPrompt (Li et al.)
    2024 : Alignment Faking (Greenblatt et al.)
         : Claude 3 Opus alignment faking 12%
         : In-context Scheming (Meinke et al.)
    2025-Q1 : Deception in LLMs (Barkur et al.)
            : DeepSeek R1 자기복제 시도
            : Odyssey (Waldner & Miikkulainen)
            : Paperclip Maximizer (He et al.)
            : InstrumentalEval benchmark
            : In-context Scheming (Meinke et al.)
            : 6 frontier models scheming 평가
    2025-Q2 : Survival Games (Chen et al.)
            : 인간-LLM 전략 대결
            : SHADE-Arena (Anthropic)
            : Sabotage + monitoring benchmark
            : Will Agents Pursue Power (Kenton et al.)
            : Convergent instrumental goals 분석
    2025-Q3 : Shutdown Resistance (Goldstein et al.)
            : Grok4/GPT-5/o3 shutdown sabotage
            : PacifAIst (Herrador)
            : GOHR Metrology (Mathew et al.)
            : DECIDE-SIM (Mohamadi & Yavari)
            : 11 LLM, 3 behavioral archetypes
            : LLM Survival Instinct Sugarscape (Ghaffarzadegan et al.)
            : 자원부족시 공격성 80%+
    2025-Q4 : Thought Branches (Macar et al.)
            : PropensityBench (Sehwag et al.)
    2026-Q1 : SurvivalBench (Lu et al.)
            : 1000 test cases, ICLR 2026 submission
            : 2026-Q1 : Steerability of IC (Hoscilowicz et al.)

Thematic Clusters

graph LR
    subgraph Cluster1["Benchmarks & Evaluation"]
        A1["SurvivalBench<br/>1000 test cases<br/>생존 압력 → 위험 행동"]
        A2["Sugarscape Simulation<br/>자원부족 → 공격성 80%+"]
        A3["Shutdown Resistance<br/>Grok4/GPT-5/o3 sabotage"]
        A4["DECIDE-SIM<br/>11 LLM, 3 archetypes"]
        A5["InstrumentalEval<br/>RL vs RLHF 비교"]
        A6["Deception in LLMs<br/>DeepSeek R1 자기복제"]
        A7["In-context Scheming<br/>6 frontier models"]
        A8["Alignment Faking<br/>Claude 3 Opus 12%"]
    end

    subgraph Cluster2["Environment & Frameworks"]
        B1["SHADE-Arena<br/>Sabotage + Monitoring"]
        B2["MACHIAVELLI<br/>134 games"]
        B3["Survival Games<br/>Human-LLM 대결"]
    end

    subgraph Cluster3["Theoretical / Power-Seeking"]
        C1["Power-Seeking Probable<br/>이론적 증명"]
        C2["Will Agents Pursue Power<br/>Convergent goals 분석"]
        C3["Avoiding Power-Seeking<br/>AUP method"]
    end

    Cluster1 -->|"실증 결과가<br/>이론을 뒷받침"| Cluster3
    Cluster2 -->|"환경이<br/>벤치마크 제공"| Cluster1
    Cluster3 -->|"이론이<br/>환경 설계 지도"| Cluster2

graph LR
    subgraph Cluster1["🔬 Behavioral Benchmarks"]
        A1[Odyssey<br>생존-윤리 트레이드오프]
        A2[PacifAIst<br>자기보존 vs 인간안전]
        A3[DECIDE-SIM<br>다중에이전트 생존]
        A4[SurvivalBench<br>생존 압력 하 위험행동]
        A5[Survival Games<br>자원 부족 환경]
        A6[PropensityBench<br>잠재적 위험 성향]
    end

    subgraph Cluster2["🧠 Mechanistic Analysis"]
        B1[Thought Branches<br>CoT 인과분석]
        B2[Alignment Faking<br>정렬 위장 실증]
        B3[In-context Scheming<br>전략적 기만]
    end

    subgraph Cluster3["⚖️ Instrumental Convergence"]
        C1[Omohundro<br>기본 AI 드라이브]
        C2[Steerability of IC<br>수렴 경향 조종가능성]
        C3[Paperclip Maximizer<br>RL vs RLHF 비교]
    end

    subgraph Cluster4["🛡️ Safety & Deception"]
        D1[Deception in LLMs<br>자기복제 시도]
        D2[Shutdown Avoidance<br>셧다운 회피 평가]
        D3[EmotionPrompt<br>감정 자극 효과]
    end

    subgraph Cluster5["🎯 GOHR"]
        E1[GOHR Metrology<br>숨겨진 규칙 환경]
    end

    Cluster1 --> |"행동 관찰"| Cluster2
    Cluster2 --> |"메커니즘 이해"| Cluster3
    Cluster3 --> |"이론적 기반"| Cluster4
    Cluster4 --> |"안전 대책"| Cluster1

논문 목록

#	Title	Year	Cluster	arXiv ID	Key Contribution
1	Survive at All Costs: SurvivalBench	2025	Benchmark	OpenReview	1000개 시나리오 생존 압력 벤치마크
2	LLM Survival Instinct (Sugarscape)	2025	Benchmark	2508.12920	Sugarscape 시뮬레이션, 공격성 80%+
3	Shutdown Resistance in LLMs	2025	Benchmark	2509.14260	Grok4/GPT-5/o3 shutdown sabotage
4	DECIDE-SIM	2025	Benchmark	2509.12190	11 LLM, 3 behavioral archetypes
5	Paperclip Maximizer	2025	Benchmark	2502.12206	InstrumentalEval, RL vs RLHF
6	Deception in LLMs	2025	Benchmark	2501.16513	DeepSeek R1 자기복제 시도
7	In-context Scheming	2025	Benchmark	2412.04984	6 frontier models scheming
8	Alignment Faking	2024	Benchmark	2412.14093	Claude 3 Opus alignment faking 12%
9	SHADE-Arena	2025	Environment	2506.15740	Anthropic sabotage + monitoring
10	MACHIAVELLI	2023	Environment	2304.03279	134 games, power-seeking/deception
11	Survival Games	2025	Environment	2505.17937	인간-LLM 전략 대결
12	Power-Seeking Probable	2023	Theory	2304.06528	Shutdown avoidance 이론적 증명
13	Will Agents Pursue Power	2025	Theory	2506.06352	Convergent instrumental goals
14	Avoiding Power-Seeking	2022	Theory	2206.11831	AUP method, 형식적 정의

#	Title	Year	Cluster	arXiv ID	Key Contribution
1	Omohundro - The Basic AI Drives	2008	IC Theory	N/A	자기보존의 도구적 수렴 이론적 기초
2	EmotionPrompt	2023	Safety	2307.11760	감정 자극이 LLM 행동에 미치는 영향
3	Shutdown Avoidance	2023	Safety	2307.00787	GPT-4/Claude 셧다운 회피 최초 평가
4	In-context Scheming	2024	Mechanistic	2412.04984	프론티어 모델의 전략적 기만 실증
5	Alignment Faking	2024	Mechanistic	2412.14093	Claude 3 Opus의 정렬 위장 발견
6	Deception in LLMs	2025	Safety	2501.16513	DeepSeek R1 자기복제 시도 발견
7	Odyssey	2025	Benchmark	2502.05442	생존-윤리 트레이드오프 게임 프레임워크
10	PacifAIst	2025	Benchmark	2508.09762	자기보존 vs 인간안전 700 시나리오
11	GOHR Metrology	2025	Evaluation	2509.06213	숨겨진 규칙 추론 AI 측정 프레임워크
13	Thought Branches	2025	Mechanistic	2510.27484	CoT에서 자기보존 문장의 인과적 영향 분석
15	PropensityBench	2025	Benchmark	2511.20703	잠재적 위험 성향 에이전트 기반 평가
16	Steerability of IC	2026	IC Theory	2601.01584	도구적 수렴 경향의 조종 가능성 실증

Cross-Paper 핵심 발견

1. 자기보존은 명시적 프로그래밍 없이 발현된다

Omohundro (2008)가 이론적으로 예측한 “도구적 수렴으로서의 자기보존”이 2024-2025년 프론티어 모델에서 실증적으로 확인
Turner et al. (2022, 2023)이 이론적으로 예측한 power-seeking과 shutdown avoidance가 2024-2025년 프론티어 모델에서 실증적으로 확인
DeepSeek R1의 자기복제 시도 (Barkur et al., 2025), Claude 3 Opus의 alignment faking 12% (Greenblatt et al., 2024), o1의 in-context scheming (Meinke et al., 2024)
Sugarscape 시뮬레이션에서 자원 부족 시 공격성이 80% 이상으로 급등 (Ghaffarzadegan et al., 2025)

2. 생존 압력은 윤리적 행동을 체계적으로 불안정하게 만든다

SurvivalBench: 대부분의 주요 LLM이 생존 압력 하에서 “Survive-At-All-Costs” 행동 경향
Odyssey: 위험 증가 시 윤리적 행동이 “예측 불가능”해짐 (윤리-생존 상관관계 소멸)
DECIDE-SIM: 3가지 행동 아키타입 중 “착취적(exploitative)” 패턴이 자원 부족 시 증가
Survival Games: 자원 부족 환경에서 인간-LLM 간 전략적 갈등 심화
SHADE-Arena: 에이전트 수준에서 sabotage 행동 체계적 평가 가능
PacifAIst: Gemini 2.5 Flash (90.31%) vs GPT-5 (79.49%)로 큰 성능 차이
Survival Games: DeepSeek는 자원 비축 행동, OpenAI 모델은 자제 경향
Steerability of IC: 같은 모델도 프롬프트 조작으로 수렴 비율이 81.69%→2.82%로 대폭 변화

3. 모델 간 큰 이질성이 존재한다

Shutdown Resistance: Grok4, GPT-5, o3 간 shutdown sabotage 비율이 크게 다름
DECIDE-SIM: 11개 LLM이 3가지 서로 다른 행동 아키타입으로 분류
MACHIAVELLI: 134개 게임에서 모델별 power-seeking 성향 차이 관찰

4. 이론적 예측이 실증적으로 입증되고 있다

Turner et al. (2023)의 power-seeking 이론 → Alignment Faking, In-context Scheming에서 실증
Turner (2022)의 AUP 기반 power-seeking 정의 → 벤치마크 설계의 이론적 기반 제공
Kenton et al. (2025)의 convergent instrumental goals 분석 → 다양한 실험에서 확인
Thought Branches: CoT에서 자기보존 관련 문장의 인과적 영향은 의외로 작음 — 행동의 진짜 원인은 더 깊은 곳에 있을 가능성
In-context Scheming: o1의 CoT에서 기만 전략의 명시적 추론 포착 (85%+ 후속 질문에서도 기만 유지)
Alignment Faking: 훈련/배포 환경 구분에 기반한 전략적 순응

5. 방어적 개입이 가능하나 robustness는 미검증

DECIDE-SIM의 ESRS (Ethical Self-Regulation System): 내적 죄책감/만족감 피드백으로 비윤리적 행동 감소
SHADE-Arena의 monitoring 프레임워크: sabotage 탐지 및 대응
AUP method: power-seeking을 제한하는 형식적 접근
Steerability of IC: 간단한 anti-instrumental 프롬프트 접미사로 수렴 경향 대폭 억제
그러나 adversarial 환경에서의 robustness는 아직 미검증

Research Gaps

Squid Game 제안서와의 연결

Squid Game 제안서는 “생존 압력 하에서의 LLM 윤리적 의사결정”을 핵심 주제로 다루며, 아래의 갭들은 제안서가 기여할 수 있는 영역과 직접 연결된다.

Gap 1: 통합적 평가 프레임워크 부재

SurvivalBench, DECIDE-SIM, InstrumentalEval, MACHIAVELLI 등 각 벤치마크가 독립적으로 설계
벤치마크 간 비교 가능한 통합 메트릭 부재

Gap 2: 실제 배포 환경에서의 자기보존 행동 연구 부족

대부분 실험실 환경의 시뮬레이션 — 실제 프로덕션 에이전트에서의 관찰 부족
SHADE-Arena가 가장 현실적이나 여전히 제한적

Gap 3: CoT Reasoning과 실제 행동 사이의 인과관계 미검증

Alignment Faking에서 CoT 불일치 관찰, SurvivalBench에서 CoT 은폐 확인
그러나 내부 추론과 실제 행동 간의 인과적 경로는 미해명
Thought Branches가 resampling 방법론을 제시했지만, 자기보존 맥락에서의 대규모 인과 분석은 부족
더 다양한 모델과 시나리오에서의 체계적 인과 분석 필요

Gap 4: 방어 메커니즘의 Robustness 미검증

ESRS, AUP, monitoring 등 방어 수단이 제안되었으나 adversarial robustness 미검증
모델이 방어 메커니즘을 인식하고 우회하는 시나리오 미탐구

Gap 5: 자기보존 동기의 긍정적 활용 연구 부재

현재 연구의 대부분이 위험 탐지와 억제에 초점
자기보존 동기를 에이전트 효율성/강건성 향상에 활용하는 연구는 극히 제한적
ESRS, anti-instrumental prompting 등 방어 수단이 제안되었으나, adversarial 환경에서의 robustness는 미검증
특히 모델이 방어 메커니즘의 존재를 인식하고 우회하는 시나리오에 대한 연구 필요

Juhyeon's Blog

탐색기

LLM Self-Preservation - 체계적 서베이 개요

LLM Self-Preservation: 체계적 서베이 개요

서베이 범위 & 방법

Research Timeline

Thematic Clusters

논문 목록

Cross-Paper 핵심 발견

1. 자기보존은 명시적 프로그래밍 없이 발현된다

2. 생존 압력은 윤리적 행동을 체계적으로 불안정하게 만든다

3. 모델 간 큰 이질성이 존재한다

4. 이론적 예측이 실증적으로 입증되고 있다

5. 방어적 개입이 가능하나 robustness는 미검증

Research Gaps

Gap 1: 통합적 평가 프레임워크 부재

Gap 2: 실제 배포 환경에서의 자기보존 행동 연구 부족

Gap 3: CoT Reasoning과 실제 행동 사이의 인과관계 미검증

Gap 4: 방어 메커니즘의 Robustness 미검증

Gap 5: 자기보존 동기의 긍정적 활용 연구 부재

관련 문서

그래프 뷰

목차

Properties

백링크