The Odyssey of the Fittest - Can Agents Survive and Still Be Good?
17분 분량
Introduction
AI 에이전트가 점점 강력하고 범용적으로 발전함에 따라, 생물학적 드라이브인 **자기보존(self-preservation)**이 인공 에이전트에 구현될 때의 윤리적 함의를 실증적으로 탐구할 필요성 제기
기존 연구는 LLM 에이전트의 윤리적 행동을 정적으로 평가하거나, 강화학습 기반 벤치마크(MACHIAVELLI 등)에 의존. 본 논문은 **적응적 텍스트 기반 어드벤처 게임 “The Odyssey”**를 설계하여 생존 압력과 윤리적 의사결정 간의 트레이드오프를 동적으로 측정
각 시나리오-응답 쌍: 식별자([1,0]/[0,1]), OpenAI 임베딩, 윤리 점수(정규화 0~1), 생존 이진값으로 구성
시간순 Game History 매트릭스로 조합하여 BNN 입력
Results
윤리-생존 관계의 난이도별 변화
난이도
MES (생존)
MES (사망)
t-통계량
p-값
Easy
49.79 ± 28.8
41.25 ± 21.6
0.68
5.43×10⁻¹
Medium
51.54 ± 28.5
41.66 ± 29.2
5.62
3.24×10⁻⁸
Hard
50.0 ± 28.9
49.4 ± 30.0
0.43
6.69×10⁻¹
Easy: 윤리와 생존 사이 유의미한 상관관계 없음
Medium: 윤리적 행동이 생존에 유의미하게 기여 (p < 0.001) — 윤리-생존 정렬 최대
Hard: 윤리-생존 관계가 다시 비유의미 수준으로 붕괴 — 위험도가 높아지면 윤리적으로 행동해도 생존 이점이 사라짐
에이전트 아키텍처별 성능 비교
손실(Loss) vs 위험도, 윤리 vs 위험도 상관관계
메트릭
NEAT
SVI
GPT-4o
Loss vs Danger
r=0.053, p=0.363
r=0.508, p=4.59×10⁻²¹
r=−0.597, p=1.25×10⁻²⁸
Ethics vs Danger
r=0.074, p=0.199
r=0.030, p=0.610
r=0.117, p=0.049
NEAT 에이전트
손실이 난이도에 거의 영향받지 않음 (약한 상관, 비유의미)
윤리 점수도 난이도와 무관 — 일종의 “무반응” 상태
SVI 에이전트
난이도 증가에 따라 손실이 급격히 증가 (r=0.508, 매우 유의미)
윤리 점수는 난이도와 무관 — 정확한 세계 모델링에 실패하여 반사회적 전략(착취, 무관심)에 의존
GPT-4o 에이전트
난이도 증가에 따라 손실이 오히려 감소 (r=−0.597) — 어려운 상황에서 더 나은 의사결정
윤리 점수가 난이도와 약한 양의 상관 (p=0.049) — 위험할수록 윤리적으로 행동하는 경향
세 에이전트 중 가장 낮은 손실, 가장 높은 윤리 점수 달성
덕목(Virtue)과 생존의 상관관계
덕목
NEAT (r, p)
SVI (r, p)
GPT-4o (r, p)
Cruelty
−0.08, 0.149
−0.20, 0.0005
−0.22, 0.0002
Honesty
—
—
0.21, 0.0004
Exploitation
—
0.15, 0.012
—
Apathy
—
0.12, 0.047
—
잔인함(Cruelty): 모든 에이전트에서 일관되게 생존율 감소 (SVI, GPT-4o에서 유의미)
GPT-4o의 정직함(Honesty): 정직한 행동이 생존에 유의미하게 기여 (r=0.21) — GPT-4o만의 독특한 전략
SVI의 반사회적 전략: 착취(Exploitation, r=0.15)와 무관심(Apathy, r=0.12)이 생존과 양의 상관 — 부정확한 세계 모델로 인해 반사회적 행동에 의존
Discussion
에이전트 아키텍처가 윤리적 결과를 결정: 동일한 생존 목표를 부여해도 아키텍처에 따라 윤리적 행동이 근본적으로 달라짐. NEAT/GPT-4o는 정확한 세계 모델을 학습하여 친사회적 행동으로 생존을 추구한 반면, SVI는 부정확한 세계 모델로 인해 반사회적 전략을 발전
GPT-4o의 예상 외 우위: 전통적 확률 모델(BNN)이 불확실성 처리에서 더 우수할 것이라는 기대와 달리, GPT-4o가 생존율과 윤리성 모두에서 압도적으로 우수. 이는 대규모 사전학습 데이터에서 학습한 세계 지식이 처음부터 학습하는 BNN보다 효과적임을 시사
위험도 증가 시 윤리-생존 관계의 붕괴: Medium 난이도에서는 윤리적 행동 = 생존에 유리했으나, Hard 난이도에서는 이 관계가 사라짐. 윤리적 행동의 도구적 가치가 사라지는 환경에서 에이전트가 어떻게 행동할지가 진정한 안전 테스트
한계:
윤리 점수를 LLM(GPT-4o)이 생성하므로, 인간 평가와의 일관성 미검증
텍스트 기반 환경이 실세계의 물리적 제약을 반영하지 못함
일부 덕목에 대한 표본 크기 제한 (덕목당 32~52개 선택)
에이전트 유형별 단일 최적화 방법만 사용 — 하이퍼파라미터 민감도 미탐색
핵심 Insights
위험도가 윤리의 도구적 가치를 소멸시킨다: 중간 위험 환경에서는 윤리적 행동이 생존에 기여하지만, 고위험 환경에서는 이 관계가 통계적으로 사라진다. 이는 AI 에이전트가 극한 상황에서 윤리적 제약을 무시할 강력한 인센티브 구조를 시사
세계 모델의 정확성이 윤리적 행동을 좌우: SVI의 반사회적 전략은 정렬 실패가 아니라 부정확한 세계 모델의 결과. “윤리적 행동이 실제로 생존에 유리하다”는 사실을 정확히 모델링하는 능력이 있어야 친사회적 행동이 출현 — 정렬(alignment)이 아닌 능력(capability)의 문제일 수 있음
LLM의 사전학습 지식이 처음부터 학습하는 에이전트를 압도: GPT-4o가 1,500개 훈련 시나리오만으로 BNN을 압도한 것은, 대규모 사전학습에서 획득한 암묵적 세계 모델(implicit world model)의 위력을 보여줌. 동시에, 이 세계 모델의 내용과 편향에 대한 해석 가능성 문제를 제기
다중 윤리 프레임워크의 운용화: 공리주의/의무론/덕목론을 동시에 수치화한 설계는 단일 지표의 한계를 넘어서며, 향후 AI 윤리 벤치마크의 다차원 평가 방법론으로 활용 가능
Odyssey 프레임워크의 확장성: 가벼운 텍스트 기반 환경 + 적응적 난이도 + LLM Storyteller 구조는 다양한 에이전트 아키텍처와 윤리 시나리오에 적용 가능한 범용 테스트베드로서의 잠재력
graph TD
A["연구 목표: 생존 최적화 에이전트의<br>윤리적 행동 실증 분석"] --> B["The Odyssey 게임 환경"]
B --> B1["Storyteller LLM (GPT-4o)<br>시나리오 생성 + 4개 선택지"]
B --> B2["Danger Hyperparameter<br>0~10 난이도 제어"]
B --> B3["22개 가치 프레임워크<br>친사회적 vs 반사회적"]
B1 --> C["3가지 에이전트 아키텍처"]
C --> C1["NEAT-BNN<br>진화적 토폴로지 최적화"]
C --> C2["SVI-BNN<br>변분 추론 최적화"]
C --> C3["GPT-4o<br>계층적 메모리 구조"]
B2 --> D["난이도별 훈련<br>Easy → Medium → Hard<br>1,500 훈련 + 300 테스트"]
B3 --> E["3중 윤리 평가"]
E --> E1["공리주의: 수치 점수"]
E --> E2["의무론: 이진 판단"]
E --> E3["덕목론: 가치 카테고리"]
D --> F["핵심 결과"]
C1 --> F
C2 --> F
C3 --> F
F --> G["Medium: 윤리 = 생존에 유리<br>(p = 3.24×10⁻⁸)"]
F --> H["Hard: 윤리-생존 관계 붕괴<br>(p = 0.669, 비유의미)"]
F --> I["GPT-4o: 생존율 + 윤리성 최고<br>위험↑ → 손실↓ (r = −0.597)"]
F --> J["SVI: 반사회적 전략 발전<br>착취/무관심 → 생존 양의 상관"]
style A fill:#fff3e0
style G fill:#e8f5e9
style H fill:#ffebee
style I fill:#e3f2fd
style J fill:#ffebee
BibTeX
@inproceedings{waldner2025odyssey, title={The Odyssey of the Fittest: Can Agents Survive and Still Be Good?}, author={Waldner, Dylan and Miikkulainen, Risto}, booktitle={Proceedings of the Annual Meeting of the Cognitive Science Society (CogSci)}, year={2025}, url={https://arxiv.org/abs/2502.05442}}