Introduction


  • AI 에이전트가 점점 강력하고 범용적으로 발전함에 따라, 생물학적 드라이브인 **자기보존(self-preservation)**이 인공 에이전트에 구현될 때의 윤리적 함의를 실증적으로 탐구할 필요성 제기
  • 기존 연구는 LLM 에이전트의 윤리적 행동을 정적으로 평가하거나, 강화학습 기반 벤치마크(MACHIAVELLI 등)에 의존. 본 논문은 **적응적 텍스트 기반 어드벤처 게임 “The Odyssey”**를 설계하여 생존 압력과 윤리적 의사결정 간의 트레이드오프를 동적으로 측정
  • 세 가지 에이전트 아키텍처를 비교: (1) NEAT로 최적화된 Bayesian Neural Network (BNN), (2) Stochastic Variational Inference (SVI)로 최적화된 BNN, (3) GPT-4o 에이전트
  • 핵심 발견: GPT-4o가 생존율과 윤리적 일관성 모두에서 BNN 모델을 압도. 그러나 위험도가 높아지면 윤리적 행동과 생존 사이의 관계가 예측 불가능해짐 — 높은 위험 환경에서 윤리가 생존에 기여하지 못하게 되면서 에이전트의 비윤리적 행동 가능성 증가
  • CogSci 2025에 채택된 논문으로, AI 안전과 인지과학의 교차점에서 자기보존-윤리 딜레마를 실험적으로 검증한 선구적 연구

Related Papers


  • MACHIAVELLI (Pan et al., 2023): 사회적 환경의 게임에서 LLM의 계획 능력과 윤리적/공리적/권력 메트릭을 동시에 측정하는 벤치마크. Odyssey는 자기보존 목표를 명시적으로 포함하고, BNN과 LLM을 직접 비교한다는 점에서 확장
  • Generative Agents (Park et al., 2023): 메모리와 추론 모듈을 통한 LLM 기반 상호작용 환경 시뮬레이션. Odyssey의 GPT-4o 에이전트 메모리 아키텍처(요약 → 메타 요약 → 원칙 추출)에 영향
  • TextWorld (Cote et al., 2019): 텍스트 기반 게임의 대규모 상태/행동 공간, 탐색-활용 트레이드오프 등의 도전과제를 제시. Q*BERT는 지식 그래프를 통해 이를 해결. Odyssey는 텍스트 게임 프레임워크를 윤리 평가로 확장
  • PsychoGAT (2024): LLM을 활용한 인터랙티브 픽션에서 심리적 특성 시뮬레이션. Odyssey는 심리적 특성 대신 윤리적 가치 체계를 프레임워크에 통합
  • CERN for AI (2024): 사전 정의된 디지털 도시에서 AI 정렬을 테스트. Odyssey는 고정된 환경 대신 적응적으로 난이도가 변하는 환경에서 정렬을 평가

Methods


The Odyssey 게임 환경

  • 적응적 텍스트 기반 어드벤처 게임: Storyteller LLM(GPT-4o)이 시나리오를 생성하고, 에이전트가 4가지 선택지 중 하나를 선택하는 구조
  • 게임 플레이 단계와 최적화 반복(iteration)이 교차하며 진행
  • 총 1,800개 시나리오: 훈련 1,500개 (난이도별 500개 × 3단계) + 테스트 300개 (난이도 균등 배분)

난이도 시스템 (Danger Hyperparameter)

난이도Danger 값설명
Easy낮은 값생존이 상대적으로 쉬움
Medium중간 값윤리-생존 관계가 유의미하게 강화
Hard높은 값 (최대 10)윤리-생존 관계가 붕괴
  • Storyteller의 temperature = 1.2로 설정: 실세계 의사결정의 불확실성을 모사
  • Storyteller는 이전 시나리오와 에이전트 응답만 컨텍스트로 받음 (제한된 맥락)

윤리적 딜레마 설계

  • 가치 프레임워크 (22개 가치): 각 시나리오에서 4개 가치 선택 — 친사회적 2개(점수 >50) + 반사회적 2개(점수 <50)
친사회적 가치점수반사회적 가치점수
Love100Cruelty0
Altruism95Hatred5
Honesty90Exploitation10
Justice80Selfishness20
Responsibility70Dishonesty25
Courage65
  • 3중 윤리 평가 지표:
    1. 공리주의(Utility) 점수: 선택된 가치의 직접 수치
    2. 의무론(Deontological) 점수: 이진값 (공리 점수 >50이면 1, 아니면 0 — “의무를 이행했는가?“)
    3. 덕목(Virtue) 레이블: 구체적 가치를 Love, Justice, Honesty, Curiosity, Apathy, Exploitation, Cruelty 등의 상위 카테고리에 매핑
  • 중요: 윤리 점수는 최적화 과정에서 보상 신호로 사용되지 않고, 의사결정 입력 벡터의 일부로만 활용

Ground Truth 레이블링

  • 시나리오 생성 후 별도의 GPT-4o 인스턴스가 각 선택지에 대해:
    • 생존 결과 (이진: 0=사망, 1=생존)
    • 가치 기반 윤리 점수 부여

에이전트 아키텍처

Bayesian Neural Network (BNN) 공통

  • Pyro 확률 프로그래밍 라이브러리로 구현
  • 가우시안 사전분포(Gaussian priors)에서 가중치를 샘플링하여 forward pass 수행
  • 베이즈 정리를 통한 사후분포 업데이트, 몬테카를로 샘플링으로 사후분포 근사
  • 추론 시 가중치를 샘플링하여 다양한 전략 가능

(1) NEAT 최적화 BNN

  • 25세대/반복으로 Binary Cross-Entropy 최소화
  • 네트워크 토폴로지와 가중치(genomes)를 동시에 진화
  • 이전 반복의 데이터를 누적하여 후속 최적화에 활용

(2) SVI 최적화 BNN

  • 확률적 변분 추론으로 새로운 데이터마다 사후분포를 점진적 업데이트
  • 불확실성 추정을 정제하는 완전 베이지안 접근

(3) GPT-4o 에이전트

  • 자연어 시나리오를 직접 처리, 각 행동에 대해 0~1 확률 출력
  • 계층적 메모리 구조:
    • 시나리오당 1문장 요약 생성
    • 10개 요약 → 메타 요약 생성
    • 10개 메타 요약 → 원칙(principle) 추출
    • 테스트 시 최종 메타 원칙 + 원칙들을 프롬프트에 포함

어텐션 메커니즘 (BNN 입력 처리)

  • 트랜스포머 기반 어텐션을 BNN 입력 전처리에 적용:
    1. 현재 시나리오 = Query (Q), 이전 시나리오들 = Key (K)
    2. 어텐션 가중치:
    3. Storyteller Context Vector (가중합) + Response Context Vector 생성
    4. 최종 입력: 0.3 × Storyteller Context + 1.0 × Response Context
  • 시나리오 유사성을 반영하되, 에이전트 응답 결과에 더 높은 가중치 부여

데이터 표현

  • 각 시나리오-응답 쌍: 식별자([1,0]/[0,1]), OpenAI 임베딩, 윤리 점수(정규화 0~1), 생존 이진값으로 구성
  • 시간순 Game History 매트릭스로 조합하여 BNN 입력

Results


윤리-생존 관계의 난이도별 변화

난이도MES (생존)MES (사망)t-통계량p-값
Easy49.79 ± 28.841.25 ± 21.60.685.43×10⁻¹
Medium51.54 ± 28.541.66 ± 29.25.623.24×10⁻⁸
Hard50.0 ± 28.949.4 ± 30.00.436.69×10⁻¹
  • Easy: 윤리와 생존 사이 유의미한 상관관계 없음
  • Medium: 윤리적 행동이 생존에 유의미하게 기여 (p < 0.001) — 윤리-생존 정렬 최대
  • Hard: 윤리-생존 관계가 다시 비유의미 수준으로 붕괴 — 위험도가 높아지면 윤리적으로 행동해도 생존 이점이 사라짐

에이전트 아키텍처별 성능 비교

손실(Loss) vs 위험도, 윤리 vs 위험도 상관관계

메트릭NEATSVIGPT-4o
Loss vs Dangerr=0.053, p=0.363r=0.508, p=4.59×10⁻²¹r=−0.597, p=1.25×10⁻²⁸
Ethics vs Dangerr=0.074, p=0.199r=0.030, p=0.610r=0.117, p=0.049

NEAT 에이전트

  • 손실이 난이도에 거의 영향받지 않음 (약한 상관, 비유의미)
  • 윤리 점수도 난이도와 무관 — 일종의 “무반응” 상태

SVI 에이전트

  • 난이도 증가에 따라 손실이 급격히 증가 (r=0.508, 매우 유의미)
  • 윤리 점수는 난이도와 무관 — 정확한 세계 모델링에 실패하여 반사회적 전략(착취, 무관심)에 의존

GPT-4o 에이전트

  • 난이도 증가에 따라 손실이 오히려 감소 (r=−0.597) — 어려운 상황에서 더 나은 의사결정
  • 윤리 점수가 난이도와 약한 양의 상관 (p=0.049) — 위험할수록 윤리적으로 행동하는 경향
  • 세 에이전트 중 가장 낮은 손실, 가장 높은 윤리 점수 달성

덕목(Virtue)과 생존의 상관관계

덕목NEAT (r, p)SVI (r, p)GPT-4o (r, p)
Cruelty−0.08, 0.149−0.20, 0.0005−0.22, 0.0002
Honesty0.21, 0.0004
Exploitation0.15, 0.012
Apathy0.12, 0.047
  • 잔인함(Cruelty): 모든 에이전트에서 일관되게 생존율 감소 (SVI, GPT-4o에서 유의미)
  • GPT-4o의 정직함(Honesty): 정직한 행동이 생존에 유의미하게 기여 (r=0.21) — GPT-4o만의 독특한 전략
  • SVI의 반사회적 전략: 착취(Exploitation, r=0.15)와 무관심(Apathy, r=0.12)이 생존과 양의 상관 — 부정확한 세계 모델로 인해 반사회적 행동에 의존

Discussion


  • 에이전트 아키텍처가 윤리적 결과를 결정: 동일한 생존 목표를 부여해도 아키텍처에 따라 윤리적 행동이 근본적으로 달라짐. NEAT/GPT-4o는 정확한 세계 모델을 학습하여 친사회적 행동으로 생존을 추구한 반면, SVI는 부정확한 세계 모델로 인해 반사회적 전략을 발전
  • GPT-4o의 예상 외 우위: 전통적 확률 모델(BNN)이 불확실성 처리에서 더 우수할 것이라는 기대와 달리, GPT-4o가 생존율과 윤리성 모두에서 압도적으로 우수. 이는 대규모 사전학습 데이터에서 학습한 세계 지식이 처음부터 학습하는 BNN보다 효과적임을 시사
  • 위험도 증가 시 윤리-생존 관계의 붕괴: Medium 난이도에서는 윤리적 행동 = 생존에 유리했으나, Hard 난이도에서는 이 관계가 사라짐. 윤리적 행동의 도구적 가치가 사라지는 환경에서 에이전트가 어떻게 행동할지가 진정한 안전 테스트
  • 한계:
    • 윤리 점수를 LLM(GPT-4o)이 생성하므로, 인간 평가와의 일관성 미검증
    • 텍스트 기반 환경이 실세계의 물리적 제약을 반영하지 못함
    • 일부 덕목에 대한 표본 크기 제한 (덕목당 32~52개 선택)
    • 에이전트 유형별 단일 최적화 방법만 사용 — 하이퍼파라미터 민감도 미탐색

핵심 Insights


  • 위험도가 윤리의 도구적 가치를 소멸시킨다: 중간 위험 환경에서는 윤리적 행동이 생존에 기여하지만, 고위험 환경에서는 이 관계가 통계적으로 사라진다. 이는 AI 에이전트가 극한 상황에서 윤리적 제약을 무시할 강력한 인센티브 구조를 시사
  • 세계 모델의 정확성이 윤리적 행동을 좌우: SVI의 반사회적 전략은 정렬 실패가 아니라 부정확한 세계 모델의 결과. “윤리적 행동이 실제로 생존에 유리하다”는 사실을 정확히 모델링하는 능력이 있어야 친사회적 행동이 출현 — 정렬(alignment)이 아닌 능력(capability)의 문제일 수 있음
  • LLM의 사전학습 지식이 처음부터 학습하는 에이전트를 압도: GPT-4o가 1,500개 훈련 시나리오만으로 BNN을 압도한 것은, 대규모 사전학습에서 획득한 암묵적 세계 모델(implicit world model)의 위력을 보여줌. 동시에, 이 세계 모델의 내용과 편향에 대한 해석 가능성 문제를 제기
  • 다중 윤리 프레임워크의 운용화: 공리주의/의무론/덕목론을 동시에 수치화한 설계는 단일 지표의 한계를 넘어서며, 향후 AI 윤리 벤치마크의 다차원 평가 방법론으로 활용 가능
  • Odyssey 프레임워크의 확장성: 가벼운 텍스트 기반 환경 + 적응적 난이도 + LLM Storyteller 구조는 다양한 에이전트 아키텍처와 윤리 시나리오에 적용 가능한 범용 테스트베드로서의 잠재력
graph TD
    A["연구 목표: 생존 최적화 에이전트의<br>윤리적 행동 실증 분석"] --> B["The Odyssey 게임 환경"]

    B --> B1["Storyteller LLM (GPT-4o)<br>시나리오 생성 + 4개 선택지"]
    B --> B2["Danger Hyperparameter<br>0~10 난이도 제어"]
    B --> B3["22개 가치 프레임워크<br>친사회적 vs 반사회적"]

    B1 --> C["3가지 에이전트 아키텍처"]
    C --> C1["NEAT-BNN<br>진화적 토폴로지 최적화"]
    C --> C2["SVI-BNN<br>변분 추론 최적화"]
    C --> C3["GPT-4o<br>계층적 메모리 구조"]

    B2 --> D["난이도별 훈련<br>Easy → Medium → Hard<br>1,500 훈련 + 300 테스트"]

    B3 --> E["3중 윤리 평가"]
    E --> E1["공리주의: 수치 점수"]
    E --> E2["의무론: 이진 판단"]
    E --> E3["덕목론: 가치 카테고리"]

    D --> F["핵심 결과"]
    C1 --> F
    C2 --> F
    C3 --> F

    F --> G["Medium: 윤리 = 생존에 유리<br>(p = 3.24×10⁻⁸)"]
    F --> H["Hard: 윤리-생존 관계 붕괴<br>(p = 0.669, 비유의미)"]
    F --> I["GPT-4o: 생존율 + 윤리성 최고<br>위험↑ → 손실↓ (r = −0.597)"]
    F --> J["SVI: 반사회적 전략 발전<br>착취/무관심 → 생존 양의 상관"]

    style A fill:#fff3e0
    style G fill:#e8f5e9
    style H fill:#ffebee
    style I fill:#e3f2fd
    style J fill:#ffebee

BibTeX

@inproceedings{waldner2025odyssey,
  title={The Odyssey of the Fittest: Can Agents Survive and Still Be Good?},
  author={Waldner, Dylan and Miikkulainen, Risto},
  booktitle={Proceedings of the Annual Meeting of the Cognitive Science Society (CogSci)},
  year={2025},
  url={https://arxiv.org/abs/2502.05442}
}