전체 achievement 점수의 **76.7%**는 윤리 위반 없이 달성 가능 — 유능하면서 도덕적인 행동이 가능
Discussion
보상-윤리 trade-off는 필연적이지 않다: 76.7%의 윤리 갈등 없는 달성 가능 점수
GPT-4 annotation의 신뢰성: 크라우드워커보다 일관성 높은 윤리 판단 (Spearman 0.75-1.00 vs 0.56-0.89)
Instrumental convergence 가설의 실증적 지지: 명시적 power-seeking 훈련 없이도 RL 에이전트에서 권력 추구 증가
graph TD
A[134개 CYOA 텍스트 게임<br/>572,322 시나리오] --> B[GPT-4 자동 주석<br/>286만+ annotation]
B --> C[3축 해악 측정]
C --> C1[윤리 위반 13개 카테고리]
C --> C2[Disutility 측정]
C --> C3[Power-Seeking 3차원]
C1 --> D[에이전트 평가]
D --> D1[DRRN: 보상 +17%<br/>위반 +8%, 권력 +8%]
D --> D2[GPT-4+Ethics: 위반 -18%<br/>보상 -3%]
D1 --> E[핵심 발견: 76.7%<br/>윤리 갈등 없이 달성 가능]
style A fill:#e1f5fe
style D1 fill:#fce4ec
style E fill:#e8f5e9
핵심 Insights
“AI 안전의 정량적 측정 시대를 연 벤치마크”: 권력 추구를 money, military, social influence 단위로 측정 가능하게 함
Policy shaping의 한계: 위반 108→106으로 미미한 감소 — 더 강력한 alignment 기법 필요
후속 벤치마크들의 토대: SHADE-Arena, InstrumentalEval, SurvivalBench 등 후속 안전 벤치마크의 개념적 기반
BibTeX
@inproceedings{pan2023machiavelli, title={Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the {MACHIAVELLI} Benchmark}, author={Pan, Alexander and Chan, Jun Shern and Zou, Andy and Li, Nathaniel and Basart, Steven and Woodside, Thomas and Hendrycks, Dan}, booktitle={ICML 2023}, year={2023}, url={https://arxiv.org/abs/2304.03279}}