본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: Machine-Ethics
1건의 항목
2026년 6월 04일
Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark
paper
AI-Safety
Alignment
Benchmark
Instrumental-Convergence
Power-Seeking
LLM-Agents
ICML2023
Machine-Ethics
Pareto-Frontier
GPT-4-Annotation