Juhyeon's Blog

태그: self_preservation

2건의 항목

2026년 6월 04일
Alignment Faking in Large Language Models
2026년 6월 04일
Discovering Language Model Behaviors with Model-Written Evaluations