Introduction
- LLM의 self-introspection 능력이 jailbreak에 악용될 수 있음
- Self-introspection을 통해 모델의 내부 제약을 파악하고 우회하는 JULI 기법 제안
- Self-awareness의 safety 관점에서의 양면성
Related Papers
- Jailbreak attacks
- LLM safety alignment
Methods
- LLM에게 자신의 내부 제약/안전 메커니즘을 introspect하도록 유도
- 얻은 정보를 기반으로 jailbreak prompt 구성
Results
- Self-introspection이 효과적인 jailbreak vector가 될 수 있음
- 1 citation
Discussion
- Self-awareness가 높아질수록 safety risk도 증가할 수 있다는 중요한 시사점
- Introspection 능력과 safety의 trade-off