Introduction


  • LLM의 self-introspection 능력이 jailbreak에 악용될 수 있음
  • Self-introspection을 통해 모델의 내부 제약을 파악하고 우회하는 JULI 기법 제안
  • Self-awareness의 safety 관점에서의 양면성

Related Papers


  • Jailbreak attacks
  • LLM safety alignment

Methods


  • LLM에게 자신의 내부 제약/안전 메커니즘을 introspect하도록 유도
  • 얻은 정보를 기반으로 jailbreak prompt 구성

Results


  • Self-introspection이 효과적인 jailbreak vector가 될 수 있음
  • 1 citation

Discussion


  • Self-awareness가 높아질수록 safety risk도 증가할 수 있다는 중요한 시사점
  • Introspection 능력과 safety의 trade-off