Introduction


  • LLM의 false refusal 문제: 안전한 요청도 거부하는 현상
  • Single vector ablation으로 false refusal 감소

Related Papers


  • Refusal mechanisms
  • Activation engineering

Methods


  • False refusal vector를 representation space에서 식별
  • Vector ablation으로 false refusal 제거
  • Safety와 general capability 보존 확인

Results


  • False refusal rate 유의미하게 감소
  • Safety 및 general performance 유지
  • Fine-grained safety calibration 가능

Discussion


  • Refusal behavior가 representation space에서 linear하게 표현됨
  • Self-knowledge와 refusal의 representation-level 관계