Introduction
- LLM의 false refusal 문제: 안전한 요청도 거부하는 현상
- Single vector ablation으로 false refusal 감소
Related Papers
- Refusal mechanisms
- Activation engineering
Methods
- False refusal vector를 representation space에서 식별
- Vector ablation으로 false refusal 제거
- Safety와 general capability 보존 확인
Results
- False refusal rate 유의미하게 감소
- Safety 및 general performance 유지
- Fine-grained safety calibration 가능
Discussion
- Refusal behavior가 representation space에서 linear하게 표현됨
- Self-knowledge와 refusal의 representation-level 관계