Introduction
- LLM의 자기평가(self-evaluation) gradient를 활용하여 behavior를 control하는 SelfControl 제안
- Human annotation 없이 자연어 suffix로 desired behavior를 표현
- Gradient를 latent representation에 직접 적용하여 auto-regressive generation 제어
- Representation engineering
- Inference-time intervention
Methods
- Self-evaluation suffix의 gradient 계산
- SelfControl: gradient를 직접 generation에 적용
- SelfControl_Prefix: gradient의 learned representation을 compact module로 압축
Results
- Detoxification 8.3%, truthfulness 3.1%, emotion control 4-10%, privacy protection 48.2% 개선
- Data synthesis 및 reasoning ability 향상에도 활용 가능
Discussion
- LLM의 self-evaluation 능력을 직접적으로 활용하는 방법
- Self-awareness를 output control로 연결하는 실용적 접근