Introduction


  • LLM의 자기평가(self-evaluation) gradient를 활용하여 behavior를 control하는 SelfControl 제안
  • Human annotation 없이 자연어 suffix로 desired behavior를 표현
  • Gradient를 latent representation에 직접 적용하여 auto-regressive generation 제어

Related Papers


  • Representation engineering
  • Inference-time intervention

Methods


  • Self-evaluation suffix의 gradient 계산
  • SelfControl: gradient를 직접 generation에 적용
  • SelfControl_Prefix: gradient의 learned representation을 compact module로 압축

Results


  • Detoxification 8.3%, truthfulness 3.1%, emotion control 4-10%, privacy protection 48.2% 개선
  • Data synthesis 및 reasoning ability 향상에도 활용 가능

Discussion


  • LLM의 self-evaluation 능력을 직접적으로 활용하는 방법
  • Self-awareness를 output control로 연결하는 실용적 접근