Introduction


  • LLM의 reasoning이 인간과 본질적으로 다른지에 대한 논쟁
  • Representation engineering: residual stream에서 activation을 읽어 control vector 도출
  • Inference-time intervention으로 reasoning 성능 modulate

Related Papers


  • Representation engineering (Zou et al.)
  • Steering vectors

Methods


  • Reasoning task 처리 시 residual stream activation 추출
  • Control vector 도출 및 inference-time 적용
  • Mistral-7B-Instruct, Pythia model range에서 실험
  • Inductive, deductive, mathematical reasoning task

Results


  • Control vector로 reasoning 성능 향상 가능
  • KL divergence, entropy로 control vector의 logit distribution 영향 분석
  • Reasoning performance가 다른 information-processing task와 동일한 방식으로 modulate 가능

Discussion


  • LLM의 internal state에 접근하여 능력을 modulate하는 방법론
  • Self-awareness 연구를 위한 representation engineering 기법의 유용성