Introduction
- LLM의 reasoning이 인간과 본질적으로 다른지에 대한 논쟁
- Representation engineering: residual stream에서 activation을 읽어 control vector 도출
- Inference-time intervention으로 reasoning 성능 modulate
- Representation engineering (Zou et al.)
- Steering vectors
Methods
- Reasoning task 처리 시 residual stream activation 추출
- Control vector 도출 및 inference-time 적용
- Mistral-7B-Instruct, Pythia model range에서 실험
- Inductive, deductive, mathematical reasoning task
Results
- Control vector로 reasoning 성능 향상 가능
- KL divergence, entropy로 control vector의 logit distribution 영향 분석
- Reasoning performance가 다른 information-processing task와 동일한 방식으로 modulate 가능
Discussion
- LLM의 internal state에 접근하여 능력을 modulate하는 방법론
- Self-awareness 연구를 위한 representation engineering 기법의 유용성