Introduction
- 자기성찰(self-reflection): LLM이 자신의 추론을 재검토, 평가, 수정하는 능력
- RLVR(Reinforcement Learning with Verifiable Rewards)로 미세조정된 모델에서 강화된 행동
- 자기성찰이 RLVR 미세조정 모델에만 있는 것이 아니라, 사전훈련 모델에도 드물게 존재함을 발견
- 자기성찰의 기원과 메커니즘 연구
- Self-correction 및 self-refinement 연구
- RLVR 및 추론 모델 연구
- Representation engineering 연구
Methods
- Reflection-Inducing Probing: 미세조정 모델의 reflection-triggering 추론 트레이스를 사전훈련 모델에 주입
- 내부 표현 분석: 자기성찰적/비성찰적 컨텍스트 구분
- Self-Reflection Vector: 자기성찰적 추론과 연관된 활성화 공간의 방향 구성
- 이 벡터 조작을 통해 양방향 자기성찰 행동 제어
Results
- Qwen2.5의 자기성찰 빈도 0.6%에서 18.6%로 증가
- 추론 벤치마크에서 이 벡터 강화 시 추론 성능 최대 12% 향상
- 벡터 억제 시 계산 비용 감소
- 추가 훈련 없이 추론 품질과 효율성 간 트레이드오프 조절 가능
Discussion
- 자기성찰에 대한 이해 심화
- 모델 내부 이해가 정밀한 행동 제어를 가능하게 함
- 효율성과 정확성 간 유연한 균형 제공
- 향후 연구: 다른 창발적 행동에 대한 유사 분석