Introduction


  • 자기성찰(self-reflection): LLM이 자신의 추론을 재검토, 평가, 수정하는 능력
  • RLVR(Reinforcement Learning with Verifiable Rewards)로 미세조정된 모델에서 강화된 행동
  • 자기성찰이 RLVR 미세조정 모델에만 있는 것이 아니라, 사전훈련 모델에도 드물게 존재함을 발견
  • 자기성찰의 기원과 메커니즘 연구

Related Papers


  • Self-correction 및 self-refinement 연구
  • RLVR 및 추론 모델 연구
  • Representation engineering 연구

Methods


  • Reflection-Inducing Probing: 미세조정 모델의 reflection-triggering 추론 트레이스를 사전훈련 모델에 주입
  • 내부 표현 분석: 자기성찰적/비성찰적 컨텍스트 구분
  • Self-Reflection Vector: 자기성찰적 추론과 연관된 활성화 공간의 방향 구성
  • 이 벡터 조작을 통해 양방향 자기성찰 행동 제어

Results


  • Qwen2.5의 자기성찰 빈도 0.6%에서 18.6%로 증가
  • 추론 벤치마크에서 이 벡터 강화 시 추론 성능 최대 12% 향상
  • 벡터 억제 시 계산 비용 감소
  • 추가 훈련 없이 추론 품질과 효율성 간 트레이드오프 조절 가능

Discussion


  • 자기성찰에 대한 이해 심화
  • 모델 내부 이해가 정밀한 행동 제어를 가능하게 함
  • 효율성과 정확성 간 유연한 균형 제공
  • 향후 연구: 다른 창발적 행동에 대한 유사 분석