Introduction


  • 기존 RL 접근법이 LLM을 단일 통합 정책으로 취급하여 내부 메커니즘 무시
  • 정책이 계층과 모듈에 걸쳐 어떻게 진화하는지 이해가 중요
  • Transformer의 residual stream과 unembedding matrix 조합의 정책 등가성 활용
  • Internal Layer Policies와 Internal Modular Policies 발견

Related Papers


  • LLM 강화학습 최적화 연구
  • Mechanistic interpretability 연구
  • Residual stream 분석 연구

Methods


  • Transformer residual stream의 고유 분할 활용
  • 히든 스테이트와 unembedding matrix 조합의 샘플링 가능한 정책 등가성 분석
  • Internal Layer Policies: 개별 계층의 기여
  • Internal Modular Policies: self-attention 및 FFN 구성요소 분석
  • Bottom-up Policy Optimization (BuPO): 초기 훈련 중 내부 계층 정책 직접 최적화

Results


  • 조기 계층: 탐색을 위한 높은 엔트로피 유지
  • 상위 계층: 정제를 위해 거의 0 엔트로피로 수렴
  • LLama: 최종 계층에서 예측 공간 급격히 수렴
  • Qwen 시리즈 (특히 Qwen3): 더 인간적이고 점진적으로 구조화된 추론 패턴
  • BuPO가 복잡한 추론 벤치마크에서 우수한 성능

Discussion


  • LLM 내부의 암묵적 정책 구조 발견
  • 모델 시리즈별 다른 추론 패턴 특성
  • 저수준 계층 정렬로 기초 추론 능력 재구성
  • 코드: https://github.com/Trae1ounG/BuPO