Introduction
- 기존 RL 접근법이 LLM을 단일 통합 정책으로 취급하여 내부 메커니즘 무시
- 정책이 계층과 모듈에 걸쳐 어떻게 진화하는지 이해가 중요
- Transformer의 residual stream과 unembedding matrix 조합의 정책 등가성 활용
- Internal Layer Policies와 Internal Modular Policies 발견
- LLM 강화학습 최적화 연구
- Mechanistic interpretability 연구
- Residual stream 분석 연구
Methods
- Transformer residual stream의 고유 분할 활용
- 히든 스테이트와 unembedding matrix 조합의 샘플링 가능한 정책 등가성 분석
- Internal Layer Policies: 개별 계층의 기여
- Internal Modular Policies: self-attention 및 FFN 구성요소 분석
- Bottom-up Policy Optimization (BuPO): 초기 훈련 중 내부 계층 정책 직접 최적화
Results
- 조기 계층: 탐색을 위한 높은 엔트로피 유지
- 상위 계층: 정제를 위해 거의 0 엔트로피로 수렴
- LLama: 최종 계층에서 예측 공간 급격히 수렴
- Qwen 시리즈 (특히 Qwen3): 더 인간적이고 점진적으로 구조화된 추론 패턴
- BuPO가 복잡한 추론 벤치마크에서 우수한 성능
Discussion