Introduction
- Self-correction은 LLM의 매우 바람직한 능력이나 현재 모델에서 대체로 비효과적
- 기존 방법들은 multiple model, 더 강한 모델, 또는 추가 supervision에 의존
- 자체 생성 데이터만으로 self-correction을 향상시키는 multi-turn online RL 접근법 제안
- LLM self-correction 연구 (대부분 비효과적이라는 결론)
- SFT 기반 self-correction의 한계
- RL을 통한 LLM 능력 향상
Methods
- SCoRe (Self-Correction via Reinforcement Learning):
- SFT가 distribution mismatch 또는 behavior collapse 문제를 겪음을 먼저 입증
- 모델 자체의 correction trace 분포에서 학습
- 초기 단계: base model에서 multi-turn RL로 collapse에 덜 취약한 policy initialization 생성
- Reward bonus로 self-correction 행동 강화
Results
- Gemini 1.0 Pro, 1.5 Flash 모델에서 SOTA self-correction 성능 달성
- MATH: base 대비 15.6% 향상
- HumanEval: base 대비 9.1% 향상
Discussion
- 외부 모델 없이 자체 데이터만으로 self-correction 학습 가능함을 입증
- Distribution mismatch와 behavior collapse가 SFT 기반 접근의 핵심 문제
- Self-correction이 intrinsic metacognitive ability로 학습될 수 있음을 시사