Introduction


  • Self-correction은 LLM의 매우 바람직한 능력이나 현재 모델에서 대체로 비효과적
  • 기존 방법들은 multiple model, 더 강한 모델, 또는 추가 supervision에 의존
  • 자체 생성 데이터만으로 self-correction을 향상시키는 multi-turn online RL 접근법 제안

Related Papers


  • LLM self-correction 연구 (대부분 비효과적이라는 결론)
  • SFT 기반 self-correction의 한계
  • RL을 통한 LLM 능력 향상

Methods


  • SCoRe (Self-Correction via Reinforcement Learning):
    • SFT가 distribution mismatch 또는 behavior collapse 문제를 겪음을 먼저 입증
    • 모델 자체의 correction trace 분포에서 학습
    • 초기 단계: base model에서 multi-turn RL로 collapse에 덜 취약한 policy initialization 생성
    • Reward bonus로 self-correction 행동 강화

Results


  • Gemini 1.0 Pro, 1.5 Flash 모델에서 SOTA self-correction 성능 달성
  • MATH: base 대비 15.6% 향상
  • HumanEval: base 대비 9.1% 향상

Discussion


  • 외부 모델 없이 자체 데이터만으로 self-correction 학습 가능함을 입증
  • Distribution mismatch와 behavior collapse가 SFT 기반 접근의 핵심 문제
  • Self-correction이 intrinsic metacognitive ability로 학습될 수 있음을 시사