Introduction
- LLM이 자신의 이전 응답을 반복적으로 개선(self-improve)할 수 있도록 훈련하는 방법론 RISE 제안
- 기존 single-turn 개선과 달리 multi-turn 반복 개선에 초점
- 더 어려운 프롬프트일수록 여러 턴에 걸쳐 점진적으로 성능 향상
Methods
- RISE (Recursive Introspection): 자기 개선을 위한 반복적 fine-tuning 프레임워크
- 모델이 이전 턴의 출력을 입력으로 받아 개선된 응답을 생성하도록 훈련
- 각 턴에서 self-evaluation과 correction을 수행
- On-policy training data 생성 → fine-tuning 반복
Results
- LLaMA-3-8B: GSM8K에서 8.2% 향상
- Mistral-7B: GSM8K에서 6.6% 향상, 5-turn introspection 시 최대 23.9% 향상
- 턴이 증가할수록 단조 증가(monotonically increasing) 성능
- 더 어려운 프롬프트에서 multi-turn 개선 효과가 두드러짐
Discussion
- Self-improvement를 학습 가능한 능력으로 전환한 점이 핵심 기여
- 소규모 모델에서도 효과적인 introspective self-improvement 가능
- 한계: 개선 폭이 모델 능력 상한에 의해 제약됨