Introduction
- Small Language Model(SLM)이 자기 반성(self-reflection)을 학습하여 meta introspection 능력을 향상할 수 있는지 연구
- 대형 모델의 distillation 없이 self-generated reflection으로 자기 개선하는 파이프라인 제안
- ReflectEvo-460k: 대규모 self-generated reflection 데이터셋 구축
Methods
- ReflectEvo Pipeline: 반복적(iterative) self-reflection 생성 → self-training
- 모델이 태스크 수행 후 자기 응답에 대한 reflection 생성
- Reflection을 활용한 SFT(Supervised Fine-Tuning)
- DPO(Direct Preference Optimization)로 추가 정제
- 다양한 multi-domain task에 걸친 broadened instruction 설계
- 외부 모델 distillation이나 세밀한 human annotation 불필요
Results
- LLaMA-3: BIG-bench 52.4% → 71.2% (+18.8p)
- Mistral: BIG-bench 44.4% → 71.1% (+26.7p)
- 주요 open-source 모델과 동등하거나 상회하는 성능 달성
- Self-generated reflection의 품질이 error localization과 correction에 직접적 영향
Discussion
- 소규모 모델에서도 iterative reflection learning이 효과적임을 실증
- Self-reflection 품질의 자동 평가 및 개선이 핵심 과제
- Continuously enhancing reasoning performance through iterative reflection의 가능성 제시