Introduction


  • Small Language Model(SLM)이 자기 반성(self-reflection)을 학습하여 meta introspection 능력을 향상할 수 있는지 연구
  • 대형 모델의 distillation 없이 self-generated reflection으로 자기 개선하는 파이프라인 제안
  • ReflectEvo-460k: 대규모 self-generated reflection 데이터셋 구축

Methods


  • ReflectEvo Pipeline: 반복적(iterative) self-reflection 생성 → self-training
    1. 모델이 태스크 수행 후 자기 응답에 대한 reflection 생성
    2. Reflection을 활용한 SFT(Supervised Fine-Tuning)
    3. DPO(Direct Preference Optimization)로 추가 정제
  • 다양한 multi-domain task에 걸친 broadened instruction 설계
  • 외부 모델 distillation이나 세밀한 human annotation 불필요

Results


  • LLaMA-3: BIG-bench 52.4% → 71.2% (+18.8p)
  • Mistral: BIG-bench 44.4% → 71.1% (+26.7p)
  • 주요 open-source 모델과 동등하거나 상회하는 성능 달성
  • Self-generated reflection의 품질이 error localization과 correction에 직접적 영향

Discussion


  • 소규모 모델에서도 iterative reflection learning이 효과적임을 실증
  • Self-reflection 품질의 자동 평가 및 개선이 핵심 과제
  • Continuously enhancing reasoning performance through iterative reflection의 가능성 제시