Introduction


  • Long Chain-of-Thought (CoT)가 복잡한 추론 성능을 향상시키지만 상당한 중복성 초래
  • 기존 방법들이 인간 정의 난이도 기준에 의존하여 LLM의 자기인식 난이도와 불일치
  • Dynamic Reasoning-Boundary Self-Awareness Framework (DR.SAF) 제안
  • 모델이 문제 복잡성에 따라 추론 깊이를 동적으로 평가/조절

Related Papers


  • Chain-of-Thought 추론 연구
  • Test-time compute scaling 연구
  • Self-consistency 및 adaptive computation 연구

Methods


  • Boundary Self-Awareness Alignment: 모델이 자신의 추론 경계를 인식하도록 정렬
  • Adaptive Reward Management: 효율성과 정확성 균형을 위한 적응적 보상 관리
  • Boundary Preservation Mechanism: 추론 경계 보존 메커니즘
  • 세 가지 구성요소가 상호작용하여 효율적인 추론 프로세스 최적화

Results


  • 총 응답 토큰 49.27% 감소 (정확도 손실 최소화)
  • 토큰 효율성 6.59배 향상
  • 훈련 시간 5배 단축
  • Extreme training에서 기존 instruction 기반 모델 대비 16% 이상 정확도 향상

Discussion


  • 자원 제한 환경에 적합한 프레임워크
  • 효율성과 정확성 간의 트레이드오프 최적화
  • LLM의 자기인식 능력 활용의 중요성 강조
  • 향후 연구: 다양한 도메인 및 모델에 적용 확장