Introduction
- Long Chain-of-Thought (CoT)가 복잡한 추론 성능을 향상시키지만 상당한 중복성 초래
- 기존 방법들이 인간 정의 난이도 기준에 의존하여 LLM의 자기인식 난이도와 불일치
- Dynamic Reasoning-Boundary Self-Awareness Framework (DR.SAF) 제안
- 모델이 문제 복잡성에 따라 추론 깊이를 동적으로 평가/조절
- Chain-of-Thought 추론 연구
- Test-time compute scaling 연구
- Self-consistency 및 adaptive computation 연구
Methods
- Boundary Self-Awareness Alignment: 모델이 자신의 추론 경계를 인식하도록 정렬
- Adaptive Reward Management: 효율성과 정확성 균형을 위한 적응적 보상 관리
- Boundary Preservation Mechanism: 추론 경계 보존 메커니즘
- 세 가지 구성요소가 상호작용하여 효율적인 추론 프로세스 최적화
Results
- 총 응답 토큰 49.27% 감소 (정확도 손실 최소화)
- 토큰 효율성 6.59배 향상
- 훈련 시간 5배 단축
- Extreme training에서 기존 instruction 기반 모델 대비 16% 이상 정확도 향상
Discussion
- 자원 제한 환경에 적합한 프레임워크
- 효율성과 정확성 간의 트레이드오프 최적화
- LLM의 자기인식 능력 활용의 중요성 강조
- 향후 연구: 다양한 도메인 및 모델에 적용 확장