Introduction
- 앙상블 기반 추론의 연산 비효율성 문제
- 저신뢰도 추론 경로를 폐기(early stopping)하는 대신 반성의 기회로 활용
- Online confidence 모니터링을 통한 자기 수정 메커니즘 제안
- Self-Consistency (Wang et al.)
- Best-of-N sampling
- LLM self-correction 연구
Methods
- “Reflective confidence”: 저신뢰도 탐지 시 오류 분석 및 경로 수정 트리거
- Online confidence 모니터링
- 수정된 경로를 따라 generation 계속
- AIME 2025 등 수학 추론 벤치마크에서 평가
Results
- High-budget 설정에서 Self-Consistency 대비 13점 이상 정확도 향상 (83.3% vs 70.0%)
- 연산 비용은 소폭 증가에 그침
- 이탈 경로를 구제(rescue)하는 것이 폐기보다 효과적
- 다양한 수학 추론 과제에서 일관된 향상
Discussion
- 자기 수정이 metacognitive monitoring의 실용적 구현
- 추론 과정에서의 온라인 자기 모니터링의 가치
- 수학 외 도메인으로의 확장 가능성
- Self-correction과 introspection의 관계