Introduction
- LLM이 긴 multi-step 추론 체인 생성으로 복잡한 태스크 해결
- Test-time scaling (TTS)가 중간 추론 단계의 다중 변형 샘플링, 검증, 최적 단계 선택으로 성능 향상
- 기존 검증 방법(PRM 등)이 계산 비용이 높고, 특정 도메인에 제한되며, 대규모 어노테이션 필요
- LLM 내부 상태 프로빙 기반의 경량 대안 제안
- Process Reward Models (PRMs) 연구
- Test-time compute scaling 연구
- Self-consistency 및 검증 연구
Methods
- Transformer 기반 프로브: frozen LLM의 내부 상태를 사용하여 추론 단계의 신뢰도 추정
- 어노테이션: 더 큰 LLM(예: DeepSeek-R1) 또는 원본 모델 자체로 self-supervised 방식 생성
- 프로브 크기: 10M 파라미터 미만으로 경량화
- 생성 중 추론 단계 신뢰도 실시간 추정
Results
- 수학, 계획, 일반 지식 QA 등 다양한 도메인에서 테스트
- 최대 810배 큰 PRM과 동등하거나 더 나은 성능
- LLM 내부 상태가 추론 프로세스에 대한 신뢰도를 인코딩함을 발견
Discussion
- 내부 상태가 추론 단계 검증의 신뢰할 수 있는 신호로 작용
- 확장 가능하고 일반화 가능한 TTS를 위한 유망한 방향
- 내성적(introspective) LLM 개발 가능성
- 향후 연구: 더 다양한 추론 태스크에 적용