Introduction


  • LLM이 긴 multi-step 추론 체인 생성으로 복잡한 태스크 해결
  • Test-time scaling (TTS)가 중간 추론 단계의 다중 변형 샘플링, 검증, 최적 단계 선택으로 성능 향상
  • 기존 검증 방법(PRM 등)이 계산 비용이 높고, 특정 도메인에 제한되며, 대규모 어노테이션 필요
  • LLM 내부 상태 프로빙 기반의 경량 대안 제안

Related Papers


  • Process Reward Models (PRMs) 연구
  • Test-time compute scaling 연구
  • Self-consistency 및 검증 연구

Methods


  • Transformer 기반 프로브: frozen LLM의 내부 상태를 사용하여 추론 단계의 신뢰도 추정
  • 어노테이션: 더 큰 LLM(예: DeepSeek-R1) 또는 원본 모델 자체로 self-supervised 방식 생성
  • 프로브 크기: 10M 파라미터 미만으로 경량화
  • 생성 중 추론 단계 신뢰도 실시간 추정

Results


  • 수학, 계획, 일반 지식 QA 등 다양한 도메인에서 테스트
  • 최대 810배 큰 PRM과 동등하거나 더 나은 성능
  • LLM 내부 상태가 추론 프로세스에 대한 신뢰도를 인코딩함을 발견

Discussion


  • 내부 상태가 추론 단계 검증의 신뢰할 수 있는 신호로 작용
  • 확장 가능하고 일반화 가능한 TTS를 위한 유망한 방향
  • 내성적(introspective) LLM 개발 가능성
  • 향후 연구: 더 다양한 추론 태스크에 적용