Introduction


  • LLM이 자신의 지식 경계를 정확히 인식하지 못해 확신에 찬 오답을 생성하는 문제
  • 내부 상태를 활용하여 지식 경계 인식을 향상시키는 방법 연구
  • 응답 생성 전(pre-generation)에도 confidence 추정이 가능한지 탐구

Related Papers


  • LLM calibration 연구
  • Hallucination detection/mitigation 연구
  • Internal representation probing 연구

Methods


  • LLM 내부 상태에서 confidence 신호 추출
  • Confidence Consistency-based Calibration (C³): question reformulation을 활용한 지식 경계 인식 향상
  • Pre-generation vs post-generation perception 비교 분석

Results


  • LLM이 응답 생성 전에도 유의미한 pre-generation perception 능력 보유
  • Post-generation에서 추가 정제(refinement) 발생
  • Perception gap은 다양한 조건에서 안정적
  • C³ 기법으로 unknown 인정률 약 5-6% 향상, 연산 효율성 유지

Discussion


  • LLM 내부에 자기 지식 한계에 대한 신호가 존재
  • High-stakes 응용에서 출력 위험 감소에 활용 가능
  • Pre-generation confidence가 연산 비용 절감에 기여
  • 향후 다양한 도메인에서의 검증 필요