Introduction


  • LLM의 추론 결함과 hallucination을 “Self-” 접두사 연구들로 해결하려는 시도들의 서베이
  • “Internal consistency” (latent, decoding, response 레이어 간 일관성)를 통합 프레임워크로 제안
  • Self-Knowledge: LLM이 자신이 아는 것을 알고 자기 행동을 정확히 예측하는 능력

Related Papers


  • Self-Consistency (Wang et al.)
  • Self-Refine, Self-Improve, Self-Correct 연구들
  • Chain-of-thought reasoning

Methods


  • Self-Feedback 프레임워크: Self-Evaluation + Self-Update 모듈
  • 과제 유형별 관련 연구 분류
  • 평가 방법과 벤치마크 정리
  • “Hourglass Evolution of Internal Consistency” 개념 제안

Results


  • Internal consistency signal을 식별하여 모델 응답/능력 향상 가능
  • “Consistency Is (Almost) Correctness” 가설 제시
  • Self-Knowledge가 Self-Feedback의 기반이 됨을 체계적으로 정리

Discussion


  • Self-Knowledge와 metacognition의 관계
  • Internal consistency가 자기 인식의 조작적 지표로 활용 가능
  • o1-like reasoning과의 연결
  • Hallucination 완화에서의 self-feedback 역할