Introduction
- LLM의 추론 결함과 hallucination을 “Self-” 접두사 연구들로 해결하려는 시도들의 서베이
- “Internal consistency” (latent, decoding, response 레이어 간 일관성)를 통합 프레임워크로 제안
- Self-Knowledge: LLM이 자신이 아는 것을 알고 자기 행동을 정확히 예측하는 능력
- Self-Consistency (Wang et al.)
- Self-Refine, Self-Improve, Self-Correct 연구들
- Chain-of-thought reasoning
Methods
- Self-Feedback 프레임워크: Self-Evaluation + Self-Update 모듈
- 과제 유형별 관련 연구 분류
- 평가 방법과 벤치마크 정리
- “Hourglass Evolution of Internal Consistency” 개념 제안
Results
- Internal consistency signal을 식별하여 모델 응답/능력 향상 가능
- “Consistency Is (Almost) Correctness” 가설 제시
- Self-Knowledge가 Self-Feedback의 기반이 됨을 체계적으로 정리
Discussion
- Self-Knowledge와 metacognition의 관계
- Internal consistency가 자기 인식의 조작적 지표로 활용 가능
- o1-like reasoning과의 연결
- Hallucination 완화에서의 self-feedback 역할