Introduction
- LLM이 부정확한 정보를 confidence 표시 없이 생성하는 문제
- 세밀한(fine-grained) confidence 추정과 함께 self-reflective rationale을 생성하도록 학습
- 파라메트릭 지식의 갭을 식별하고 불확실성을 설명하는 능력
- LLM calibration 연구
- Uncertainty quantification in NLP
- Self-consistency 기반 confidence estimation
Methods
- 다수의 추론 체인 샘플링 후 불일치(inconsistency) 분석
- Supervised fine-tuning으로 self-reflective rationale 생성 학습
- Crafted reward function을 활용한 강화학습으로 confidence 추정 캘리브레이션
Results
- Confidence calibration error 감소에 효과적
- Task performance 유지하면서 calibration 향상
- 표준 및 OOD 데이터셋에서 모두 효과 입증
- Self-reflective rationale이 지식 갭의 명시적 식별에 성공
Discussion
- 자기 지식 한계의 명시적 인식이 metacognition의 한 형태
- Hallucination 감소에 대한 실용적 접근
- Self-reflective rationale의 질과 신뢰성에 대한 추가 연구 필요