Introduction
- 기존 LLM calibration은 전체 응답에 대한 scalar confidence만 추정
- Long-form generation에서 여러 atomic fact가 포함되어 부분적으로만 correct할 수 있음
- Fact-Level Calibration framework 제안
- Confidence calibration
- Hallucination mitigation
Methods
- Fact-level에서 confidence를 relevance-weighted correctness에 calibrate
- ConFix: high-confidence facts를 additional knowledge로 활용하여 low-confidence facts 개선
- 4개 데이터셋, 6개 모델에서 실험
Results
- ConFix가 외부 knowledge source 없이 hallucination 효과적으로 완화
- Fine-grained calibration이 전체 응답 수준 calibration보다 유용
Discussion
- Self-awareness의 granularity를 높이는 것이 실용적 가치가 있음
- 모델이 자신의 출력에서 확실한 부분과 불확실한 부분을 구분하는 능력 평가