Introduction


  • 기존 LLM calibration은 전체 응답에 대한 scalar confidence만 추정
  • Long-form generation에서 여러 atomic fact가 포함되어 부분적으로만 correct할 수 있음
  • Fact-Level Calibration framework 제안

Related Papers


  • Confidence calibration
  • Hallucination mitigation

Methods


  • Fact-level에서 confidence를 relevance-weighted correctness에 calibrate
  • ConFix: high-confidence facts를 additional knowledge로 활용하여 low-confidence facts 개선
  • 4개 데이터셋, 6개 모델에서 실험

Results


  • ConFix가 외부 knowledge source 없이 hallucination 효과적으로 완화
  • Fine-grained calibration이 전체 응답 수준 calibration보다 유용

Discussion


  • Self-awareness의 granularity를 높이는 것이 실용적 가치가 있음
  • 모델이 자신의 출력에서 확실한 부분과 불확실한 부분을 구분하는 능력 평가