Introduction


  • LLM의 verbal uncertainty expression을 linear feature로 모델링
  • Hallucination 감소를 위한 calibration 방법

Related Papers


  • Representation engineering
  • Hallucination detection

Methods


  • Verbal uncertainty를 representation space에서 linear direction으로 식별
  • 이 linear feature를 활용한 calibration 및 hallucination 감소

Results


  • Linear calibration으로 verbal uncertainty의 정확도 향상
  • Hallucination rate 감소

Discussion


  • Internal state와 verbal output 간의 linear 관계 발견
  • Self-awareness의 representation-level 이해에 기여