Introduction
- LLM의 verbal uncertainty expression을 linear feature로 모델링
- Hallucination 감소를 위한 calibration 방법
Related Papers
- Representation engineering
- Hallucination detection
Methods
- Verbal uncertainty를 representation space에서 linear direction으로 식별
- 이 linear feature를 활용한 calibration 및 hallucination 감소
Results
- Linear calibration으로 verbal uncertainty의 정확도 향상
- Hallucination rate 감소
Discussion
- Internal state와 verbal output 간의 linear 관계 발견
- Self-awareness의 representation-level 이해에 기여