Calibrating Verbal Uncertainty as a Linear Feature to Reduce Hallucinations
Digest (CISELQ):
- Context: LLM은 종종 거짓 주장을 과도한 확신 어조로 표현하여 사용자 신뢰를 저하시킨다. 기존 hallucination 연구는 주로 의미적(semantic) 불확실성에 초점을 맞추어 왔으며, 모델이 표현하는 언어적(verbal) 불확실성과의 분리 가능성은 체계적으로 탐구되지 않았다.
- Issue: 모델 내부의 의미적 확신도와 외부로 드러나는 언어적 확신 어조가 괴리될 때, 모델은 알지 못하는 내용을 단호한 말투로 내뱉는다. 이 괴리 자체가 hallucination의 강력한 예측 변수라는 가설이 제기된다.
- Solution: 저자들은 LLM의 residual stream 활성값에서 “언어적 불확실성”을 통제하는 **단일 선형 방향(linear feature)**을 찾아내고, 이 방향을 추론 시점에 조작하여 발화 어조를 의미적 확신도에 맞추어 calibrate하는 inference-time intervention을 제안한다.
- Evaluation: TriviaQA, Natural Questions, PopQA 등 short-form QA 벤치마크에서 Llama/Mistral 계열 모델을 대상으로, semantic uncertainty score와 verbal uncertainty feature 사이의 mismatch가 hallucination을 예측하는지 검증한다.
- Lessons/Limits: verbal uncertainty feature를 조정함으로써 confident hallucination을 평균 약 30% 상대 감소시켰다. 단, long-form 생성과 multi-turn 상황에서의 일반화, 그리고 feature의 domain-transfer 안정성은 향후 과제이다.
섹션별 요약
Introduction
- LLM은 사실 오류를 단호한 어투로 표현하는 “confident hallucination” 문제로 신뢰성이 훼손된다.
- 저자는 모델의 **실제 확신(semantic uncertainty)**과 **표현되는 확신(verbal uncertainty)**이 독립적으로 제어 가능한 두 축이라고 주장한다.
- 본 연구는 (1) verbal uncertainty가 선형적으로 인코딩되는지, (2) 이를 조작하여 hallucination을 줄일 수 있는지를 질문한다.
Methods
- Verbal uncertainty probing: 동일 질문에 대해 hedging 표현(“I think”, “probably”)과 assertive 표현(“definitely”, “the answer is”)을 포함한 응답 쌍을 수집하고, 각 layer의 residual activation에 대해 linear probe / contrastive mean difference로 방향 벡터를 추출.
- Semantic uncertainty: self-consistency sampling 기반의 semantic entropy 혹은 answer likelihood를 사용.
- Mismatch signal: semantic uncertainty와 verbal uncertainty의 상관 및 잔차(residual)를 hallucination 예측에 활용.
- Intervention: 추론 시 verbal uncertainty feature 방향으로 activation을 가·감산하여 표현 톤을 의미적 확신도에 맞추어 재보정.
Results
| 평가 축 | 주요 발견 |
|---|---|
| 선형성 | 단일 방향 벡터로 hedging↔assertive 어조를 높은 정확도로 분리 |
| 상관성 | semantic vs verbal uncertainty 상관은 중간 수준 (r ≈ 0.3–0.5) |
| 예측력 | 두 축의 mismatch가 semantic uncertainty 단독보다 hallucination AUROC 향상 |
| Intervention | Short-form QA에서 confident hallucination 평균 ~30% 상대 감소 |
Discussion
- 결과는 LLM이 “알고 있음”과 “아는 것처럼 말함”을 내부적으로 분리해 저장함을 시사한다.
- 선형 feature는 representation engineering / ITI(Inference-Time Intervention) 연구와 궤를 같이한다.
- 한계: long-form, 대화형, 비영어 도메인 일반화 미검증, feature 추출은 probe 학습 데이터에 민감.
Insights
- Hallucination은 단지 “모른다”의 문제가 아니라 **“몰라도 확신에 차서 말한다”**는 표현 양식의 문제이다.
- 표현 calibration은 factuality 향상과 별개로도 사용자 신뢰에 기여할 수 있다.
Discussion Points
- verbal uncertainty feature는 RLHF로 고착된 스타일 bias의 산물인가, 본질적 표상인가?
- 의미적 불확실성이 부정확해도 verbal calibration만으로 신뢰도 개선이 유효한가?
- Long-form 생성에서 문장 단위 동적 intervention이 가능한가?
메타데이터
- Authors: Ziwei Ji, Lei Yu, Yeskendir Koishekenov, Yejin Bang, Anthony Hartshorn, Alan Schelten, Cheng Zhang, Pascale Fung, Nicola Cancedda
- Affiliation: Meta AI / HKUST 등
- Venue: arXiv preprint (2025)
- Code: 저자 공개 여부 추후 확인 필요
왜 이 연구를 하는가?
LLM의 신뢰도 향상은 factuality 개선뿐 아니라 **“확신의 언어적 보정”**까지 요구된다. 기존 uncertainty estimation 연구는 모델 내부 확률/엔트로피에 집중했으나, 사용자는 결국 텍스트 표면의 어조로 확신을 판단한다. 저자는 이 둘의 괴리를 정면으로 다루며, calibration을 표현 공간의 단일 방향 조작이라는 가볍고 해석 가능한 개입으로 환원한다.
방법 (Method)
flowchart TD A[질문 입력] --> B[모델 응답 생성] B --> C1[Semantic Uncertainty<br/>self-consistency entropy] B --> C2[Verbal Uncertainty Probe<br/>residual activation 선형 방향] C1 --> D[Mismatch 계산] C2 --> D D --> E{Confident Hallucination<br/>위험 판정} E -- 고위험 --> F[Verbal Feature 방향으로<br/>activation steering 감소] E -- 저위험 --> G[원 응답 유지] F --> H[Calibrated 응답 출력] G --> H
발견 (Findings)
| # | 발견 | 함의 |
|---|---|---|
| F1 | Verbal uncertainty는 단일 선형 방향으로 인코딩됨 | 경량 steering 가능 |
| F2 | Semantic–Verbal 상관은 중간 수준 | 두 축은 부분적으로만 정렬됨 |
| F3 | Mismatch가 hallucination의 강한 예측자 | 탐지 지표로 활용 가능 |
| F4 | Steering으로 confident hallucination ~30% 감소 | 실용적 mitigation |
| F5 | Factual accuracy는 크게 저하되지 않음 | 표현 보정의 부수비용이 낮음 |
이론적 의의
- Representation engineering 관점에서 “메타인지적 톤”이 LLM 내부에 선형적으로 존재한다는 증거를 제공.
- Hallucination 연구를 knowledge-level에서 communication-level로 확장.
- Calibration, honesty, hedging 연구를 잇는 다리 역할: “모델은 아는 것과 아는 척하는 것을 분리 제어할 수 있다.”
재현성 및 신뢰도 평가
| 항목 | 평가 | 근거 |
|---|---|---|
| 데이터 공개 | 중 | 표준 QA 벤치(TriviaQA, NQ 등) 기반 |
| 코드 공개 | 미확인 | 공식 repo 확인 필요 |
| 실험 다양성 | 중상 | 여러 모델·벤치에서 검증 |
| Ablation | 중 | layer/probe 방법 변화 분석 필요 |
| 일반화 | 중 | short-form 중심, long-form 제한 |
| 총평 | B | 방법은 명료, 재현은 probe 학습 설정 의존 |
관련 연구
- Inference-Time Intervention (ITI) — Li et al., 2023: truthfulness 방향 steering.
- Semantic Entropy — Kuhn et al., 2023: 의미적 불확실성 측정.
- Representation Engineering — Zou et al., 2023: 개념을 선형 방향으로 조작.
- Calibration of LLMs — Kadavath et al., 2022 (“Language Models (Mostly) Know What They Know”).
- Honesty & Hedging — Lin et al., 2022 (TruthfulQA) 계열.
원자적 인사이트 (Zettelkasten)
- Verbal-Semantic 분리 원리: LLM 내부에서 “아는 정도”와 “아는 척하는 정도”는 서로 다른 표상 축에 놓이며, 후자는 단일 선형 방향으로 steering 가능하다. 이는 honesty alignment를 knowledge-editing과 독립적으로 수행할 여지를 준다.
- Mismatch = Hallucination Predictor: semantic uncertainty와 verbal uncertainty의 잔차는 단일 축보다 hallucination을 더 잘 예측한다. 즉 “확신의 양식” 자체가 신호이며, 이는 메타인지 probe 설계의 새로운 목표함수가 될 수 있다.
- Cheap Calibration Hypothesis: 표현 톤을 얇게 조정하는 것만으로도 사용자 체감 신뢰도가 크게 개선될 수 있으며, 이는 factuality 개선의 난제와 부분적으로 분리해 해결 가능하다는 실용적 통찰을 준다.
핵심 용어 정리
- Verbal Uncertainty: 모델이 언어 표면에서 드러내는 확신 어조 (hedging vs assertive).
- Semantic Uncertainty: 응답 내용에 대한 모델 내부 확률적 불확실성 (e.g., semantic entropy).
- Linear Feature: 특정 개념이 residual stream에서 하나의 방향 벡터로 인코딩된 구조.
- Activation Steering / ITI: 추론 시 activation에 방향 벡터를 가감하여 행동을 조절하는 기법.
- Confident Hallucination: 사실 오류를 높은 확신 어조로 진술하는 실패 모드.
- Calibration: 모델의 (표현 혹은 내부) 확신도를 실제 정답 확률과 맞추는 과정.
태그
paper LLM hallucination calibration representation-engineering verbal-uncertainty inference-time-intervention linear-feature theory