Calibrating Verbal Uncertainty as a Linear Feature to Reduce Hallucinations

Digest (CISELQ):

  • Context: LLM은 종종 거짓 주장을 과도한 확신 어조로 표현하여 사용자 신뢰를 저하시킨다. 기존 hallucination 연구는 주로 의미적(semantic) 불확실성에 초점을 맞추어 왔으며, 모델이 표현하는 언어적(verbal) 불확실성과의 분리 가능성은 체계적으로 탐구되지 않았다.
  • Issue: 모델 내부의 의미적 확신도와 외부로 드러나는 언어적 확신 어조가 괴리될 때, 모델은 알지 못하는 내용을 단호한 말투로 내뱉는다. 이 괴리 자체가 hallucination의 강력한 예측 변수라는 가설이 제기된다.
  • Solution: 저자들은 LLM의 residual stream 활성값에서 “언어적 불확실성”을 통제하는 **단일 선형 방향(linear feature)**을 찾아내고, 이 방향을 추론 시점에 조작하여 발화 어조를 의미적 확신도에 맞추어 calibrate하는 inference-time intervention을 제안한다.
  • Evaluation: TriviaQA, Natural Questions, PopQA 등 short-form QA 벤치마크에서 Llama/Mistral 계열 모델을 대상으로, semantic uncertainty score와 verbal uncertainty feature 사이의 mismatch가 hallucination을 예측하는지 검증한다.
  • Lessons/Limits: verbal uncertainty feature를 조정함으로써 confident hallucination을 평균 약 30% 상대 감소시켰다. 단, long-form 생성과 multi-turn 상황에서의 일반화, 그리고 feature의 domain-transfer 안정성은 향후 과제이다.

섹션별 요약

Introduction

  • LLM은 사실 오류를 단호한 어투로 표현하는 “confident hallucination” 문제로 신뢰성이 훼손된다.
  • 저자는 모델의 **실제 확신(semantic uncertainty)**과 **표현되는 확신(verbal uncertainty)**이 독립적으로 제어 가능한 두 축이라고 주장한다.
  • 본 연구는 (1) verbal uncertainty가 선형적으로 인코딩되는지, (2) 이를 조작하여 hallucination을 줄일 수 있는지를 질문한다.

Methods

  • Verbal uncertainty probing: 동일 질문에 대해 hedging 표현(“I think”, “probably”)과 assertive 표현(“definitely”, “the answer is”)을 포함한 응답 쌍을 수집하고, 각 layer의 residual activation에 대해 linear probe / contrastive mean difference로 방향 벡터를 추출.
  • Semantic uncertainty: self-consistency sampling 기반의 semantic entropy 혹은 answer likelihood를 사용.
  • Mismatch signal: semantic uncertainty와 verbal uncertainty의 상관 및 잔차(residual)를 hallucination 예측에 활용.
  • Intervention: 추론 시 verbal uncertainty feature 방향으로 activation을 가·감산하여 표현 톤을 의미적 확신도에 맞추어 재보정.

Results

평가 축주요 발견
선형성단일 방향 벡터로 hedging↔assertive 어조를 높은 정확도로 분리
상관성semantic vs verbal uncertainty 상관은 중간 수준 (r ≈ 0.3–0.5)
예측력두 축의 mismatch가 semantic uncertainty 단독보다 hallucination AUROC 향상
InterventionShort-form QA에서 confident hallucination 평균 ~30% 상대 감소

Discussion

  • 결과는 LLM이 “알고 있음”과 “아는 것처럼 말함”을 내부적으로 분리해 저장함을 시사한다.
  • 선형 feature는 representation engineering / ITI(Inference-Time Intervention) 연구와 궤를 같이한다.
  • 한계: long-form, 대화형, 비영어 도메인 일반화 미검증, feature 추출은 probe 학습 데이터에 민감.

Insights

  • Hallucination은 단지 “모른다”의 문제가 아니라 **“몰라도 확신에 차서 말한다”**는 표현 양식의 문제이다.
  • 표현 calibration은 factuality 향상과 별개로도 사용자 신뢰에 기여할 수 있다.

Discussion Points

  • verbal uncertainty feature는 RLHF로 고착된 스타일 bias의 산물인가, 본질적 표상인가?
  • 의미적 불확실성이 부정확해도 verbal calibration만으로 신뢰도 개선이 유효한가?
  • Long-form 생성에서 문장 단위 동적 intervention이 가능한가?

메타데이터

  • Authors: Ziwei Ji, Lei Yu, Yeskendir Koishekenov, Yejin Bang, Anthony Hartshorn, Alan Schelten, Cheng Zhang, Pascale Fung, Nicola Cancedda
  • Affiliation: Meta AI / HKUST 등
  • Venue: arXiv preprint (2025)
  • Code: 저자 공개 여부 추후 확인 필요

왜 이 연구를 하는가?

LLM의 신뢰도 향상은 factuality 개선뿐 아니라 **“확신의 언어적 보정”**까지 요구된다. 기존 uncertainty estimation 연구는 모델 내부 확률/엔트로피에 집중했으나, 사용자는 결국 텍스트 표면의 어조로 확신을 판단한다. 저자는 이 둘의 괴리를 정면으로 다루며, calibration을 표현 공간의 단일 방향 조작이라는 가볍고 해석 가능한 개입으로 환원한다.

방법 (Method)

flowchart TD
    A[질문 입력] --> B[모델 응답 생성]
    B --> C1[Semantic Uncertainty<br/>self-consistency entropy]
    B --> C2[Verbal Uncertainty Probe<br/>residual activation 선형 방향]
    C1 --> D[Mismatch 계산]
    C2 --> D
    D --> E{Confident Hallucination<br/>위험 판정}
    E -- 고위험 --> F[Verbal Feature 방향으로<br/>activation steering 감소]
    E -- 저위험 --> G[원 응답 유지]
    F --> H[Calibrated 응답 출력]
    G --> H

발견 (Findings)

#발견함의
F1Verbal uncertainty는 단일 선형 방향으로 인코딩됨경량 steering 가능
F2Semantic–Verbal 상관은 중간 수준두 축은 부분적으로만 정렬됨
F3Mismatch가 hallucination의 강한 예측자탐지 지표로 활용 가능
F4Steering으로 confident hallucination ~30% 감소실용적 mitigation
F5Factual accuracy는 크게 저하되지 않음표현 보정의 부수비용이 낮음

이론적 의의

  • Representation engineering 관점에서 “메타인지적 톤”이 LLM 내부에 선형적으로 존재한다는 증거를 제공.
  • Hallucination 연구를 knowledge-level에서 communication-level로 확장.
  • Calibration, honesty, hedging 연구를 잇는 다리 역할: “모델은 아는 것과 아는 척하는 것을 분리 제어할 수 있다.”

재현성 및 신뢰도 평가

항목평가근거
데이터 공개표준 QA 벤치(TriviaQA, NQ 등) 기반
코드 공개미확인공식 repo 확인 필요
실험 다양성중상여러 모델·벤치에서 검증
Ablationlayer/probe 방법 변화 분석 필요
일반화short-form 중심, long-form 제한
총평B방법은 명료, 재현은 probe 학습 설정 의존

관련 연구

  • Inference-Time Intervention (ITI) — Li et al., 2023: truthfulness 방향 steering.
  • Semantic Entropy — Kuhn et al., 2023: 의미적 불확실성 측정.
  • Representation Engineering — Zou et al., 2023: 개념을 선형 방향으로 조작.
  • Calibration of LLMs — Kadavath et al., 2022 (“Language Models (Mostly) Know What They Know”).
  • Honesty & Hedging — Lin et al., 2022 (TruthfulQA) 계열.

원자적 인사이트 (Zettelkasten)

  1. Verbal-Semantic 분리 원리: LLM 내부에서 “아는 정도”와 “아는 척하는 정도”는 서로 다른 표상 축에 놓이며, 후자는 단일 선형 방향으로 steering 가능하다. 이는 honesty alignment를 knowledge-editing과 독립적으로 수행할 여지를 준다.
  2. Mismatch = Hallucination Predictor: semantic uncertainty와 verbal uncertainty의 잔차는 단일 축보다 hallucination을 더 잘 예측한다. 즉 “확신의 양식” 자체가 신호이며, 이는 메타인지 probe 설계의 새로운 목표함수가 될 수 있다.
  3. Cheap Calibration Hypothesis: 표현 톤을 얇게 조정하는 것만으로도 사용자 체감 신뢰도가 크게 개선될 수 있으며, 이는 factuality 개선의 난제와 부분적으로 분리해 해결 가능하다는 실용적 통찰을 준다.

핵심 용어 정리

  • Verbal Uncertainty: 모델이 언어 표면에서 드러내는 확신 어조 (hedging vs assertive).
  • Semantic Uncertainty: 응답 내용에 대한 모델 내부 확률적 불확실성 (e.g., semantic entropy).
  • Linear Feature: 특정 개념이 residual stream에서 하나의 방향 벡터로 인코딩된 구조.
  • Activation Steering / ITI: 추론 시 activation에 방향 벡터를 가감하여 행동을 조절하는 기법.
  • Confident Hallucination: 사실 오류를 높은 확신 어조로 진술하는 실패 모드.
  • Calibration: 모델의 (표현 혹은 내부) 확신도를 실제 정답 확률과 맞추는 과정.

태그

paper LLM hallucination calibration representation-engineering verbal-uncertainty inference-time-intervention linear-feature theory