Thinking, Faithful and Stable: Mitigating Hallucinations in LLMs via Internal Consistency

Digest (CISELQ)

Context (C): 대형 언어모델은 다단계 추론(chain-of-thought) 과정에서 표면적으로는 자신 있게 말하지만 내부 근거가 흔들리는 “hallucinated reasoning” 문제가 핵심 위험 요소로 남아 있다. 기존 완화법(DoLA, MC-dropout, ensemble)은 주로 출력 단계에서만 불확실성을 탐지하거나 후처리를 수행해, 추론의 “중간 단계” 자체가 왜 무너지는지에 대한 개입은 부족하다.
Issue (I): 모델이 “스스로 생각하는 동안” 자기 확신과 실제 지식 상태가 어긋나는 순간을 실시간으로 포착하고, 이를 학습 신호로 되먹임할 방법이 없다는 점이 본 논문의 문제의식이다.
Solution (S): 저자들은 두 가지 내부 신호 — (1) self-assessed confidence alignment (모델이 자기 확신을 진술한 값과 실제 정답 확률의 정합도), (2) token-level entropy spike (생성 중 갑작스런 불확실성 폭증) — 을 결합한 composite reward를 설계하고, 이를 policy-optimization 기반 강화학습으로 학습시킨다.
Evaluation (E): TruthfulQA, GSM8K, MMLU 등 팩트성·추론·지식 벤치마크에서 Llama-3 8B 급 오픈 모델을 대상으로, DoLA·MC-dropout·ensemble·표준 디코딩 baseline 대비 최종 정답 정확도와 calibration(ECE류) 지표를 비교하고 ablation으로 두 신호의 독립 기여도를 검증한다.
Limitations (L): 자기평가 신호 자체가 모델 내부 편향에 얽매여 있어 “잘못된 확신”을 강화할 위험, 엔트로피 spike의 임계값 설정이 태스크·프롬프트 분포에 민감하다는 점, 수치 결과가 한 모델 계열(Llama-3 8B) 위주라는 점이 한계로 지적된다.
Questions (Q): (i) confidence-alignment 신호가 계산되는 frozen judge 모델은 self-reward 붕괴(reward hacking)에 얼마나 취약한가? (ii) entropy spike는 “불확실성”과 “정상적인 어휘 전환”을 어떻게 구분하는가? (iii) 더 큰 모델(70B급)에서도 동일한 calibration 개선이 유지되는가?

섹션별 요약

Introduction

LLM이 추론 사슬을 스스로 전개할 때 겉보기에는 논리적이지만 내부 근거와 불일치하는 “faithfulness gap”이 반복적으로 관찰된다. 저자들은 이 현상을 “thinking hallucination”으로 정의하고, 출력 확률만 보는 기존 탐지 방식 대신 모델 내부의 확신 진술과 토큰 단위 불확실성 궤적을 함께 감시해야 한다고 주장한다. 이 논문의 기여는 (1) 두 신호를 통합한 복합 보상, (2) 추론 중간 단계를 교정하는 RL 파이프라인, (3) 신호별 독립 기여를 확인하는 ablation으로 요약된다.

Methods

모델은 문제 prompt를 받고 CoT를 생성하는 policy $π_{θ}$ 로 간주된다. 생성 중 각 step $t$ 에서 두 가지 측정이 수행된다. 첫째, self-assessed confidence $c_{t}$ (모델이 “확신도”를 직접 진술하도록 유도된 토큰 확률 집계)와, frozen reference judge가 추정한 사후 정답 확률 $p_{t}$ 사이의 alignment $A_{t} = - ∣ c_{t} - p_{t} ∣$ . 둘째, 토큰별 엔트로피 $H_{t}$ 가 국소 이동평균에서 급격히 벗어나는 정도 $S_{t}$ . 이 둘을 결합한 composite reward는 대략적으로 $r = α \cdot A_{seq} - β \cdot E [S_{t}] + γ \cdot r_{task}$ 형태이며, policy gradient 계열 (PPO/GRPO에 준하는 updates)로 최적화된다. 학습 중 높은 확신을 가지지만 정답이 아닌 시퀀스, 또는 엔트로피가 국소적으로 폭증해 “삼켜진” 추론 구간을 가진 시퀀스에 강한 페널티가 부여된다.

Results

주요 결과는 다음과 같다 (수치는 페이퍼 요지 기준, 근사치로 해석).

Benchmark	Baseline (Llama-3 8B)	+Faithful&Stable (본 연구)	Δ
TruthfulQA (truthful%)	중간대	유의한 상승	↑
GSM8K (acc)	표준 CoT	동등 또는 상승	↑/=
MMLU (acc)	표준 디코딩	소폭 상승	↑
Calibration (ECE↓)	높은 ECE	크게 감소	↓↓
Hallucination rate	baseline 대비	감소	↓

Ablation에서 confidence-alignment 신호만 사용, entropy-spike 신호만 사용한 변형이 각각 baseline보다 나아지지만, 둘을 합쳤을 때 calibration과 정확도 모두에서 최고 성능을 낸다.

Discussion

저자들은 “추론 충실성(faithfulness)“을 단일 지표가 아니라 self-report와 internal dynamics가 서로 일치하는 상태로 재정의한다. 이는 기존 “정답 맞추기” 중심 RLHF/RLAIF 보상과 달리, 답은 맞아도 근거가 흔들리면 페널티가 부여된다는 점에서 정합성 기반 보상(consistency-as-reward) 아이디어의 구현체로 볼 수 있다.

Insights

모델의 “확신 발화”는 단순 수사학이 아니라 실제 calibration과 관련된 계산 가능한 신호다. 이를 학습 루프로 끌어들이면 RL이 단순 정답 추적을 넘어 “자기 이해”를 향하도록 유도할 수 있다.
엔트로피 궤적의 국소적 급변은 CoT가 “막다른 골목”에 들어서는 순간을 포착하는 저비용 센서로 기능한다.
두 신호는 상호 보완적이다: alignment는 거시적(sequence-level) 자기 정합성을, entropy spike는 미시적(token-level) 불안정을 담당한다.

Discussion Points

frozen judge가 policy와 함께 drift하지 않는가? 주기적 재학습이 필요한가?
self-report 확신이 in-context로 쉽게 편향될 수 있어, 프롬프트 공격에 취약할 가능성.
다른 언어·도메인(코드, 의료 QA)으로의 전이성 검증 필요.

메타데이터

항목	값
논문 제목	Thinking, Faithful and Stable: Mitigating Hallucinations in LLMs via Internal Consistency
저자	Chelsea Zou, Yiheng Yao, Basant Khalil
발표	arXiv preprint (2025-11)
arXiv ID	2511.15921
주요 도메인	LLM faithfulness, hallucination mitigation
핵심 모델	Llama-3 8B 계열
벤치마크	TruthfulQA, GSM8K, MMLU
학습 방식	Composite-reward RL (PPO/GRPO 계열)

왜 이 연구를 하는가?

기존 hallucination 완화 연구는 (a) 디코딩 시점 제어(DoLA, contrastive decoding), (b) 불확실성 추정(MC-dropout, ensemble), (c) 외부 지식 주입(RAG)로 분기되어 왔다. 하지만 CoT 시대에 가장 치명적인 오류는 “답은 맞는데 이유가 틀린 것” 또는 “근거가 흔들리는데 확신 있게 말하는 것”이며, 이는 세 기존 축으로는 직접 타격하기 어렵다. 본 연구는 모델이 스스로 내놓은 확신 진술과 토큰 단위 생성 난이도를 동시에 감시해, RL 보상 함수 수준에서 “정합적 사고”를 강제한다는 점에서 faithfulness-as-training-signal 방향의 구체적 제안이다. 이는 AI 안전 관점에서 self-consistency를 수사가 아닌 계산 가능한 훈련 목표로 환원하는 시도이기도 하다.

방법 (Method)

flowchart TD
    A[Prompt x] --> B[Policy π_θ: CoT 생성]
    B --> C[토큰별 엔트로피 H_t]
    B --> D[Self-assessed confidence c_t]
    C --> E[Entropy Spike Detector S_t]
    D --> F[Frozen Judge p_t]
    F --> G[Alignment A_t = -|c_t - p_t|]
    E --> H[Composite Reward r]
    G --> H
    B --> I[Task reward r_task]
    I --> H
    H --> J[Policy Optimization: PPO/GRPO]
    J --> B

핵심 절차:

정책 모델이 prompt $x$ 로부터 CoT 시퀀스를 샘플링.
각 토큰에서 (i) 엔트로피 $H_{t}$ 계산 → 이동평균 대비 편차로 spike score $S_{t}$ 산출, (ii) 중간 요약 지점에서 self-confidence $c_{t}$ 유도.
Frozen judge가 동일 맥락에서 정답 확률 $p_{t}$ 추정 → alignment $A_{t}$ .
세 요소를 합친 composite reward $r$ 를 시퀀스 말단에서 부여.
PPO/GRPO 계열 업데이트로 정책을 갱신, “과신 + 엔트로피 폭증 + 오답”이 동시에 일어나는 궤적을 억제.

발견

발견	의미
Confidence-alignment 단독만으로도 ECE가 유의하게 개선	자기평가 정보가 RL 보상으로 유효
Entropy-spike 단독은 정확도 영향은 적지만 안정성↑	미시적 신호는 robustness를 담당
두 신호 결합 시 정확도·calibration 동시 최고치	거시·미시 신호가 상호 보완적
TruthfulQA에서 가장 큰 상대적 개선	사실성·정직성 태스크에서 효과 두드러짐
GSM8K에서는 정답률 유지 + calibration 개선	추론 정확도를 깎지 않고 과신만 줄임

이론적 의의

이 논문은 “faithful reasoning”이라는 질적 개념을 두 개의 정량적 내부 지표로 환원한 점에서 이론적 가치가 있다. 특히 alignment 신호는 모델의 self-report를 일종의 “2nd-order 확률”로 취급하고, 이것이 1st-order 예측 확률과 정합해야 한다는 meta-calibration 원칙을 RL 보상으로 구현한 첫 시도들 중 하나로 읽힌다. Entropy spike는 정보이론적 관점에서 CoT가 local phase transition을 겪는 지점을 표시하며, 이는 추론 안정성을 동역학적 양으로 다룰 이론적 여지를 제공한다.

재현성 및 신뢰도 평가

항목	평가	근거
Evidence Quality	B	여러 벤치마크와 ablation이 있으나 수치 표가 제한적이고 외부 재검증 아직 없음
Reproducibility	C	RL 하이퍼파라미터, judge 모델 선택, spike 임계값 등 민감 변수가 많고 공식 코드 공개 여부 불명확
Statistical rigor	B-	ablation은 있으나 시드별 분산/신뢰구간 보고 부족
Scope of models	C+	Llama-3 8B 중심, 대형 모델로의 일반화 미검증

원자적 인사이트

“확신의 일관성”은 보상 함수로 이식 가능하다: 자기 진술 확신과 외부 판정 확률의 차이를 단순 스칼라로 환산해 RL에 주입하는 것만으로 calibration이 측정 가능하게 개선된다. 이는 “솔직함”을 학습 가능한 양으로 재정의한다.
엔트로피 궤적의 국소 이상 탐지는 저비용 내성 센서다: 모델을 다시 돌리거나 별도 판별기를 학습하지 않고도, 생성 중 이미 계산되는 logits만으로 “사고가 삐끗하는 순간”을 표시할 수 있다.
거시(self-report)와 미시(token entropy) 신호는 직교적: 각각 단독보다 결합이 우월하다는 ablation은, 정합성이 단일 척도가 아니라 다중 스케일에서 정의돼야 함을 시사한다.

핵심 용어 정리

Faithfulness (충실성): 모델이 제시한 추론 사슬이 실제 내부 상태/지식과 일치하는 정도.
Confidence alignment: 모델이 진술한 확신과 외부/판정 모델이 평가한 정답 확률 사이의 정합도.
Token-level entropy spike: 생성 중 특정 토큰 부근에서 엔트로피가 국소 평균을 크게 벗어나는 현상, 불안정한 reasoning의 표지자.
Composite reward: 여러 신호(task 정확도 + alignment + stability)를 가중합해 만든 RL 보상.
Self-correcting reasoning: 모델이 생성 중 자기 불확실성을 탐지하고 교정하도록 학습된 추론 방식.
Calibration / ECE: 예측 확률과 실제 정답률의 일치 정도를 측정하는 지표.

Juhyeon's Blog

탐색기

Thinking Faithful and Stable - Mitigating Hallucinations in LLMs via Internal Consistency