Thinking, Faithful and Stable: Mitigating Hallucinations in LLMs via Internal Consistency

Digest (CISELQ)

  • Context (C): 대형 언어모델은 다단계 추론(chain-of-thought) 과정에서 표면적으로는 자신 있게 말하지만 내부 근거가 흔들리는 “hallucinated reasoning” 문제가 핵심 위험 요소로 남아 있다. 기존 완화법(DoLA, MC-dropout, ensemble)은 주로 출력 단계에서만 불확실성을 탐지하거나 후처리를 수행해, 추론의 “중간 단계” 자체가 왜 무너지는지에 대한 개입은 부족하다.
  • Issue (I): 모델이 “스스로 생각하는 동안” 자기 확신과 실제 지식 상태가 어긋나는 순간을 실시간으로 포착하고, 이를 학습 신호로 되먹임할 방법이 없다는 점이 본 논문의 문제의식이다.
  • Solution (S): 저자들은 두 가지 내부 신호 — (1) self-assessed confidence alignment (모델이 자기 확신을 진술한 값과 실제 정답 확률의 정합도), (2) token-level entropy spike (생성 중 갑작스런 불확실성 폭증) — 을 결합한 composite reward를 설계하고, 이를 policy-optimization 기반 강화학습으로 학습시킨다.
  • Evaluation (E): TruthfulQA, GSM8K, MMLU 등 팩트성·추론·지식 벤치마크에서 Llama-3 8B 급 오픈 모델을 대상으로, DoLA·MC-dropout·ensemble·표준 디코딩 baseline 대비 최종 정답 정확도와 calibration(ECE류) 지표를 비교하고 ablation으로 두 신호의 독립 기여도를 검증한다.
  • Limitations (L): 자기평가 신호 자체가 모델 내부 편향에 얽매여 있어 “잘못된 확신”을 강화할 위험, 엔트로피 spike의 임계값 설정이 태스크·프롬프트 분포에 민감하다는 점, 수치 결과가 한 모델 계열(Llama-3 8B) 위주라는 점이 한계로 지적된다.
  • Questions (Q): (i) confidence-alignment 신호가 계산되는 frozen judge 모델은 self-reward 붕괴(reward hacking)에 얼마나 취약한가? (ii) entropy spike는 “불확실성”과 “정상적인 어휘 전환”을 어떻게 구분하는가? (iii) 더 큰 모델(70B급)에서도 동일한 calibration 개선이 유지되는가?

섹션별 요약

Introduction

LLM이 추론 사슬을 스스로 전개할 때 겉보기에는 논리적이지만 내부 근거와 불일치하는 “faithfulness gap”이 반복적으로 관찰된다. 저자들은 이 현상을 “thinking hallucination”으로 정의하고, 출력 확률만 보는 기존 탐지 방식 대신 모델 내부의 확신 진술과 토큰 단위 불확실성 궤적을 함께 감시해야 한다고 주장한다. 이 논문의 기여는 (1) 두 신호를 통합한 복합 보상, (2) 추론 중간 단계를 교정하는 RL 파이프라인, (3) 신호별 독립 기여를 확인하는 ablation으로 요약된다.

Methods

모델은 문제 prompt를 받고 CoT를 생성하는 policy 로 간주된다. 생성 중 각 step 에서 두 가지 측정이 수행된다. 첫째, self-assessed confidence (모델이 “확신도”를 직접 진술하도록 유도된 토큰 확률 집계)와, frozen reference judge가 추정한 사후 정답 확률 사이의 alignment . 둘째, 토큰별 엔트로피 가 국소 이동평균에서 급격히 벗어나는 정도 . 이 둘을 결합한 composite reward는 대략적으로 형태이며, policy gradient 계열 (PPO/GRPO에 준하는 updates)로 최적화된다. 학습 중 높은 확신을 가지지만 정답이 아닌 시퀀스, 또는 엔트로피가 국소적으로 폭증해 “삼켜진” 추론 구간을 가진 시퀀스에 강한 페널티가 부여된다.

Results

주요 결과는 다음과 같다 (수치는 페이퍼 요지 기준, 근사치로 해석).

BenchmarkBaseline (Llama-3 8B)+Faithful&Stable (본 연구)Δ
TruthfulQA (truthful%)중간대유의한 상승
GSM8K (acc)표준 CoT동등 또는 상승↑/=
MMLU (acc)표준 디코딩소폭 상승
Calibration (ECE↓)높은 ECE크게 감소↓↓
Hallucination ratebaseline 대비감소

Ablation에서 confidence-alignment 신호만 사용, entropy-spike 신호만 사용한 변형이 각각 baseline보다 나아지지만, 둘을 합쳤을 때 calibration과 정확도 모두에서 최고 성능을 낸다.

Discussion

저자들은 “추론 충실성(faithfulness)“을 단일 지표가 아니라 self-report와 internal dynamics가 서로 일치하는 상태로 재정의한다. 이는 기존 “정답 맞추기” 중심 RLHF/RLAIF 보상과 달리, 답은 맞아도 근거가 흔들리면 페널티가 부여된다는 점에서 정합성 기반 보상(consistency-as-reward) 아이디어의 구현체로 볼 수 있다.

Insights

  • 모델의 “확신 발화”는 단순 수사학이 아니라 실제 calibration과 관련된 계산 가능한 신호다. 이를 학습 루프로 끌어들이면 RL이 단순 정답 추적을 넘어 “자기 이해”를 향하도록 유도할 수 있다.
  • 엔트로피 궤적의 국소적 급변은 CoT가 “막다른 골목”에 들어서는 순간을 포착하는 저비용 센서로 기능한다.
  • 두 신호는 상호 보완적이다: alignment는 거시적(sequence-level) 자기 정합성을, entropy spike는 미시적(token-level) 불안정을 담당한다.

Discussion Points

  • frozen judge가 policy와 함께 drift하지 않는가? 주기적 재학습이 필요한가?
  • self-report 확신이 in-context로 쉽게 편향될 수 있어, 프롬프트 공격에 취약할 가능성.
  • 다른 언어·도메인(코드, 의료 QA)으로의 전이성 검증 필요.

메타데이터

항목
논문 제목Thinking, Faithful and Stable: Mitigating Hallucinations in LLMs via Internal Consistency
저자Chelsea Zou, Yiheng Yao, Basant Khalil
발표arXiv preprint (2025-11)
arXiv ID2511.15921
주요 도메인LLM faithfulness, hallucination mitigation
핵심 모델Llama-3 8B 계열
벤치마크TruthfulQA, GSM8K, MMLU
학습 방식Composite-reward RL (PPO/GRPO 계열)

왜 이 연구를 하는가?

기존 hallucination 완화 연구는 (a) 디코딩 시점 제어(DoLA, contrastive decoding), (b) 불확실성 추정(MC-dropout, ensemble), (c) 외부 지식 주입(RAG)로 분기되어 왔다. 하지만 CoT 시대에 가장 치명적인 오류는 “답은 맞는데 이유가 틀린 것” 또는 “근거가 흔들리는데 확신 있게 말하는 것”이며, 이는 세 기존 축으로는 직접 타격하기 어렵다. 본 연구는 모델이 스스로 내놓은 확신 진술과 토큰 단위 생성 난이도를 동시에 감시해, RL 보상 함수 수준에서 “정합적 사고”를 강제한다는 점에서 faithfulness-as-training-signal 방향의 구체적 제안이다. 이는 AI 안전 관점에서 self-consistency를 수사가 아닌 계산 가능한 훈련 목표로 환원하는 시도이기도 하다.

방법 (Method)

flowchart TD
    A[Prompt x] --> B[Policy π_θ: CoT 생성]
    B --> C[토큰별 엔트로피 H_t]
    B --> D[Self-assessed confidence c_t]
    C --> E[Entropy Spike Detector S_t]
    D --> F[Frozen Judge p_t]
    F --> G[Alignment A_t = -|c_t - p_t|]
    E --> H[Composite Reward r]
    G --> H
    B --> I[Task reward r_task]
    I --> H
    H --> J[Policy Optimization: PPO/GRPO]
    J --> B

핵심 절차:

  1. 정책 모델이 prompt 로부터 CoT 시퀀스를 샘플링.
  2. 각 토큰에서 (i) 엔트로피 계산 → 이동평균 대비 편차로 spike score 산출, (ii) 중간 요약 지점에서 self-confidence 유도.
  3. Frozen judge가 동일 맥락에서 정답 확률 추정 → alignment .
  4. 세 요소를 합친 composite reward 를 시퀀스 말단에서 부여.
  5. PPO/GRPO 계열 업데이트로 정책을 갱신, “과신 + 엔트로피 폭증 + 오답”이 동시에 일어나는 궤적을 억제.

발견

발견의미
Confidence-alignment 단독만으로도 ECE가 유의하게 개선자기평가 정보가 RL 보상으로 유효
Entropy-spike 단독은 정확도 영향은 적지만 안정성↑미시적 신호는 robustness를 담당
두 신호 결합 시 정확도·calibration 동시 최고치거시·미시 신호가 상호 보완적
TruthfulQA에서 가장 큰 상대적 개선사실성·정직성 태스크에서 효과 두드러짐
GSM8K에서는 정답률 유지 + calibration 개선추론 정확도를 깎지 않고 과신만 줄임

이론적 의의

이 논문은 “faithful reasoning”이라는 질적 개념을 두 개의 정량적 내부 지표로 환원한 점에서 이론적 가치가 있다. 특히 alignment 신호는 모델의 self-report를 일종의 “2nd-order 확률”로 취급하고, 이것이 1st-order 예측 확률과 정합해야 한다는 meta-calibration 원칙을 RL 보상으로 구현한 첫 시도들 중 하나로 읽힌다. Entropy spike는 정보이론적 관점에서 CoT가 local phase transition을 겪는 지점을 표시하며, 이는 추론 안정성을 동역학적 양으로 다룰 이론적 여지를 제공한다.

재현성 및 신뢰도 평가

항목평가근거
Evidence QualityB여러 벤치마크와 ablation이 있으나 수치 표가 제한적이고 외부 재검증 아직 없음
ReproducibilityCRL 하이퍼파라미터, judge 모델 선택, spike 임계값 등 민감 변수가 많고 공식 코드 공개 여부 불명확
Statistical rigorB-ablation은 있으나 시드별 분산/신뢰구간 보고 부족
Scope of modelsC+Llama-3 8B 중심, 대형 모델로의 일반화 미검증

관련 연구

  • DoLA (Decoding by Contrasting Layers): 계층 간 분포 차이로 hallucination 감쇄.
  • Self-Consistency / Self-Refine: 다중 샘플/자기 비판으로 정답 안정화.
  • MC-dropout, Deep Ensembles: 예측 불확실성 추정.
  • RLHF/RLAIF 및 calibration-tuning 계열: 인간 피드백/자기평가로 과신 교정.
  • ProcessRM / PRM800K류 process reward: 추론 단계별 감독을 통한 정합성 향상.

원자적 인사이트

  1. “확신의 일관성”은 보상 함수로 이식 가능하다: 자기 진술 확신과 외부 판정 확률의 차이를 단순 스칼라로 환산해 RL에 주입하는 것만으로 calibration이 측정 가능하게 개선된다. 이는 “솔직함”을 학습 가능한 양으로 재정의한다.
  2. 엔트로피 궤적의 국소 이상 탐지는 저비용 내성 센서다: 모델을 다시 돌리거나 별도 판별기를 학습하지 않고도, 생성 중 이미 계산되는 logits만으로 “사고가 삐끗하는 순간”을 표시할 수 있다.
  3. 거시(self-report)와 미시(token entropy) 신호는 직교적: 각각 단독보다 결합이 우월하다는 ablation은, 정합성이 단일 척도가 아니라 다중 스케일에서 정의돼야 함을 시사한다.

핵심 용어 정리

  • Faithfulness (충실성): 모델이 제시한 추론 사슬이 실제 내부 상태/지식과 일치하는 정도.
  • Confidence alignment: 모델이 진술한 확신과 외부/판정 모델이 평가한 정답 확률 사이의 정합도.
  • Token-level entropy spike: 생성 중 특정 토큰 부근에서 엔트로피가 국소 평균을 크게 벗어나는 현상, 불안정한 reasoning의 표지자.
  • Composite reward: 여러 신호(task 정확도 + alignment + stability)를 가중합해 만든 RL 보상.
  • Self-correcting reasoning: 모델이 생성 중 자기 불확실성을 탐지하고 교정하도록 학습된 추론 방식.
  • Calibration / ECE: 예측 확률과 실제 정답률의 일치 정도를 측정하는 지표.

태그

LLM hallucination faithfulness self-consistency calibration RLHF reasoning uncertainty theory arxiv-2511-15921