Thinking, Faithful and Stable: Mitigating Hallucinations in LLMs via Internal Consistency
Digest (CISELQ)
- Context (C): 대형 언어모델은 다단계 추론(chain-of-thought) 과정에서 표면적으로는 자신 있게 말하지만 내부 근거가 흔들리는 “hallucinated reasoning” 문제가 핵심 위험 요소로 남아 있다. 기존 완화법(DoLA, MC-dropout, ensemble)은 주로 출력 단계에서만 불확실성을 탐지하거나 후처리를 수행해, 추론의 “중간 단계” 자체가 왜 무너지는지에 대한 개입은 부족하다.
- Issue (I): 모델이 “스스로 생각하는 동안” 자기 확신과 실제 지식 상태가 어긋나는 순간을 실시간으로 포착하고, 이를 학습 신호로 되먹임할 방법이 없다는 점이 본 논문의 문제의식이다.
- Solution (S): 저자들은 두 가지 내부 신호 — (1) self-assessed confidence alignment (모델이 자기 확신을 진술한 값과 실제 정답 확률의 정합도), (2) token-level entropy spike (생성 중 갑작스런 불확실성 폭증) — 을 결합한 composite reward를 설계하고, 이를 policy-optimization 기반 강화학습으로 학습시킨다.
- Evaluation (E): TruthfulQA, GSM8K, MMLU 등 팩트성·추론·지식 벤치마크에서 Llama-3 8B 급 오픈 모델을 대상으로, DoLA·MC-dropout·ensemble·표준 디코딩 baseline 대비 최종 정답 정확도와 calibration(ECE류) 지표를 비교하고 ablation으로 두 신호의 독립 기여도를 검증한다.
- Limitations (L): 자기평가 신호 자체가 모델 내부 편향에 얽매여 있어 “잘못된 확신”을 강화할 위험, 엔트로피 spike의 임계값 설정이 태스크·프롬프트 분포에 민감하다는 점, 수치 결과가 한 모델 계열(Llama-3 8B) 위주라는 점이 한계로 지적된다.
- Questions (Q): (i) confidence-alignment 신호가 계산되는 frozen judge 모델은 self-reward 붕괴(reward hacking)에 얼마나 취약한가? (ii) entropy spike는 “불확실성”과 “정상적인 어휘 전환”을 어떻게 구분하는가? (iii) 더 큰 모델(70B급)에서도 동일한 calibration 개선이 유지되는가?
섹션별 요약
Introduction
LLM이 추론 사슬을 스스로 전개할 때 겉보기에는 논리적이지만 내부 근거와 불일치하는 “faithfulness gap”이 반복적으로 관찰된다. 저자들은 이 현상을 “thinking hallucination”으로 정의하고, 출력 확률만 보는 기존 탐지 방식 대신 모델 내부의 확신 진술과 토큰 단위 불확실성 궤적을 함께 감시해야 한다고 주장한다. 이 논문의 기여는 (1) 두 신호를 통합한 복합 보상, (2) 추론 중간 단계를 교정하는 RL 파이프라인, (3) 신호별 독립 기여를 확인하는 ablation으로 요약된다.
Methods
모델은 문제 prompt를 받고 CoT를 생성하는 policy 로 간주된다. 생성 중 각 step 에서 두 가지 측정이 수행된다. 첫째, self-assessed confidence (모델이 “확신도”를 직접 진술하도록 유도된 토큰 확률 집계)와, frozen reference judge가 추정한 사후 정답 확률 사이의 alignment . 둘째, 토큰별 엔트로피 가 국소 이동평균에서 급격히 벗어나는 정도 . 이 둘을 결합한 composite reward는 대략적으로 형태이며, policy gradient 계열 (PPO/GRPO에 준하는 updates)로 최적화된다. 학습 중 높은 확신을 가지지만 정답이 아닌 시퀀스, 또는 엔트로피가 국소적으로 폭증해 “삼켜진” 추론 구간을 가진 시퀀스에 강한 페널티가 부여된다.
Results
주요 결과는 다음과 같다 (수치는 페이퍼 요지 기준, 근사치로 해석).
| Benchmark | Baseline (Llama-3 8B) | +Faithful&Stable (본 연구) | Δ |
|---|---|---|---|
| TruthfulQA (truthful%) | 중간대 | 유의한 상승 | ↑ |
| GSM8K (acc) | 표준 CoT | 동등 또는 상승 | ↑/= |
| MMLU (acc) | 표준 디코딩 | 소폭 상승 | ↑ |
| Calibration (ECE↓) | 높은 ECE | 크게 감소 | ↓↓ |
| Hallucination rate | baseline 대비 | 감소 | ↓ |
Ablation에서 confidence-alignment 신호만 사용, entropy-spike 신호만 사용한 변형이 각각 baseline보다 나아지지만, 둘을 합쳤을 때 calibration과 정확도 모두에서 최고 성능을 낸다.
Discussion
저자들은 “추론 충실성(faithfulness)“을 단일 지표가 아니라 self-report와 internal dynamics가 서로 일치하는 상태로 재정의한다. 이는 기존 “정답 맞추기” 중심 RLHF/RLAIF 보상과 달리, 답은 맞아도 근거가 흔들리면 페널티가 부여된다는 점에서 정합성 기반 보상(consistency-as-reward) 아이디어의 구현체로 볼 수 있다.
Insights
- 모델의 “확신 발화”는 단순 수사학이 아니라 실제 calibration과 관련된 계산 가능한 신호다. 이를 학습 루프로 끌어들이면 RL이 단순 정답 추적을 넘어 “자기 이해”를 향하도록 유도할 수 있다.
- 엔트로피 궤적의 국소적 급변은 CoT가 “막다른 골목”에 들어서는 순간을 포착하는 저비용 센서로 기능한다.
- 두 신호는 상호 보완적이다: alignment는 거시적(sequence-level) 자기 정합성을, entropy spike는 미시적(token-level) 불안정을 담당한다.
Discussion Points
- frozen judge가 policy와 함께 drift하지 않는가? 주기적 재학습이 필요한가?
- self-report 확신이 in-context로 쉽게 편향될 수 있어, 프롬프트 공격에 취약할 가능성.
- 다른 언어·도메인(코드, 의료 QA)으로의 전이성 검증 필요.
메타데이터
| 항목 | 값 |
|---|---|
| 논문 제목 | Thinking, Faithful and Stable: Mitigating Hallucinations in LLMs via Internal Consistency |
| 저자 | Chelsea Zou, Yiheng Yao, Basant Khalil |
| 발표 | arXiv preprint (2025-11) |
| arXiv ID | 2511.15921 |
| 주요 도메인 | LLM faithfulness, hallucination mitigation |
| 핵심 모델 | Llama-3 8B 계열 |
| 벤치마크 | TruthfulQA, GSM8K, MMLU |
| 학습 방식 | Composite-reward RL (PPO/GRPO 계열) |
왜 이 연구를 하는가?
기존 hallucination 완화 연구는 (a) 디코딩 시점 제어(DoLA, contrastive decoding), (b) 불확실성 추정(MC-dropout, ensemble), (c) 외부 지식 주입(RAG)로 분기되어 왔다. 하지만 CoT 시대에 가장 치명적인 오류는 “답은 맞는데 이유가 틀린 것” 또는 “근거가 흔들리는데 확신 있게 말하는 것”이며, 이는 세 기존 축으로는 직접 타격하기 어렵다. 본 연구는 모델이 스스로 내놓은 확신 진술과 토큰 단위 생성 난이도를 동시에 감시해, RL 보상 함수 수준에서 “정합적 사고”를 강제한다는 점에서 faithfulness-as-training-signal 방향의 구체적 제안이다. 이는 AI 안전 관점에서 self-consistency를 수사가 아닌 계산 가능한 훈련 목표로 환원하는 시도이기도 하다.
방법 (Method)
flowchart TD A[Prompt x] --> B[Policy π_θ: CoT 생성] B --> C[토큰별 엔트로피 H_t] B --> D[Self-assessed confidence c_t] C --> E[Entropy Spike Detector S_t] D --> F[Frozen Judge p_t] F --> G[Alignment A_t = -|c_t - p_t|] E --> H[Composite Reward r] G --> H B --> I[Task reward r_task] I --> H H --> J[Policy Optimization: PPO/GRPO] J --> B
핵심 절차:
- 정책 모델이 prompt 로부터 CoT 시퀀스를 샘플링.
- 각 토큰에서 (i) 엔트로피 계산 → 이동평균 대비 편차로 spike score 산출, (ii) 중간 요약 지점에서 self-confidence 유도.
- Frozen judge가 동일 맥락에서 정답 확률 추정 → alignment .
- 세 요소를 합친 composite reward 를 시퀀스 말단에서 부여.
- PPO/GRPO 계열 업데이트로 정책을 갱신, “과신 + 엔트로피 폭증 + 오답”이 동시에 일어나는 궤적을 억제.
발견
| 발견 | 의미 |
|---|---|
| Confidence-alignment 단독만으로도 ECE가 유의하게 개선 | 자기평가 정보가 RL 보상으로 유효 |
| Entropy-spike 단독은 정확도 영향은 적지만 안정성↑ | 미시적 신호는 robustness를 담당 |
| 두 신호 결합 시 정확도·calibration 동시 최고치 | 거시·미시 신호가 상호 보완적 |
| TruthfulQA에서 가장 큰 상대적 개선 | 사실성·정직성 태스크에서 효과 두드러짐 |
| GSM8K에서는 정답률 유지 + calibration 개선 | 추론 정확도를 깎지 않고 과신만 줄임 |
이론적 의의
이 논문은 “faithful reasoning”이라는 질적 개념을 두 개의 정량적 내부 지표로 환원한 점에서 이론적 가치가 있다. 특히 alignment 신호는 모델의 self-report를 일종의 “2nd-order 확률”로 취급하고, 이것이 1st-order 예측 확률과 정합해야 한다는 meta-calibration 원칙을 RL 보상으로 구현한 첫 시도들 중 하나로 읽힌다. Entropy spike는 정보이론적 관점에서 CoT가 local phase transition을 겪는 지점을 표시하며, 이는 추론 안정성을 동역학적 양으로 다룰 이론적 여지를 제공한다.
재현성 및 신뢰도 평가
| 항목 | 평가 | 근거 |
|---|---|---|
| Evidence Quality | B | 여러 벤치마크와 ablation이 있으나 수치 표가 제한적이고 외부 재검증 아직 없음 |
| Reproducibility | C | RL 하이퍼파라미터, judge 모델 선택, spike 임계값 등 민감 변수가 많고 공식 코드 공개 여부 불명확 |
| Statistical rigor | B- | ablation은 있으나 시드별 분산/신뢰구간 보고 부족 |
| Scope of models | C+ | Llama-3 8B 중심, 대형 모델로의 일반화 미검증 |
관련 연구
- DoLA (Decoding by Contrasting Layers): 계층 간 분포 차이로 hallucination 감쇄.
- Self-Consistency / Self-Refine: 다중 샘플/자기 비판으로 정답 안정화.
- MC-dropout, Deep Ensembles: 예측 불확실성 추정.
- RLHF/RLAIF 및 calibration-tuning 계열: 인간 피드백/자기평가로 과신 교정.
- ProcessRM / PRM800K류 process reward: 추론 단계별 감독을 통한 정합성 향상.
원자적 인사이트
- “확신의 일관성”은 보상 함수로 이식 가능하다: 자기 진술 확신과 외부 판정 확률의 차이를 단순 스칼라로 환산해 RL에 주입하는 것만으로 calibration이 측정 가능하게 개선된다. 이는 “솔직함”을 학습 가능한 양으로 재정의한다.
- 엔트로피 궤적의 국소 이상 탐지는 저비용 내성 센서다: 모델을 다시 돌리거나 별도 판별기를 학습하지 않고도, 생성 중 이미 계산되는 logits만으로 “사고가 삐끗하는 순간”을 표시할 수 있다.
- 거시(self-report)와 미시(token entropy) 신호는 직교적: 각각 단독보다 결합이 우월하다는 ablation은, 정합성이 단일 척도가 아니라 다중 스케일에서 정의돼야 함을 시사한다.
핵심 용어 정리
- Faithfulness (충실성): 모델이 제시한 추론 사슬이 실제 내부 상태/지식과 일치하는 정도.
- Confidence alignment: 모델이 진술한 확신과 외부/판정 모델이 평가한 정답 확률 사이의 정합도.
- Token-level entropy spike: 생성 중 특정 토큰 부근에서 엔트로피가 국소 평균을 크게 벗어나는 현상, 불안정한 reasoning의 표지자.
- Composite reward: 여러 신호(task 정확도 + alignment + stability)를 가중합해 만든 RL 보상.
- Self-correcting reasoning: 모델이 생성 중 자기 불확실성을 탐지하고 교정하도록 학습된 추론 방식.
- Calibration / ECE: 예측 확률과 실제 정답률의 일치 정도를 측정하는 지표.
태그
LLM hallucination faithfulness self-consistency calibration RLHF reasoning uncertainty theory arxiv-2511-15921