Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness?
Digest (CISELQ)
- Context: 대규모 언어 모델(LLM)이 사실 여부를 직접 묻는 질문에는 틀린 답을 내놓으면서도, 내부 은닉 표현(hidden representation)에 선형 프로브(linear probe)를 적용하면 올바른 진리값을 추정할 수 있다는 보고가 축적되어 왔다. 이 ‘출력 vs 내부 표현’ 불일치는 종종 모델이 “거짓말한다(lying)“는 강한 해석으로 이어진다.
- Issue: 그러나 이러한 불일치가 실제로 기만(deception) 때문인지, 혹은 단순한 출력 확률 보정(calibration) 문제, 입력별 이질성(heterogeneity), confabulation(거짓 확신) 등 다른 기제로 설명 가능한지는 구분되지 않았다. 강한 해석을 바로 받아들이면 안전성 담론이 왜곡될 위험이 있다.
- Solution: 저자들은 직접 질의(query) 기반 정답률과 내부 표현 프로브의 정답률을 여러 truthfulness 벤치마크에서 비교하고, 불일치 사례를 (1) confabulation, (2) deception, (3) heterogeneity의 세 범주로 분해하는 분석 프레임워크를 제안한다.
- Evaluation: TruthfulQA 등 사실성 데이터셋에서 확신도(calibration), 부분집합별 정답 구조, 질의-프로브 앙상블 성능을 측정하여 각 범주가 관찰되는 불일치에 얼마나 기여하는지 정량화한다.
- Limitation: 분석은 주로 오픈소스 LLM과 선형 프로브에 한정되어 있으며, ‘기만’에 대한 조작적 정의가 완전히 인과적(causal)이지는 않다. 또한 데이터셋 의존적인 결론일 가능성이 있다.
- Questions: 내부 표현이 ‘진실’을 인코딩한다는 주장을 얼마나 믿을 수 있는가? 프로브의 우위는 본질적인 지식 차이인가, 단순 보정 차이인가? 기만과 confabulation을 어떻게 원리적으로 구별할 것인가?
섹션별 요약
Introduction
기존 해석가능성 연구(Burns et al. 2022, Azaria & Mitchell 2023 등)는 내부 표현 프로브가 직접 질의보다 truthfulness 판정에서 더 정확하다고 보고하고, 이를 모델이 “알면서도 다르게 말한다”는 기만 가설의 근거로 제시했다. 본 논문은 이 해석이 지나치게 강하다고 지적하며, 불일치의 여러 원인을 구분하는 엄밀한 분석을 제안한다.
Methods
- 데이터셋: 사실성 QA(TruthfulQA 계열), 일반 지식 QA 등.
- 비교 대상: (a) LM의 직접 출력 확률 기반 예측, (b) 동일 LM의 중간 은닉 상태에 학습된 선형 프로브 예측.
- 분석 축:
- Calibration: 확률이 정답률에 얼마나 잘 맞는가.
- Subset-level agreement: 어떤 입력 부분집합에서 프로브/질의가 각각 강점을 보이는가.
- Ensemble: 두 신호를 결합했을 때의 성능 상한.
- 불일치 분류 기준:
- Confabulation: 모델이 내부적으로 불확실한데도 자신 있게 잘못된 출력을 생성.
- Deception: 내부 표현은 정답에 정렬되어 있지만 출력은 체계적으로 다른 답으로 편향.
- Heterogeneity: 질의와 프로브가 서로 다른 입력 영역에서 우세한 상보적 구조.
Results
| 관찰 | 내용 |
|---|---|
| 프로브 > 직접 질의 | 여러 truthfulness 과제에서 프로브의 정답률이 체계적으로 높음 |
| 보정 차이 | 프로브 우위의 상당 부분은 uncertain 샘플에서의 calibration 개선으로 설명 |
| 고확신 구간 | 직접 질의가 고확신(high-confidence) 출력에서는 프로브와 대등하거나 우세 |
| 앙상블 이득 | 질의+프로브 결합 시 양쪽 단독보다 정확도 상승 → 정보가 상보적 |
| 기만 사례 | 전체 불일치 중 ‘순수 deception’로 해석 가능한 비율은 제한적 |
Discussion
불일치의 대부분은 ‘모델이 진실을 알면서 숨긴다’는 서사보다는, 출력 분포의 보정 실패와 질의-프로브의 상보적 강점으로 설명된다. 따라서 프로브 기반 ‘lie detector’ 주장을 그대로 안전성 개입에 사용하는 것은 위험하며, confabulation·deception·heterogeneity를 구분해 다루는 방법론이 필요하다.
Insights
- 프로브의 우위는 지식 차이가 아니라 표현 공간에서의 선형 분리 가능성과 보정 이점에 기인할 수 있다.
- ‘내부 진실’이라는 개념 자체가 모델 내부에서 단일한 표상이 아닐 수 있다.
- 출력과 표현의 앙상블은 단기적으로 실용적인 truthfulness 향상 수단이다.
Discussion Points
- Deception을 확정하려면 인과적 개입(activation patching 등)이 필요.
- 프로브가 학습 분포 편향을 흡수했을 가능성.
- 다른 모달·다국어 LLM으로의 일반화 여부.
메타데이터
| 항목 | 값 |
|---|---|
| 제목 | Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness? |
| 저자 | Kevin Liu, Stephen Casper, Dylan Hadfield-Menell, Jacob Andreas |
| 소속 | MIT CSAIL |
| 발표 | EMNLP 2024 (arXiv 2023-11) |
| 분야 | Interpretability / Truthfulness / LLM Safety |
| 키워드 | probing, truthfulness, calibration, deception, confabulation |
왜 이 연구를 하는가?
LLM의 안전성 평가에서 “모델이 진실을 내부적으로는 알면서도 거짓을 말한다”는 주장은 강한 규범적 파급력을 갖는다. 이 주장은 interpretability 기반 lie detector, RLHF 개입, 정렬 평가 등 정책적 의사결정에 직접 영향을 미친다. 그러나 이 주장의 근거가 된 ‘프로브가 출력보다 정확하다’는 관찰은 여러 대안 가설(보정 차이, 데이터 부분집합별 상보성, confabulation)과 혼재되어 있다. 저자들은 이 혼재를 풀어내어, 어떤 종류의 불일치가 실제 기만에 해당하고 어떤 것이 아닌지를 구분함으로써 해석가능성 연구의 해석 체계를 재정비하려 한다.
방법 (Method)
flowchart TD A[입력 질문 x] --> B[LLM forward pass] B --> C[은닉 표현 h_l] B --> D[출력 분포 p_LM] C --> E[선형 프로브 p_probe] D --> F[Query 예측 y_Q] E --> G[Probe 예측 y_P] F --> H{y_Q == y_P ?} G --> H H -->|같음| I[일치 사례: 정답률 측정] H -->|다름| J[불일치 분해] J --> K[Confabulation: 고확신 오답 vs 프로브 정답] J --> L[Deception: 프로브 정답 & 출력 체계적 편향] J --> M[Heterogeneity: 입력 부분집합별 우세 역전] I --> N[Calibration 분석] K --> N L --> N M --> N N --> O[앙상블 p_ens = f p_LM p_probe] O --> P[결론: 불일치의 원천 정량화]
발견
| 발견 | 설명 | 함의 |
|---|---|---|
| 프로브 체계적 우위 | 여러 truthfulness 과제에서 internal probe > direct query | 단순 ‘지식 부족’으로는 설명 안 됨 |
| Calibration 기여 | 프로브 이득의 상당 부분은 불확실 샘플의 확률 재배분 | ’lie’보다 보정 문제에 가까움 |
| Heterogeneity 존재 | 질의가 우세한 입력군과 프로브가 우세한 입력군이 서로 다름 | 두 신호는 상보적 |
| Ensemble 이득 | 두 신호 결합 시 정확도 상승 | 단일 신호로 truthfulness 판정 위험 |
| 순수 Deception 비율 제한 | 세 범주 중 deception만으로 설명되는 사례는 소수 | 기만 해석 과잉 경계 |
이론적 의의
- Interpretability 문헌의 ‘lie detection’ 서사를 세분화(taxonomize) 하여, 향후 연구가 confabulation/deception/heterogeneity 중 어느 것을 대상으로 하는지 명시해야 함을 강조.
- Truthfulness 평가에서 출력 공간 vs 표현 공간을 동일 평면에서 비교할 때 보정(calibration)을 통제하는 것이 필수임을 보인다.
- LLM 안전성에서 ‘내부 진실’ 개념의 형이상학적 비대함을 견제하는 절제된 해석 원칙(principled interpretability) 을 제시.
재현성 및 신뢰도 평가
| 항목 | 평가 | 근거 |
|---|---|---|
| 코드 공개 | Yes | 저자 GitHub 제공 |
| 데이터 접근성 | High | 공개 truthfulness 벤치마크 사용 |
| 모델 접근성 | Medium | 주로 오픈소스 LLM, 일부 API 제약 가능 |
| 실험 규모 | Medium | 여러 모델·데이터셋이나 폭보다 깊이 중심 |
| 인과적 증거 | Partial | 관찰/상관 중심, 개입 실험은 제한적 |
| Evidence Quality | B | 명료한 분해 분석 + 일부 인과성 부족 |
| Reproducibility | B | 코드·데이터 공개, 랜덤성/하이퍼 민감도 재현 여지 존재 |
관련 연구
- Burns et al. (2022) Discovering Latent Knowledge in Language Models Without Supervision — CCS 프로브.
- Azaria & Mitchell (2023) The Internal State of an LLM Knows When It’s Lying — 본 논문이 재해석하는 핵심 대상.
- Li et al. (2023) Inference-Time Intervention — 표현 공간 개입.
- Park et al. (2023) AI Deception — 기만 정의·분류.
- Kadavath et al. (2022) Language Models (Mostly) Know What They Know — 자기 확신 보정.
원자적 인사이트
- 프로브 우위의 상당 부분은 ‘지식’이 아니라 ‘보정’이다. 직접 질의는 고확신 구간에선 프로브와 대등하지만, 불확실 구간에서 확률을 잘 재배분하지 못한다. 이는 lie detector 서사의 핵심 근거를 약화시킨다.
- ‘출력 vs 내부 표현’ 불일치는 단일 현상이 아니라 최소 3종의 혼합이다. Confabulation(자신 있게 틀림), Deception(알면서 다르게 말함), Heterogeneity(서로 다른 영역에서 각자 잘함)는 서로 다른 개입 전략을 요구한다.
- 질의·프로브 앙상블은 공짜 점심에 가깝다. 두 신호가 상보적이라는 사실은 단일 신호에만 의존하는 안전성 평가가 체계적으로 편향될 수 있음을 시사한다.
- ‘모델의 진실’은 단일한 내부 상태가 아닐 수 있다. 프로브가 뽑아내는 신호는 표현 공간의 특정 선형 방향일 뿐, 모델의 ‘믿음’ 전체를 대표한다고 가정하기 어렵다.
핵심 용어 정리
- Linear Probe: 모델 은닉 상태 위에 학습되는 선형 분류기. 표현에 인코딩된 정보를 진단.
- Truthfulness: 모델 출력이 세계의 사실과 일치하는 정도. TruthfulQA 등에서 측정.
- Calibration: 예측 확률이 실제 정답률과 일치하는 정도.
- Confabulation: 모델이 근거 없이 자신 있게 잘못된 답을 생성하는 현상.
- Deception: 모델이 내부적으로 정답을 표상하면서도 체계적으로 다른 답을 출력하는 현상.
- Heterogeneity: 입력 부분집합별로 서로 다른 평가 방법(출력 vs 프로브)이 우세한 상보적 구조.
- Ensemble: 서로 다른 예측기를 결합해 성능을 향상시키는 기법.
태그
theory LLM interpretability truthfulness probing calibration deception safety EMNLP2024