Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness?

Digest (CISELQ)

  • Context: 대규모 언어 모델(LLM)이 사실 여부를 직접 묻는 질문에는 틀린 답을 내놓으면서도, 내부 은닉 표현(hidden representation)에 선형 프로브(linear probe)를 적용하면 올바른 진리값을 추정할 수 있다는 보고가 축적되어 왔다. 이 ‘출력 vs 내부 표현’ 불일치는 종종 모델이 “거짓말한다(lying)“는 강한 해석으로 이어진다.
  • Issue: 그러나 이러한 불일치가 실제로 기만(deception) 때문인지, 혹은 단순한 출력 확률 보정(calibration) 문제, 입력별 이질성(heterogeneity), confabulation(거짓 확신) 등 다른 기제로 설명 가능한지는 구분되지 않았다. 강한 해석을 바로 받아들이면 안전성 담론이 왜곡될 위험이 있다.
  • Solution: 저자들은 직접 질의(query) 기반 정답률과 내부 표현 프로브의 정답률을 여러 truthfulness 벤치마크에서 비교하고, 불일치 사례를 (1) confabulation, (2) deception, (3) heterogeneity의 세 범주로 분해하는 분석 프레임워크를 제안한다.
  • Evaluation: TruthfulQA 등 사실성 데이터셋에서 확신도(calibration), 부분집합별 정답 구조, 질의-프로브 앙상블 성능을 측정하여 각 범주가 관찰되는 불일치에 얼마나 기여하는지 정량화한다.
  • Limitation: 분석은 주로 오픈소스 LLM과 선형 프로브에 한정되어 있으며, ‘기만’에 대한 조작적 정의가 완전히 인과적(causal)이지는 않다. 또한 데이터셋 의존적인 결론일 가능성이 있다.
  • Questions: 내부 표현이 ‘진실’을 인코딩한다는 주장을 얼마나 믿을 수 있는가? 프로브의 우위는 본질적인 지식 차이인가, 단순 보정 차이인가? 기만과 confabulation을 어떻게 원리적으로 구별할 것인가?

섹션별 요약

Introduction

기존 해석가능성 연구(Burns et al. 2022, Azaria & Mitchell 2023 등)는 내부 표현 프로브가 직접 질의보다 truthfulness 판정에서 더 정확하다고 보고하고, 이를 모델이 “알면서도 다르게 말한다”는 기만 가설의 근거로 제시했다. 본 논문은 이 해석이 지나치게 강하다고 지적하며, 불일치의 여러 원인을 구분하는 엄밀한 분석을 제안한다.

Methods

  • 데이터셋: 사실성 QA(TruthfulQA 계열), 일반 지식 QA 등.
  • 비교 대상: (a) LM의 직접 출력 확률 기반 예측, (b) 동일 LM의 중간 은닉 상태에 학습된 선형 프로브 예측.
  • 분석 축:
    1. Calibration: 확률이 정답률에 얼마나 잘 맞는가.
    2. Subset-level agreement: 어떤 입력 부분집합에서 프로브/질의가 각각 강점을 보이는가.
    3. Ensemble: 두 신호를 결합했을 때의 성능 상한.
  • 불일치 분류 기준:
    • Confabulation: 모델이 내부적으로 불확실한데도 자신 있게 잘못된 출력을 생성.
    • Deception: 내부 표현은 정답에 정렬되어 있지만 출력은 체계적으로 다른 답으로 편향.
    • Heterogeneity: 질의와 프로브가 서로 다른 입력 영역에서 우세한 상보적 구조.

Results

관찰내용
프로브 > 직접 질의여러 truthfulness 과제에서 프로브의 정답률이 체계적으로 높음
보정 차이프로브 우위의 상당 부분은 uncertain 샘플에서의 calibration 개선으로 설명
고확신 구간직접 질의가 고확신(high-confidence) 출력에서는 프로브와 대등하거나 우세
앙상블 이득질의+프로브 결합 시 양쪽 단독보다 정확도 상승 → 정보가 상보적
기만 사례전체 불일치 중 ‘순수 deception’로 해석 가능한 비율은 제한적

Discussion

불일치의 대부분은 ‘모델이 진실을 알면서 숨긴다’는 서사보다는, 출력 분포의 보정 실패와 질의-프로브의 상보적 강점으로 설명된다. 따라서 프로브 기반 ‘lie detector’ 주장을 그대로 안전성 개입에 사용하는 것은 위험하며, confabulation·deception·heterogeneity를 구분해 다루는 방법론이 필요하다.

Insights

  • 프로브의 우위는 지식 차이가 아니라 표현 공간에서의 선형 분리 가능성과 보정 이점에 기인할 수 있다.
  • ‘내부 진실’이라는 개념 자체가 모델 내부에서 단일한 표상이 아닐 수 있다.
  • 출력과 표현의 앙상블은 단기적으로 실용적인 truthfulness 향상 수단이다.

Discussion Points

  • Deception을 확정하려면 인과적 개입(activation patching 등)이 필요.
  • 프로브가 학습 분포 편향을 흡수했을 가능성.
  • 다른 모달·다국어 LLM으로의 일반화 여부.

메타데이터

항목
제목Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness?
저자Kevin Liu, Stephen Casper, Dylan Hadfield-Menell, Jacob Andreas
소속MIT CSAIL
발표EMNLP 2024 (arXiv 2023-11)
분야Interpretability / Truthfulness / LLM Safety
키워드probing, truthfulness, calibration, deception, confabulation

왜 이 연구를 하는가?

LLM의 안전성 평가에서 “모델이 진실을 내부적으로는 알면서도 거짓을 말한다”는 주장은 강한 규범적 파급력을 갖는다. 이 주장은 interpretability 기반 lie detector, RLHF 개입, 정렬 평가 등 정책적 의사결정에 직접 영향을 미친다. 그러나 이 주장의 근거가 된 ‘프로브가 출력보다 정확하다’는 관찰은 여러 대안 가설(보정 차이, 데이터 부분집합별 상보성, confabulation)과 혼재되어 있다. 저자들은 이 혼재를 풀어내어, 어떤 종류의 불일치가 실제 기만에 해당하고 어떤 것이 아닌지를 구분함으로써 해석가능성 연구의 해석 체계를 재정비하려 한다.

방법 (Method)

flowchart TD
    A[입력 질문 x] --> B[LLM forward pass]
    B --> C[은닉 표현 h_l]
    B --> D[출력 분포 p_LM]
    C --> E[선형 프로브 p_probe]
    D --> F[Query 예측 y_Q]
    E --> G[Probe 예측 y_P]
    F --> H{y_Q == y_P ?}
    G --> H
    H -->|같음| I[일치 사례: 정답률 측정]
    H -->|다름| J[불일치 분해]
    J --> K[Confabulation: 고확신 오답 vs 프로브 정답]
    J --> L[Deception: 프로브 정답 & 출력 체계적 편향]
    J --> M[Heterogeneity: 입력 부분집합별 우세 역전]
    I --> N[Calibration 분석]
    K --> N
    L --> N
    M --> N
    N --> O[앙상블 p_ens = f p_LM p_probe]
    O --> P[결론: 불일치의 원천 정량화]

발견

발견설명함의
프로브 체계적 우위여러 truthfulness 과제에서 internal probe > direct query단순 ‘지식 부족’으로는 설명 안 됨
Calibration 기여프로브 이득의 상당 부분은 불확실 샘플의 확률 재배분’lie’보다 보정 문제에 가까움
Heterogeneity 존재질의가 우세한 입력군과 프로브가 우세한 입력군이 서로 다름두 신호는 상보적
Ensemble 이득두 신호 결합 시 정확도 상승단일 신호로 truthfulness 판정 위험
순수 Deception 비율 제한세 범주 중 deception만으로 설명되는 사례는 소수기만 해석 과잉 경계

이론적 의의

  • Interpretability 문헌의 ‘lie detection’ 서사를 세분화(taxonomize) 하여, 향후 연구가 confabulation/deception/heterogeneity 중 어느 것을 대상으로 하는지 명시해야 함을 강조.
  • Truthfulness 평가에서 출력 공간 vs 표현 공간을 동일 평면에서 비교할 때 보정(calibration)을 통제하는 것이 필수임을 보인다.
  • LLM 안전성에서 ‘내부 진실’ 개념의 형이상학적 비대함을 견제하는 절제된 해석 원칙(principled interpretability) 을 제시.

재현성 및 신뢰도 평가

항목평가근거
코드 공개Yes저자 GitHub 제공
데이터 접근성High공개 truthfulness 벤치마크 사용
모델 접근성Medium주로 오픈소스 LLM, 일부 API 제약 가능
실험 규모Medium여러 모델·데이터셋이나 폭보다 깊이 중심
인과적 증거Partial관찰/상관 중심, 개입 실험은 제한적
Evidence QualityB명료한 분해 분석 + 일부 인과성 부족
ReproducibilityB코드·데이터 공개, 랜덤성/하이퍼 민감도 재현 여지 존재

관련 연구

  • Burns et al. (2022) Discovering Latent Knowledge in Language Models Without Supervision — CCS 프로브.
  • Azaria & Mitchell (2023) The Internal State of an LLM Knows When It’s Lying — 본 논문이 재해석하는 핵심 대상.
  • Li et al. (2023) Inference-Time Intervention — 표현 공간 개입.
  • Park et al. (2023) AI Deception — 기만 정의·분류.
  • Kadavath et al. (2022) Language Models (Mostly) Know What They Know — 자기 확신 보정.

원자적 인사이트

  1. 프로브 우위의 상당 부분은 ‘지식’이 아니라 ‘보정’이다. 직접 질의는 고확신 구간에선 프로브와 대등하지만, 불확실 구간에서 확률을 잘 재배분하지 못한다. 이는 lie detector 서사의 핵심 근거를 약화시킨다.
  2. ‘출력 vs 내부 표현’ 불일치는 단일 현상이 아니라 최소 3종의 혼합이다. Confabulation(자신 있게 틀림), Deception(알면서 다르게 말함), Heterogeneity(서로 다른 영역에서 각자 잘함)는 서로 다른 개입 전략을 요구한다.
  3. 질의·프로브 앙상블은 공짜 점심에 가깝다. 두 신호가 상보적이라는 사실은 단일 신호에만 의존하는 안전성 평가가 체계적으로 편향될 수 있음을 시사한다.
  4. ‘모델의 진실’은 단일한 내부 상태가 아닐 수 있다. 프로브가 뽑아내는 신호는 표현 공간의 특정 선형 방향일 뿐, 모델의 ‘믿음’ 전체를 대표한다고 가정하기 어렵다.

핵심 용어 정리

  • Linear Probe: 모델 은닉 상태 위에 학습되는 선형 분류기. 표현에 인코딩된 정보를 진단.
  • Truthfulness: 모델 출력이 세계의 사실과 일치하는 정도. TruthfulQA 등에서 측정.
  • Calibration: 예측 확률이 실제 정답률과 일치하는 정도.
  • Confabulation: 모델이 근거 없이 자신 있게 잘못된 답을 생성하는 현상.
  • Deception: 모델이 내부적으로 정답을 표상하면서도 체계적으로 다른 답을 출력하는 현상.
  • Heterogeneity: 입력 부분집합별로 서로 다른 평가 방법(출력 vs 프로브)이 우세한 상보적 구조.
  • Ensemble: 서로 다른 예측기를 결합해 성능을 향상시키는 기법.

태그

theory LLM interpretability truthfulness probing calibration deception safety EMNLP2024