The Geometry of Truth: Emergent Linear Structure in LLM Representations of True and False Statements

Digest (CISELQ)

Context: LLM이 내부적으로 사실(참/거짓) 진릿값을 어떤 방식으로 표상하는지에 대한 해석가능성 연구는 여전히 모호했다. 이전 프로빙 연구는 일반화 실패와 개념적 혼동(예: “Discovering Latent Knowledge” 비판)으로 회의론에 직면해 있었다.
Issue: 프로빙 방향이 진짜 ‘진실성(truth)’ 개념을 포착하는지, 아니면 표면적 상관만 학습하는지 불분명하다. 또한 probe 방향이 모델 행동에 인과적으로 관여하는지 검증이 부족하다.
Solution: 단순한 참/거짓 선언문으로 구성된 고품질 데이터셋을 구축하고, LLaMA-13B 잔차 스트림(residual stream)에 선형 probe를 훈련하여 기하 구조를 시각화·인과 개입으로 검증한다.
Evidence: PCA 시각화에서 참/거짓이 선형 분리 가능한 구조로 나타나며, 한 도메인에서 훈련된 difference-in-means probe가 다른 도메인으로도 전이된다. 인과 개입(probe 방향 벡터를 표현에 더함)으로 모델 출력의 진실성 판단이 flip된다.
Limitations: 모델이 단순 영문 선언문에 한정되며, “진실성” 개념이 모델의 ‘믿음’인지 ‘단순 통계 규칙’인지 여전히 철학적으로 모호하다. 개입 효과의 일반성도 제한적이다.
Questions: 다국어·복합 명제·모순적 문장에서도 동일한 선형성이 성립하는가? 진실성 방향이 hallucination 완화·정렬(alignment) 파이프라인에 어떻게 쓰일 수 있는가?

섹션별 요약

Introduction

저자들은 LLM이 참/거짓을 내부적으로 어떻게 다루는지에 대한 해석가능성 난제를 제기한다. 선행 연구(CCS, Discovering Latent Knowledge)의 일반화 실패와 개념적 혼동을 지적하고, 고품질 사실 데이터셋 + 기하학적 시각화 + 인과 개입이라는 세 축으로 “truth direction”의 존재를 엄밀히 검증하고자 한다.

Methods

6개 도메인(cities, sp_en_trans, neg_cities, neg_sp_en_trans, larger_than, smaller_than)으로 단순 선언문 데이터셋 구축.
LLaMA-13B 각 층의 residual stream을 추출.
다섯 가지 프로빙 기법 비교: Logistic Regression, Mass Mean (Difference-in-Means), TPC, CCS, LR-MMP.
인과 개입: truth direction을 잔차 스트림에 $+ α d$ 형태로 더해 모델이 거짓을 참으로(또는 반대) 처리하도록 유도.

Results

PCA 2D 플롯에서 참/거짓이 선명한 선형 초평면으로 분리된다. 도메인 간 전이에서 difference-in-means가 가장 안정적이며, 인과 개입 시 모델 출력(다음 토큰 로짓)이 의도한 진실값 쪽으로 일관되게 이동한다.

Probe	In-domain Acc.	Transfer Acc.	Causal Effect
Logistic Regression	높음	중간(오버핏)	중간
Mass Mean (diff-in-means)	높음	가장 안정	강함
CCS	중간	낮음/불안정	약함
LR-MMP	높음	중간	중간

Discussion

단순 선형 방향이 복잡한 비선형 프로브보다 더 잘 일반화한다는 결과는 “truth가 실제로 선형 특징으로 창발했다”는 해석을 뒷받침한다. 인과 개입 성공은 상관이 아닌 기능적 관여를 시사한다.

Insights

선형 표현 가설(Linear Representation Hypothesis)의 구체적 사례.
프로브 품질 판단 기준으로 전이성과 인과성을 함께 요구해야 함.
alignment·hallucination 탐지에 활용 가능한 “정직성 방향” 후보를 제공.

Discussion Points

부정문(neg_*)에서의 truth direction은 동일 방향인가 반전되는가?
모델 스케일에 따른 선형성 강도 변화.
‘Truth’ 개념이 단순한 확률적 plausibility와 분리 가능한가?

메타데이터

항목	값
Authors	Samuel Marks, Max Tegmark
Venue	COLM 2024
Year	2023 (v1), 2024 (final)
Model	LLaMA-13B (주), Pythia 시리즈 보조
Code	github.com/saprmarks/geometry-of-truth
Category	Theory / Interpretability

왜 이 연구를 하는가?

LLM 안전성과 정렬 연구에서 모델이 스스로 아는 사실과 출력 사이의 괴리(hallucination, sycophancy)를 측정·제어하려면 “모델이 무엇을 참이라 여기는가”를 내부 표현에서 읽어낼 필요가 있다. 그러나 기존 probe 방법은 (a) 데이터셋별로 일반화 실패, (b) 상관이 아닌 인과성 검증 부재라는 한계를 가진다. 저자들은 이 두 문제를 직접 공략한다.

방법 (Method)

flowchart LR
    A[단순 참/거짓 선언문 데이터셋 6종] --> B[LLaMA-13B residual stream 추출]
    B --> C{프로빙}
    C --> D[Logistic Regression]
    C --> E[Mass Mean / Diff-in-Means]
    C --> F[CCS / TPC / LR-MMP]
    D --> G[도메인 간 전이 평가]
    E --> G
    F --> G
    E --> H[Truth Direction d]
    H --> I[잔차 스트림 개입 h + α·d]
    I --> J[출력 진실성 flip 여부 측정]
    G --> K[기하 구조 PCA 시각화]
    J --> K

발견 (Findings)

발견	내용
F1	참/거짓은 중·후반 층 residual stream에서 선형 분리 가능한 초평면을 형성한다.
F2	Difference-in-means는 단순함에도 도메인 간 전이가 가장 안정적이다.
F3	선형 probe 방향을 표현에 주입하면 모델 출력이 인과적으로 flip 된다.
F4	부정문 데이터에서도 동일 방향이 작동, ‘truth’ 개념이 구조적 부정(semantic negation)과 분리됨을 시사.
F5	CCS 계열 비지도 probe는 전이·인과 모두에서 상대적으로 약하다.

이론적 의의

선형 표현 가설의 실증 근거: 의미론적 개념(truth)이 고차원 표현 공간의 단일 선형 방향으로 창발한다.
해석가능성 평가 기준 재정의: probe 정확도만이 아니라 generalization + causal sufficiency가 함께 요구됨을 제시.
Alignment 공학으로의 교량: 정직성(honesty) 벡터 조작을 통해 출력 진실성 제어 가능성을 연다.

재현성 및 신뢰도 평가

항목	평가	근거
코드 공개	A	공식 GitHub 저장소 제공
데이터 공개	A	6개 데이터셋 CSV 공개
실험 규모	B	단일 모델(LLaMA-13B) 중심, 보조적 Pythia
통계 검증	B	여러 층·도메인 평균 제시하나 일부 신뢰구간 부족
외부 타당성	C	단순 영문 선언문에 한정, 복합 명제·다국어 미검증
종합 Evidence-Quality	B	인과 개입은 강력하나 범위 한정
Reproducibility	B	코드·데이터 공개, 단 대규모 컴퓨트 필요

원자적 인사이트

단순함이 이긴다: 복잡한 비선형 probe보다 difference-in-means 같은 단순 선형 방향이 도메인 전이와 인과 개입 모두에서 더 강건하다. 이는 개념이 실제로 선형적으로 표현되어 있을 때 오히려 단순 추정량이 bias가 작기 때문이다.
Probe의 타당성은 상관이 아니라 인과로 판정해야 한다: 높은 분류 정확도를 내는 probe라도 forward pass 개입 시 출력이 바뀌지 않으면 그 방향은 truth의 상관적 부산물일 수 있다. 인과 개입 검증은 해석가능성 연구의 필수 단계다.
부정과 진실성의 분리: neg_* 데이터셋에서도 동일 truth direction이 작동한다는 사실은 모델이 문법적 부정과 사실적 진실성을 별개 축으로 인코딩함을 암시한다.

핵심 용어 정리

Residual Stream: Transformer 각 층에서 덧셈으로 누적되는 내부 상태 벡터. probe의 입력.
Difference-in-Means Probe: 참 예시 평균과 거짓 예시 평균의 차 벡터를 분류 방향으로 사용하는 단순 선형 probe.
Causal Intervention: 표현에 특정 방향 벡터를 더하거나 빼서 모델 동작 변화를 관찰하는 기법.
Linear Representation Hypothesis: 의미 개념이 신경망 표현 공간의 선형 부분공간으로 인코딩된다는 가설.
CCS (Contrast-Consistent Search): 쌍(긍정/부정) 간 일관성을 목적함수로 하는 비지도 probe.
Transfer (Generalization): 한 데이터셋에서 학습한 probe가 다른 도메인에서도 유지되는 성능.

Juhyeon's Blog

탐색기

The Geometry of Truth - Emergent Linear Structure in LLM Representations of True and False Statements