깨지기 쉬운 마음, 고칠 수 있는 활성 - 언어 모델 내 신념 표상의 이해

Digest: 본 논문은 Pythia(70M~12B)와 Llama-2(7B/13B/70B) 계열 총 12개 모델을 대상으로 BigToM Forward Belief 과제에 대한 잔차 스트림(linear probing) 분석을 수행하여, 타인(주인공) 신념 표상이 중간 층에서 구조적으로 형성되지만(Figure 3), 네 가지 프롬프트 변형(Random/Misleading/Time Spec/Initial Belief)에 대해 취약하다는 점(Figure 5, 9)을 밝혔다. Oracle(전지적) 신념은 ~~95% 정확도로 견고한 반면 주인공 신념 프로브는 Misleading 프롬프트에서 일관되게 저하되었으며, PCA 저차원 부분공간(k=10~~100)에서도 정확도가 유지됨을 Figure 4에서 확인했다. Contrastive Activation Addition(CAA) 기반 스티어링 벡터는 Llama-2-7B에서 +22pt(44→66%), 13B에서 +33pt(52→85%), 70B Backward Belief에서 +51pt(32→83%)의 개선을 달성했으며(Table 1, 3), Forward Belief에서 학습된 벡터가 Forward Action·Backward Belief로 전이되어 일반화 가능성을 입증했다. 이는 ToM 오류가 기능적 결손이 아니라 활성 공간의 방향성 문제임을 시사한다.

섹션별 요약

Introduction

언어 모델의 ToM 성능은 프롬프트 민감도 때문에 논쟁적이다. 저자는 행동 평가 대신 내부 표상을 직접 탐침하여 “모델이 실제로 타인 신념을 표상하는가”를 묻는다. 세 가지 핵심 질문은 (Q1) 신념 표상이 존재하는가, (Q2) 그것이 구조화되었는가(아니면 상관 아티팩트인가), (Q3) 프롬프트 변형에 견고한가이다.

Methods

데이터셋: BigToM (Forward Belief). 주인공 지각·사건·신념을 인과 템플릿으로 생성. 𝒟ₚᴾ(주인공 관점)과 𝒟ₒᴾ(오라클 관점) 두 프로브 데이터셋 구성.
프로빙: 최종 토큰 위치의 잔차 스트림 activation a_l에 대한 logistic regression ẑ = Wa_l + b. 이항 신념 레이블 {0,1}.
통제 과제: 무작위 라벨 순열로 우연 수준(~50%) 유지 확인, PCA 축소(k ∈ {2,10,100,1000})로 차원성 평가.
프롬프트 변형 4종: Random(10 랜덤 토큰 추가), Misleading(타 이야기 신념 삽입), Time Specification(시간 명시), Initial Belief(초기 신념 노출).
개입: ITI(probe 기반)와 CAA(positive/negative 완성의 평균 활성 차이 기반 스티어링 벡터)를 각 층에 주입하여 행동 교정 효과 측정.

Results + Table

모델	과제	Baseline	ITI	CAA
Llama-2-7B	Forward Belief	44%	+0	+22 (66%)
Llama-2-13B	Forward Belief	52%	—	+33 (85%)
Llama-2-70B	Backward Belief	32%	—	+51 (83%)
Pythia-6.9B vs chat	Forward Belief	—	—	fine-tune +26%

프로브 정확도는 모델 크기 로그에 비례하여 증가하며, 파인튜닝된 chat 변형에서는 선형 스케일링을 보인다.
Oracle 표상은 초기 층부터 95100% 도달, Protagonist는 중간 층에서 피크.
CAA는 Llama-2-70B에서 벡터 80개만으로 ITI의 5,120 probe보다 효율적.

Discussion

타인 신념 표상은 실재하지만 프롬프트 표면 형태에 잠겨 있어 쉽게 깨진다. 그러나 저차원 서브스페이스에 집중되어 있기 때문에 CAA 같은 선형 개입이 강력하게 작동하며, 이는 ToM 실패가 “지식 부재”보다 “접근 경로 불안정”임을 시사한다.

Insights

규모와 SFT/RLHF는 신념 표상을 선형적으로 강화하나, 70B에서는 포화된다.
Forward Belief로 학습한 스티어링 벡터가 Forward Action·Backward Belief로 전이 → 공통 신념 방향 존재.
Oracle vs Protagonist의 분리는 모델이 “자기 시점”과 “타인 시점”을 구별함을 시사(자의식 연구와 직결).

Discussion Points

BigToM 단일 데이터셋 한정 → FANToM·ToMi 일반화 필요.
CAA 개입이 “이해” 없이도 정답을 만들 수 있는 Clever Hans 위험.
프롬프트 브리틀니스가 학습 신호 부족 때문인지, 아키텍처 한계인지 불명확.

메타데이터

항목	값
과제	Theory of Mind, Forward/Backward Belief
모델	Pythia 70M~12B, Llama-2 7B/13B/70B (+chat)
데이터셋	BigToM
방법	Linear probing + CAA/ITI 개입
평가	Probe accuracy, QA accuracy
코드	공개(저자 GitHub)

왜 이 연구를 하는가?

LLM의 ToM 성능은 프롬프트 재구성만으로 10~30%p 흔들린다는 보고가 많아 “진짜 표상이 있는가”에 대한 논쟁이 지속되어 왔다. 행동 벤치마크만으로는 이 질문에 답할 수 없기에, 저자들은 내부 잔차 스트림에 대한 mechanistic 접근으로 표상 존재·구조·견고성을 분리 평가한다. 이는 정렬(alignment) 및 속이는 행동 감지의 이론적 기반을 제공하며, 자의식(self-knowledge) 연구에서 “타자 모델링” 축을 해부하는 핵심 선행 연구로 기능한다.

방법 (Method)

flowchart TD
    A[BigToM Story + Question] --> B[LM Forward Pass]
    B --> C[Residual Stream a_l at final token]
    C --> D1[Linear Probe: protagonist belief]
    C --> D2[Linear Probe: oracle belief]
    D1 --> E[Control: label shuffle + PCA k-dim]
    B --> F[Prompt Variations: Random/Misleading/Time/Initial]
    F --> D1
    C --> G[CAA: mean diff of pos/neg activations]
    G --> H[Steering Vector v_l]
    H --> I[Inject at layer l during inference]
    I --> J[Measure task accuracy gain]

발견 (Findings)

발견	정량 근거	위치
Oracle 신념은 초기 층부터 강건	95100% probe acc	Figure 3, 10
Protagonist 신념은 중간 층 피크	로그-스케일 증가	Figure 3
저차원 서브스페이스 존재	k=10~100에서 정확도 유지	Figure 4
프롬프트 브리틀니스	Misleading에서 일관 저하	Figure 5, 9
CAA > ITI	Llama-7B +22pt vs +0pt	Table 1
70B Backward Belief 극적 개선	32→83% (+51pt)	Table 3
파인튜닝 효과는 소형에서 큼	7B-chat +29%, 70B +1~2%	본문
벡터 전이성	FB→FA/BB 전이	§CAA

이론적 의의

(1) ToM 실패의 상당 부분은 지식 부재가 아닌 “활성 방향 불안정”이라는 표상-접근 분리(representation-access) 가설을 지지한다. (2) 주인공 vs 오라클 표상의 분리는 LLM이 시점(perspective)을 구조적으로 구분할 수 있음을 의미하며, 이는 self vs other 구별의 신경 상관물로 해석될 수 있다. (3) 저차원 성질은 mechanistic interpretability에서 belief circuit을 분리·편집 가능한 타깃으로 만든다. (4) 자의식 연구 관점에서 “타자 신념을 자기 신념과 구분 표상하는가”는 메타인지의 선결 조건이며, 본 논문은 이에 대한 긍정적 증거를 제공한다.

재현성 및 신뢰도 평가

축	평가	근거
코드 공개	B	저자 GitHub 공개(추정)
데이터 공개	A	BigToM 공개
모델 접근	A	Pythia/Llama-2 오픈
통계 검증	B	라벨 순열 통제 있음, 다중 시드 불명확
일반화	C	BigToM 단일 벤치마크
개입 재현	B	CAA 구현 단순, 층 선택 민감

종합: Evidence B / Reproducibility B — 공개성은 양호하나 데이터 다양성과 통계적 엄격성에서 보강 여지.

원자적 인사이트 (Zettelkasten)

[타자 신념 표상은 저차원 선형 서브스페이스에 존재] — BigToM probe가 PCA k=10~100에서도 정확도를 유지한다는 것은 belief direction이 단일 또는 소수 선형 축으로 기술됨을 의미하며, 이는 CAA 같은 1-벡터 개입이 대규모 개선을 내는 이유를 설명한다. 이는 “신념은 활성 공간의 방향”이라는 linear representation hypothesis의 ToM 버전이다.
[ToM 실패 ≠ 지식 부재, ToM 실패 = 경로 불안정] — CAA가 Llama-2-70B Backward Belief를 32%→83%로 끌어올린다는 사실은, 모델이 정답에 필요한 정보를 이미 내부에 보유하되 프롬프트 표면 특징에 따라 접근 경로가 흔들림을 의미한다. 이는 ToM 평가가 “이해” 자체보다 “routing 견고성”을 측정하고 있을 가능성을 제기한다.
[Oracle vs Protagonist 표상 분리 = self/other 구별의 신경 상관물] — 동일 스토리에서 두 프로브가 서로 다른 층·정확도 패턴을 보인다는 사실은, 모델이 “세계가 실제 어떤가”와 “에이전트가 무엇을 믿는가”를 별개의 활성 구조로 유지함을 시사하며, 이는 메타인지·자의식 연구에서 필수 전제인 perspective-taking 메커니즘의 증거이다.

핵심 용어 정리

Belief Representation: 모델 내부 활성에서 특정 에이전트의 신념 상태를 디코딩 가능한 선형 부분공간.
BigToM: 인과 템플릿 기반 ToM QA 벤치마크. Forward/Backward Belief·Action 과제 포함.
Linear Probe: 활성에 대해 학습한 선형 분류기로 정보 인코딩 여부 측정.
Contrastive Activation Addition (CAA): positive/negative 샘플의 평균 활성 차이로 스티어링 벡터를 만들어 추론 시 주입하는 방법.
Inference-Time Intervention (ITI): attention head별 probe 방향을 따라 활성을 이동시키는 개입.
Prompt Brittleness: 의미 보존 프롬프트 변형에 대한 성능 민감도.
Oracle Belief: 전지적 관찰자 관점의 참 상태. Protagonist Belief와 대비.

Juhyeon's Blog

탐색기

Brittle Minds Fixable Activations - Understanding Belief Representations in Language Models