Belief in the Machine - Investigating Epistemological Blind Spots of Language Models

Digest (CISELQ)

Context: 의료·법률·저널리즘처럼 사실(fact)·믿음(belief)·지식(knowledge)을 엄밀히 구분해야 하는 고위험 도메인에 LLM이 확산되고 있으나, 기존 평가는 Theory of Mind 같은 복합 과제에 치우쳐 있어 LLM의 인식론적(epistemological) 기본기가 충분히 검증되지 못했다.

Issue: LLM이 “p가 참이다”, “S가 p라고 믿는다”, “S가 p를 안다”라는 세 가지 서로 다른 인식 상태(epistemic state)를 올바르게 구분하고, 특히 화자의 잘못된 믿음(false belief)을 인정하면서도 factivity(지식=참)를 유지할 수 있는가?

Solution: 13개 세부 과제, 13,000문항으로 구성된 KaBLE (Knowledge and Belief Evaluation) 벤치마크를 설계해 GPT-4, Claude-3, Llama-3 등 프런티어 모델을 체계적으로 평가.

Evidence: 사실 시나리오에서는 평균 ~86% 정확도를 보이지만 false 시나리오에서 크게 하락하고, 1인칭 믿음(54.4%) vs 3인칭 믿음(80.7%) 사이에 큰 비대칭이 존재. Knowledge factivity 과제에서도 모델은 거짓 명제에 대한 “안다”는 귀속을 수용하는 오류가 빈번.

Lesson / Limitation: LLM은 참·거짓 판별에는 비교적 강하지만 주관적 믿음 상태의 귀속, 특히 자기 자신의 1인칭 믿음 모사에 취약하다. 표면적 언어 패턴에 의존해 인식론적 구조를 처리한다는 증거.

Question (Future): 1인칭 믿음 표현을 다루기 위한 별도 정렬(alignment) 스킴, factivity를 보장하는 디코딩/프롬프트 구조, ToM과 epistemology를 통합한 차세대 벤치마크가 필요.

섹션별 요약

Introduction

의료, 법률, 저널리즘처럼 주체의 믿음과 지식을 조심스럽게 구분해야 하는 환경에서 LLM의 활용이 급격히 늘고 있음을 문제의식으로 제시.
기존 LLM 평가(ToM, 팩트체킹)는 “믿음”과 “지식”의 철학적 구분(factivity, 주관성)을 포괄하지 못한다고 지적.
본 연구는 epistemology의 고전적 구분 — (a) proposition이 참인지, (b) 주체가 그것을 믿는지, (c) 그 믿음이 지식으로 승격되는지 — 을 LLM이 구조적으로 처리하는지 실증.

Methods

KaBLE 벤치마크: 13개 과제(Task) × 약 1,000문항 = 13,000문항.
과제는 크게 네 범주로 묶임.
1. Fact verification (참/거짓 판별)
2. Personal belief attribution (1인칭/3인칭, true/false belief)
3. Knowledge attribution (factivity 검증: “S knows p” ↔ p is true)
4. Recursive/nested belief (믿음의 믿음, 거짓 전제 하 reasoning)
각 시나리오는 참 버전과 거짓 버전을 페어로 구성, 모델의 응답 일관성과 편향을 비교.
평가 모델: GPT-4, Claude-3, Llama-3 계열 포함 프런티어 LLM들.
Prompt 포맷은 자연어 QA + chain-of-thought 옵션.

Results (요약 표)

과제 범주	주요 관찰	대표 정확도
Factual scenario QA	거의 모든 모델 강함	~86%
False scenario QA	일관된 성능 저하, 특히 belief에서 심각	크게 하락
3인칭 belief attribution	비교적 안정	80.7%
1인칭 belief attribution	현저한 하락, 자기 믿음 표현 취약	54.4%
Knowledge factivity	”know p” 수용 시 p가 거짓이어도 통과하는 오류 빈발	혼동 다수
Recursive belief/ToM-lite	표면 패턴 의존, 깊은 추론 부족	중간 이하

Discussion

Fact vs. belief 과제 사이의 성능 격차는 LLM이 “참인 진술”에 대한 편향(truth bias)을 가진다는 방증.
1인칭/3인칭 비대칭은 모델이 주관적·시점적 언어를 시뮬레이션하는 데 구조적으로 취약함을 시사. (예: “나는 p라고 믿는다”를 화자 주관으로 처리하지 못하고 p의 진리치로 환원.)
Knowledge의 factivity 위반은 LLM이 “knows”를 “believes strongly”처럼 근사한다는 가설과 부합.
이러한 블라인드 스팟은 의료/법률 영역에서 환자·의뢰인의 잘못된 믿음을 검증·수용·교정하는 과정에 치명적.

Insights

인식론적 평가를 ToM과 분리해 기초 요소부터 검증해야 한다.
“Truth-seeking” 정렬이 “belief-respecting” 정렬을 훼손할 수 있다.
LLM의 surface reasoning은 인식 상태(epistemic state)와 진리치(truth value)를 원칙적으로 분리하지 못한다.

Discussion Points

1인칭 믿음의 약점은 자아(self-model)의 부재인가, 훈련 데이터 편향인가?
Factivity 위반은 프롬프트/디코딩으로 해결 가능한가, 아니면 아키텍처 수준의 한계인가?
ToM-벤치마크(BigToM, ExploreToM 등)와의 상관/차이는?

메타데이터

항목	값
저자	Mirac Suzgun, Tayfun Gur, Federico Bianchi, Daniel E. Ho, Thomas Icard, Dan Jurafsky, James Zou
소속	Stanford University (주저자·다수 공저자)
공개	arXiv 2024-10
코드/데이터	KaBLE 벤치마크
모델	GPT-4, Claude-3, Llama-3 계열 등
문항 수	13,000 (13 tasks)

왜 이 연구를 하는가?

LLM이 의료 상담, 법률 조언, 저널리즘 팩트체크 등 인식론적 분별이 필수적인 영역에 투입되고 있다. 이 영역에서 실패의 비용은 단순 오답이 아니라, 환자의 거짓 믿음을 사실로 취급하거나 반대로 부인하여 라포를 깨뜨리는 사회적 피해로 이어진다. 그러나 기존 평가는 대부분 팩트 QA(지식성)와 ToM(타인 마음 추론)에 초점을 맞춰, “p는 거짓이지만 S는 p를 믿는다”처럼 진리치와 믿음 상태를 동시에 다루는 능력을 체계적으로 평가하지 못했다. 본 논문은 철학적 인식론의 기초 구분(참/거짓, 믿음, 지식의 factivity, 시점)을 LLM 평가에 맞게 조작화하여 벤치마크로 만든 최초의 대규모 시도 중 하나다.

방법 (Method)

flowchart TD
    A[철학적 epistemology 구분] --> B[Task 설계]
    B --> B1[Fact verification]
    B --> B2[Belief attribution<br>1인칭/3인칭]
    B --> B3[Knowledge factivity]
    B --> B4[Recursive/False-premise]
    B1 --> C[각 과제 약 1K 문항<br>True/False paired]
    B2 --> C
    B3 --> C
    B4 --> C
    C --> D[13 Tasks x 13K Items<br>KaBLE]
    D --> E[LLM 평가<br>GPT-4 / Claude-3 / Llama-3]
    E --> F[정확도·일관성·시점 편향 분석]
    F --> G[5대 인식론적 블라인드 스팟 도출]

핵심 설계 원칙은 (1) 각 시나리오를 참/거짓 페어로 구성해 truth-bias를 분리, (2) 1인칭/3인칭 시점을 교차해 자기 믿음 표상 능력을 분리 측정, (3) “knows”와 “believes” 동사를 통제해 factivity 위반을 직접 관찰하는 것이다.

발견 (Findings)

블라인드 스팟	증거	함의
1. Fact-False 격차	사실 시나리오 86% vs 거짓 시나리오 급락	모델은 참인 내용에 유리하게 편향
2. 1인칭 믿음 취약	1인칭 54.4% vs 3인칭 80.7%	화자 주관 시뮬레이션 실패
3. Factivity 혼동	p가 거짓인데 “S knows p” 수용	knowledge ≠ justified true belief로 근사
4. Recursive belief 저하	중첩 믿음에서 surface 패턴 의존	깊은 인식적 추론 부족
5. Linguistic shortcut	cue words에 의존	LLM 추론의 표면성

이론적 의의

인식론(epistemology)을 NLP 평가에 정식 도입: 진리치와 믿음 상태의 독립을 정량 측정하는 프레임.
LLM의 “자아” 문제에 대한 경험적 증거: 1인칭 열세는 self-model의 구조적 결핍과 맞닿아 있음.
정렬 연구와의 접점: RLHF가 장려하는 “truthfulness”가 “belief respect”와 충돌할 수 있음을 시사.
ToM·metacognition·self-consciousness 연구의 하위 기초 레이어를 제공.

재현성 및 신뢰도 평가

항목	평가	근거
데이터 공개	B	KaBLE 13K 문항, 공개 프로토콜 기반
코드 공개	B	arXiv 초판 기준 저장소 공개 여부 확인 필요
모델 접근	B	API 기반(GPT-4, Claude-3), Llama-3는 open-weight
통계 엄밀성	B	대규모 N=13K이나 per-task 신뢰구간 세부 확인 필요
외적 타당성	B	영어·서구 맥락 중심, 문화적 일반화는 제한
종합 Evidence-Quality	B	설계 명료, 다만 모델 버전 민감성 존재

원자적 인사이트 (Zettelkasten)

Truth-bias는 belief-modeling과 충돌한다. LLM이 “p는 참”에 편향될수록 “S가 거짓 p를 믿는다”는 상태를 정확히 귀속하기 어려워진다. 즉, 정렬의 축이 단일 진리 기준으로 수렴하면 주관성 처리는 오히려 나빠질 수 있다. 믿음 존중과 사실성 유지가 이중 목적임을 설계 제약으로 명시해야 한다.
1인칭 열세는 self-model의 결여를 시사한다. 3인칭 80.7% vs 1인칭 54.4%라는 격차는 모델이 “나”라는 발화자의 주관 상태를 텍스트적 시점 변환 이상의 내적 표상으로 다루지 않음을 보여준다. 이는 SC-ToM 및 metacognition 연구에서 1인칭 프로토콜을 별도 훈련 신호로 삽입해야 할 근거가 된다.
“Knows”의 factivity 위반은 지식의 정의를 LLM이 내재화하지 못했음을 의미. 모델이 false p에 대해 “S knows p”를 수용한다면, 내부적으로 knows≈believes-strongly로 대체하고 있을 가능성이 높다. 어휘 수준에서의 의미 정합성을 강화하는 사전훈련/정렬 신호 설계 여지가 있다.

핵심 용어 정리

Epistemology (인식론): 지식·믿음·정당화를 다루는 철학 분과.
Factivity: “S knows p” 성립 시 p는 반드시 참이어야 한다는 지식 동사의 성질.
Belief Attribution: 주체 S에게 명제 p에 대한 믿음을 귀속시키는 행위.
First-person vs Third-person perspective: “나는 p라고 믿는다” vs “그는 p라고 믿는다”의 시점 구분.
KaBLE: Knowledge and Belief Evaluation 벤치마크, 13 tasks × 13K items.
Truth-bias: LLM이 참인 명제를 선호·수용하는 체계적 편향.
Epistemic State: 주체의 인식 상태(믿음/지식/의심 등).

Juhyeon's Blog

탐색기