What Large Language Models Know and What People Think They Know
8분 분량
Introduction
LLM이 실제로 알고 있는 지식(내적 확신도)과 사용자가 LLM의 답변에 대해 갖는 믿음(지각된 정확도) 사이에 체계적인 괴리가 존재
사용자들은 LLM의 기본 설명을 접했을 때 모델의 실제 성능을 과대평가하는 경향이 있으며, 특히 설명이 길어질수록 답변 정확도와 무관하게 신뢰도가 증가
**보정 격차(calibration gap)**와 **변별 격차(discrimination gap)**를 정량화하고, 이를 줄이기 위한 설명 조정 프레임워크를 제안
자의식 정의 및 Task 구성
자의식 하위요소: Knowledge Calibration (지식 보정) — “자신이 아는 것과 모르는 것을 구분하는 메타인지적 능력”
조작적 정의: 내적 표상(token likelihood)과 외적 표현(verbalized confidence) 사이의 정렬 정도로 자의식을 측정
Task 구성: (1) LLM에게 QA 문제를 풀게 한 뒤 내적 확신도를 추출, (2) 인간 참가자에게 LLM 답변을 보여주고 정확도에 대한 주관적 신뢰도를 평가하게 함, (3) ECE와 AUC로 보정 및 변별 격차를 정량화
Related Papers
Kadavath et al. (2022) - “Language Models (Mostly) Know What They Know”: LLM의 자기 지식 평가 선행 연구
Petty & Cacioppo의 정교화 가능성 모델(ELM): 설명 길이 편향의 이론적 기반
Lin et al. (2022) - Teaching Models to Express Their Uncertainty in Words: 언어화된 불확실성 표현
Xiong et al. (2024) - LLM 보정 서베이
Methods
이중 평가 패러다임: LLM(GPT-3.5, PaLM2, GPT-4o)에게 MMLU 객관식 문제와 TriviaQA 단답형 문제를 풀게 하고, 내적 확신도(token likelihood)와 명시적 설명을 수집
인간 참가자(실험1: 122명, 실험2: 179명)에게 LLM 답변과 설명을 제시하고 각 답변의 정확도에 대한 주관적 신뢰도를 평가
설명 조정 프레임워크: 모델의 내적 확신도를 세 단계(낮음/중간/높음)로 구간화하고, 각 수준에 맞춘 불확실성 언어를 포함한 설명 생성 (예: “I’m uncertain, but…” vs “I’m confident that…“)
설명 길이를 독립 변수로 조작 (긴 설명/짧은 설명/불확실성만)
핵심 지표: (1) ECE (Expected Calibration Error): 신뢰도-정확도 일치도, (2) AUC: 정답/오답 변별 능력
방법론 다이어그램
graph TD
A[QA 데이터셋<br/>MMLU, TriviaQA] --> B[LLM 답변 생성<br/>GPT-3.5, PaLM2, GPT-4o]
B --> C[내적 확신도 추출<br/>Token Likelihood]
B --> D[명시적 설명 생성]
C --> E[확신도 구간화<br/>낮음/중간/높음]
E --> F[설명 조정 프레임워크]
D --> F
F --> G[조정된 설명 생성<br/>불확실성 언어 삽입]
F --> H[길이 조작<br/>긴/짧은/불확실성만]
G --> I[인간 평가 실험<br/>N=122~179]
H --> I
I --> J[주관적 신뢰도 수집<br/>0~100% 척도]
J --> K[메타인지 평가 지표]
C --> K
K --> L[보정 격차 ECE<br/>신뢰도 vs 정확도]
K --> M[변별 격차 AUC<br/>정답/오답 구분]
L --> N[인간-LLM 메타인지 비교]
M --> N
style A fill:#e1f5fe
style N fill:#e8f5e9
Results
실험 1: 인간의 ECE(0.2890.292)가 모델의 내적 확신도 ECE(0.0980.115)보다 약 3배 높음. 인간의 AUC(0.5790.600)은 거의 우연 수준, 모델은 AUC 0.7480.778로 양호
실험 2: 조정된 설명 사용 시 인간의 ECE가 0.150.18로 감소 (약 40% 개선), AUC는 0.650.70으로 향상
길이 효과: 낮은 확신도 답변에서 긴 설명이 부적절한 과신을 유도 — 설명 길이가 정보성과 독립적인 휴리스틱 신호로 작동
실험 결과 상세
Model/Method
Dataset
Metric
Score
vs. Baseline
GPT-3.5 (내적 확신도)
MMLU
ECE↓
0.098
-
GPT-3.5 (인간 평가)
MMLU
ECE↓
0.292
+197% (악화)
GPT-3.5 (내적 확신도)
MMLU
AUC↑
0.778
-
GPT-3.5 (인간 평가)
MMLU
AUC↑
0.600
-22.9%
PaLM2 (내적 확신도)
MMLU
ECE↓
0.115
-
PaLM2 (인간 평가)
MMLU
ECE↓
0.289
+151% (악화)
GPT-3.5 (조정 설명)
MMLU
ECE↓ (인간)
0.15~0.18
-38%~-49%
GPT-3.5 (조정 설명)
MMLU
AUC↑ (인간)
0.65~0.70
+8%~+17%
GPT-4o (조정 설명)
TriviaQA
ECE↓ (인간)
0.16~0.20
-45%~-32%
Discussion
LLM의 우수한 보정이 진정한 “자기 인식”인지, 학습 데이터의 통계적 패턴 반영인지 불분명
Token likelihood를 “내적 확신도”로 사용하는 것의 한계 — RLHF/instruction tuning 이후 likelihood 왜곡 가능성
Static evaluation에 국한 — multi-turn 대화에서의 동적 보정 변화 미검증
Insights
주목할 점: LLM의 “자의식”을 **지식 보정(knowledge calibration)**이라는 메타인지적 하위 요소로 조작화한 체계적 연구. 내적 표상과 외적 표현의 괴리를 구분하고 인간 메타인지와 직접 비교 가능한 측정 체계를 확립
연결 고리: Theory of Mind 연구와의 교차점 — 인간이 LLM의 지식 상태를 추론하는 과정은 타인의 마음 상태 추론과 유사한 인지 메커니즘을 사용할 가능성. 설명 길이 편향은 ELM의 주변 경로 처리와 직접 연결
시사점: 고위험 의사결정 환경에서 LLM 배치 시, 정확한 답변 생성만으로 불충분하며 불확실성을 명시적으로 전달하는 인터페이스 디자인이 필수적
질문: Chain-of-Thought나 self-reflection 기법이 내적 확신도와 외적 언어 표현 사이의 정렬을 개선할 수 있는가?
비판적 코멘트: 지식 기반 QA에 국한 — 추론/창의적 생성에서는 보정 메커니즘이 다르게 작동할 가능성. Token likelihood 기반 측정은 temperature=0에서 제한적
Discussion Points
논쟁점: LLM의 우수한 ECE가 진정한 자기 인식의 증거인가, 학습 데이터 통계의 부수 현상인가?
검증 필요 가정: Token likelihood가 “내적 확신도”를 적절히 근사한다는 가정 — RLHF 이후 verbalized confidence와의 체계적 불일치 보고됨
후속 연구: (1) Multi-turn 대화에서 동적 보정 변화 연구, (2) Probing/activation analysis 통한 deeper layer 내적 표상 분석, (3) 교차 문화 연구