이 서베이는 **Chain-of-Thought(CoT)가 LLM의 진정한 추론을 반영하는가?**라는 질문을 중심으로, CoT 충실도(faithfulness), 내부 표상(activation) 분석, 추론 메커니즘, 잠재 추론(latent reasoning) 연구를 정리한다. 시작점은 Reasoning Theater (2026)로, 모델이 이미 답을 확정한 후 “연극적 추론”을 수행한다는 발견이다.
연구 타임라인
timeline
title CoT Faithfulness 연구 타임라인
2023 : Lanham et al. (Anthropic)
: CoT 충실도 측정의 선구적 방법론
: Turpin et al. (NeurIPS)
: 편향 주입으로 CoT 불충실성 증명
2024 : Pfau et al.
: 필러 토큰의 숨겨진 계산 발견
: Snell et al. (Google DeepMind)
: Test-time compute 최적 분배
: Hao et al. (Meta FAIR, ICLR 2025)
: COCONUT 잠재 공간 추론
2025 : Chen et al. (Anthropic)
: 추론 모델의 CoT 충실도 25-39%
: Arcuschin et al. (DeepMind)
: 자연 환경에서도 CoT 불충실
2026 : Boppana et al.
: Reasoning Theater - 연극적 추론 발견
주제별 클러스터
graph TB
subgraph "🔴 CoT Faithfulness / Unfaithfulness"
A["[[Measuring Faithfulness in Chain-of-Thought Reasoning|Lanham et al. 2023]]<br/>개입 실험으로 충실도 측정"]
B["[[Language Models Don't Always Say What They Think - Unfaithful Explanations in CoT|Turpin et al. 2023]]<br/>편향 주입 → 체계적 불충실성"]
C["[[Reasoning Models Don't Always Say What They Think|Chen et al. 2025]]<br/>추론 모델에서도 충실도 25-39%"]
D["[[Chain-of-Thought Reasoning In The Wild Is Not Always Faithful|Arcuschin et al. 2025]]<br/>자연 환경 IPHR 최대 13.49%"]
end
subgraph "🟡 Activation-Level Analysis"
E["[[Reasoning Theater - Disentangling Model Beliefs from Chain-of-Thought|Reasoning Theater 2026]]<br/>Attention Probe로 CoT 전 답 확정 관찰"]
end
subgraph "🟢 CoT 메커니즘 분석"
F["[[Let's Think Dot by Dot - Hidden Computation in Transformers|Pfau et al. 2024]]<br/>필러 토큰도 계산적 이점 제공"]
G["[[Scaling LLM Test-Time Compute Optimally|Snell et al. 2024]]<br/>난이도별 최적 test-time compute"]
end
subgraph "🔵 잠재 추론 (Latent Reasoning)"
H["[[COCONUT - Training LLMs to Reason in Continuous Latent Space|COCONUT 2024]]<br/>언어 없이 잠재 공간에서 추론"]
end
A -->|"방법론 확장"| B
B -->|"추론 모델로 확장"| C
B -->|"자연 환경으로 확장"| D
A -->|"내부 프로빙 확장"| E
A -->|"필러 토큰 이론화"| F
E -->|"조기 종료 → 최적 분배"| G
F -->|"극한 확장: 토큰 제거"| H
E -->|"내부 추론 직접 활용"| H
C -->|"RL 훈련 영향"| E