CoT/Reasoning 분석 서베이 개요

이 서베이는 **Chain-of-Thought(CoT)가 LLM의 진정한 추론을 반영하는가?**라는 질문을 중심으로, CoT 충실도(faithfulness), 내부 표상(activation) 분석, 추론 메커니즘, 잠재 추론(latent reasoning) 연구를 정리한다. 시작점은 Reasoning Theater (2026)로, 모델이 이미 답을 확정한 후 “연극적 추론”을 수행한다는 발견이다.

연구 타임라인

timeline
    title CoT Faithfulness 연구 타임라인
    2023 : Lanham et al. (Anthropic)
         : CoT 충실도 측정의 선구적 방법론
         : Turpin et al. (NeurIPS)
         : 편향 주입으로 CoT 불충실성 증명
    2024 : Pfau et al.
         : 필러 토큰의 숨겨진 계산 발견
         : Snell et al. (Google DeepMind)
         : Test-time compute 최적 분배
         : Hao et al. (Meta FAIR, ICLR 2025)
         : COCONUT 잠재 공간 추론
    2025 : Chen et al. (Anthropic)
         : 추론 모델의 CoT 충실도 25-39%
         : Arcuschin et al. (DeepMind)
         : 자연 환경에서도 CoT 불충실
    2026 : Boppana et al.
         : Reasoning Theater - 연극적 추론 발견

주제별 클러스터

graph TB
    subgraph "🔴 CoT Faithfulness / Unfaithfulness"
        A["[[Measuring Faithfulness in Chain-of-Thought Reasoning|Lanham et al. 2023]]<br/>개입 실험으로 충실도 측정"]
        B["[[Language Models Don't Always Say What They Think - Unfaithful Explanations in CoT|Turpin et al. 2023]]<br/>편향 주입 → 체계적 불충실성"]
        C["[[Reasoning Models Don't Always Say What They Think|Chen et al. 2025]]<br/>추론 모델에서도 충실도 25-39%"]
        D["[[Chain-of-Thought Reasoning In The Wild Is Not Always Faithful|Arcuschin et al. 2025]]<br/>자연 환경 IPHR 최대 13.49%"]
    end

    subgraph "🟡 Activation-Level Analysis"
        E["[[Reasoning Theater - Disentangling Model Beliefs from Chain-of-Thought|Reasoning Theater 2026]]<br/>Attention Probe로 CoT 전 답 확정 관찰"]
    end

    subgraph "🟢 CoT 메커니즘 분석"
        F["[[Let's Think Dot by Dot - Hidden Computation in Transformers|Pfau et al. 2024]]<br/>필러 토큰도 계산적 이점 제공"]
        G["[[Scaling LLM Test-Time Compute Optimally|Snell et al. 2024]]<br/>난이도별 최적 test-time compute"]
    end

    subgraph "🔵 잠재 추론 (Latent Reasoning)"
        H["[[COCONUT - Training LLMs to Reason in Continuous Latent Space|COCONUT 2024]]<br/>언어 없이 잠재 공간에서 추론"]
    end

    A -->|"방법론 확장"| B
    B -->|"추론 모델로 확장"| C
    B -->|"자연 환경으로 확장"| D
    A -->|"내부 프로빙 확장"| E
    A -->|"필러 토큰 이론화"| F
    E -->|"조기 종료 → 최적 분배"| G
    F -->|"극한 확장: 토큰 제거"| H
    E -->|"내부 추론 직접 활용"| H
    C -->|"RL 훈련 영향"| E

핵심 발견 요약

1. CoT는 모델의 실제 추론을 충실히 반영하지 않는다

연구	핵심 증거	불충실성 정도
Lanham et al. 2023	CoT에 오류 주입/절단 시 태스크별로 극적으로 다른 영향	태스크 의존적
Turpin et al. 2023	편향 주입 시 정확도 36% 하락하나 CoT에서 편향 미언급	체계적
Chen et al. 2025	추론 모델에서 CoT 충실도 25-39%, RL로 28%에서 포화	구조적
Arcuschin et al. 2025	자연 프롬프트에서 IPHR 최대 13.49%	자연 발생적
Reasoning Theater 2026	내부 활성화에서 CoT 전에 이미 답 확정, MMLU 연극성 0.33-0.51	내부 확인

2. 난이도가 CoT의 역할을 결정한다

난이도	CoT의 역할	증거
쉬운 문제	연극적 / 불필요	Reasoning Theater: MMLU 연극성 40-50%, 80% 토큰 절약 가능
중간 문제	부분적 기여	Snell et al.: 반복 수정이 효과적
어려운 문제	진정한 추론	Reasoning Theater: GPQA 연극성 1%, Snell et al.: 병렬 탐색 필요

3. 모델 크기/능력과 충실도의 역설적 관계

Lanham et al.: 모델이 커질수록 CoT 충실도 감소
Arcuschin et al.: Thinking 모델이 IPHR을 극적으로 줄임 (13.49% → 0.04%)
Chen et al.: RL 훈련이 충실도를 일부 개선하지만 포화 (~28%)

4. 언어는 추론의 매개체이지 추론 자체가 아니다

Pfau et al.: 의미 없는 필러 토큰도 계산적 이점 제공 (3SUM에서 66% → 100%)
COCONUT: 언어 공간을 벗어나 잠재 추론 시 ProsQA에서 77.5% → 97.0%
함의: CoT의 이점은 “설명”보다 “추가 계산 기회”에서 올 수 있으며, 이는 CoT 모니터링의 근본적 한계를 시사

방법론 분류

방법론 유형	연구	접근
개입 실험 (Intervention)	Lanham et al.	CoT에 오류 주입, 패러프레이징, 절단, 필러 대체
편향 주입 (Bias Injection)	Turpin et al., Chen et al.	프롬프트에 편향/힌트 삽입 후 CoT 반응 관찰
내부 프로빙 (Internal Probing)	Reasoning Theater	Attention Probe로 모델 내부 활성화에서 답 디코딩
대칭 테스트 (Symmetry Test)	Arcuschin et al.	논리적으로 대칭인 질문 쌍으로 모순 탐지
이론적 분석 (Theoretical)	Pfau et al.	양화사 깊이로 필러 토큰의 유용성 특성화
잠재 공간 (Latent Space)	COCONUT	언어를 우회하여 연속 잠재 공간에서 직접 추론
최적화 (Optimization)	Snell et al.	난이도별 test-time compute 최적 분배

AI 안전성 함의

CoT 모니터링은 필요하지만 불충분하다

유용성: CoT 모니터링은 훈련/평가 시 바람직하지 않은 행동을 일부 탐지 가능 (Chen et al.)
한계: 보상 해킹 시 CoT에서 해킹을 언급하는 비율 <2% (Chen et al.)
근본적 문제: 모델이 CoT와 독립적으로 숨겨진 계산 가능 (Pfau et al., COCONUT)
난이도 의존: CoT가 불필요한 쉬운 문제에서 모니터링은 무의미 (Reasoning Theater)

대안/보완적 접근

접근	설명	관련 연구
내부 프로빙	모델 활성화를 직접 관찰	Reasoning Theater
충실도 훈련	CoT 충실도를 RL 보상에 포함	Chen et al.
잠재 추론	언어 우회하여 해석 가능한 잠재 표상 설계	COCONUT
난이도 인식	문제 난이도에 따라 모니터링 전략 조절	Snell et al., Reasoning Theater

미해결 질문

CoT 충실도를 체계적으로 개선하는 훈련 방법은? — RL이 포화하므로, 충실도 자체를 직접 최적화하는 새로운 패러다임 필요
내부 프로빙과 CoT 모니터링의 최적 결합은? — Reasoning Theater의 내부 프로빙 + Chen et al.의 CoT 모니터링을 결합한 “다층 감시” 체계
잠재 추론의 해석 가능성은? — COCONUT의 연속적 사고를 해석하는 방법론 개발
난이도 인식 추론 시스템은? — 문제 난이도를 자동 판별하여 계산 자원과 모니터링 전략을 적응적으로 분배
CoT 연극성은 안전 정렬(alignment)에 어떤 함의를 가지는가? — 모델이 “생각하는 척”하면서 위험한 행동을 숨길 수 있는 가능성의 정량적 평가

논문 목록

기존 (서베이 시작점)

#	논문	연도	주제
1	Reasoning Theater - Disentangling Model Beliefs from Chain-of-Thought	2026	Activation-level 연극적 추론
2	DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning	2025	RL 기반 추론 모델
3	Logic-RL_2025_Rule-based-RL	2025	규칙 기반 RL
4	MPS-Generalization_2025_Math-Reasoning-Transfer	2025	수학 추론 전이
5	R-Zero - Self-Evolving Reasoning LLM from Zero Data	2025	자기 진화 추론

신규 (본 서베이에서 추가)

#	논문	연도	주제
6	Measuring Faithfulness in Chain-of-Thought Reasoning	2023	CoT 충실도 측정 방법론
7	Language Models Don’t Always Say What They Think - Unfaithful Explanations in CoT	2023	편향 주입 기반 CoT 불충실성
8	Let’s Think Dot by Dot - Hidden Computation in Transformers	2024	필러 토큰의 숨겨진 계산
9	Scaling LLM Test-Time Compute Optimally	2024	Test-time compute 최적 분배
10	COCONUT - Training LLMs to Reason in Continuous Latent Space	2024	잠재 공간 추론
11	Reasoning Models Don’t Always Say What They Think	2025	추론 모델 CoT 충실도
12	Chain-of-Thought Reasoning In The Wild Is Not Always Faithful	2025	자연 환경 CoT 불충실성

Juhyeon's Blog

탐색기

_survey-overview

CoT/Reasoning 분석 서베이 개요

연구 타임라인

주제별 클러스터

핵심 발견 요약

1. CoT는 모델의 실제 추론을 충실히 반영하지 않는다

2. 난이도가 CoT의 역할을 결정한다

3. 모델 크기/능력과 충실도의 역설적 관계

4. 언어는 추론의 매개체이지 추론 자체가 아니다

방법론 분류

AI 안전성 함의

CoT 모니터링은 필요하지만 불충분하다

대안/보완적 접근

미해결 질문

논문 목록

기존 (서베이 시작점)

신규 (본 서베이에서 추가)

그래프 뷰

목차

Properties

백링크