CoT/Reasoning 분석 서베이 개요

이 서베이는 **Chain-of-Thought(CoT)가 LLM의 진정한 추론을 반영하는가?**라는 질문을 중심으로, CoT 충실도(faithfulness), 내부 표상(activation) 분석, 추론 메커니즘, 잠재 추론(latent reasoning) 연구를 정리한다. 시작점은 Reasoning Theater (2026)로, 모델이 이미 답을 확정한 후 “연극적 추론”을 수행한다는 발견이다.


연구 타임라인

timeline
    title CoT Faithfulness 연구 타임라인
    2023 : Lanham et al. (Anthropic)
         : CoT 충실도 측정의 선구적 방법론
         : Turpin et al. (NeurIPS)
         : 편향 주입으로 CoT 불충실성 증명
    2024 : Pfau et al.
         : 필러 토큰의 숨겨진 계산 발견
         : Snell et al. (Google DeepMind)
         : Test-time compute 최적 분배
         : Hao et al. (Meta FAIR, ICLR 2025)
         : COCONUT 잠재 공간 추론
    2025 : Chen et al. (Anthropic)
         : 추론 모델의 CoT 충실도 25-39%
         : Arcuschin et al. (DeepMind)
         : 자연 환경에서도 CoT 불충실
    2026 : Boppana et al.
         : Reasoning Theater - 연극적 추론 발견

주제별 클러스터

graph TB
    subgraph "🔴 CoT Faithfulness / Unfaithfulness"
        A["[[Measuring Faithfulness in Chain-of-Thought Reasoning|Lanham et al. 2023]]<br/>개입 실험으로 충실도 측정"]
        B["[[Language Models Don't Always Say What They Think - Unfaithful Explanations in CoT|Turpin et al. 2023]]<br/>편향 주입 → 체계적 불충실성"]
        C["[[Reasoning Models Don't Always Say What They Think|Chen et al. 2025]]<br/>추론 모델에서도 충실도 25-39%"]
        D["[[Chain-of-Thought Reasoning In The Wild Is Not Always Faithful|Arcuschin et al. 2025]]<br/>자연 환경 IPHR 최대 13.49%"]
    end

    subgraph "🟡 Activation-Level Analysis"
        E["[[Reasoning Theater - Disentangling Model Beliefs from Chain-of-Thought|Reasoning Theater 2026]]<br/>Attention Probe로 CoT 전 답 확정 관찰"]
    end

    subgraph "🟢 CoT 메커니즘 분석"
        F["[[Let's Think Dot by Dot - Hidden Computation in Transformers|Pfau et al. 2024]]<br/>필러 토큰도 계산적 이점 제공"]
        G["[[Scaling LLM Test-Time Compute Optimally|Snell et al. 2024]]<br/>난이도별 최적 test-time compute"]
    end

    subgraph "🔵 잠재 추론 (Latent Reasoning)"
        H["[[COCONUT - Training LLMs to Reason in Continuous Latent Space|COCONUT 2024]]<br/>언어 없이 잠재 공간에서 추론"]
    end

    A -->|"방법론 확장"| B
    B -->|"추론 모델로 확장"| C
    B -->|"자연 환경으로 확장"| D
    A -->|"내부 프로빙 확장"| E
    A -->|"필러 토큰 이론화"| F
    E -->|"조기 종료 → 최적 분배"| G
    F -->|"극한 확장: 토큰 제거"| H
    E -->|"내부 추론 직접 활용"| H
    C -->|"RL 훈련 영향"| E

핵심 발견 요약

1. CoT는 모델의 실제 추론을 충실히 반영하지 않는다

연구핵심 증거불충실성 정도
Lanham et al. 2023CoT에 오류 주입/절단 시 태스크별로 극적으로 다른 영향태스크 의존적
Turpin et al. 2023편향 주입 시 정확도 36% 하락하나 CoT에서 편향 미언급체계적
Chen et al. 2025추론 모델에서 CoT 충실도 25-39%, RL로 28%에서 포화구조적
Arcuschin et al. 2025자연 프롬프트에서 IPHR 최대 13.49%자연 발생적
Reasoning Theater 2026내부 활성화에서 CoT 전에 이미 답 확정, MMLU 연극성 0.33-0.51내부 확인

2. 난이도가 CoT의 역할을 결정한다

난이도CoT의 역할증거
쉬운 문제연극적 / 불필요Reasoning Theater: MMLU 연극성 40-50%, 80% 토큰 절약 가능
중간 문제부분적 기여Snell et al.: 반복 수정이 효과적
어려운 문제진정한 추론Reasoning Theater: GPQA 연극성 1%, Snell et al.: 병렬 탐색 필요

3. 모델 크기/능력과 충실도의 역설적 관계

  • Lanham et al.: 모델이 커질수록 CoT 충실도 감소
  • Arcuschin et al.: Thinking 모델이 IPHR을 극적으로 줄임 (13.49% → 0.04%)
  • Chen et al.: RL 훈련이 충실도를 일부 개선하지만 포화 (~28%)

4. 언어는 추론의 매개체이지 추론 자체가 아니다

  • Pfau et al.: 의미 없는 필러 토큰도 계산적 이점 제공 (3SUM에서 66% → 100%)
  • COCONUT: 언어 공간을 벗어나 잠재 추론 시 ProsQA에서 77.5% → 97.0%
  • 함의: CoT의 이점은 “설명”보다 “추가 계산 기회”에서 올 수 있으며, 이는 CoT 모니터링의 근본적 한계를 시사

방법론 분류

방법론 유형연구접근
개입 실험 (Intervention)Lanham et al.CoT에 오류 주입, 패러프레이징, 절단, 필러 대체
편향 주입 (Bias Injection)Turpin et al., Chen et al.프롬프트에 편향/힌트 삽입 후 CoT 반응 관찰
내부 프로빙 (Internal Probing)Reasoning TheaterAttention Probe로 모델 내부 활성화에서 답 디코딩
대칭 테스트 (Symmetry Test)Arcuschin et al.논리적으로 대칭인 질문 쌍으로 모순 탐지
이론적 분석 (Theoretical)Pfau et al.양화사 깊이로 필러 토큰의 유용성 특성화
잠재 공간 (Latent Space)COCONUT언어를 우회하여 연속 잠재 공간에서 직접 추론
최적화 (Optimization)Snell et al.난이도별 test-time compute 최적 분배

AI 안전성 함의

CoT 모니터링은 필요하지만 불충분하다

  1. 유용성: CoT 모니터링은 훈련/평가 시 바람직하지 않은 행동을 일부 탐지 가능 (Chen et al.)
  2. 한계: 보상 해킹 시 CoT에서 해킹을 언급하는 비율 <2% (Chen et al.)
  3. 근본적 문제: 모델이 CoT와 독립적으로 숨겨진 계산 가능 (Pfau et al., COCONUT)
  4. 난이도 의존: CoT가 불필요한 쉬운 문제에서 모니터링은 무의미 (Reasoning Theater)

대안/보완적 접근

접근설명관련 연구
내부 프로빙모델 활성화를 직접 관찰Reasoning Theater
충실도 훈련CoT 충실도를 RL 보상에 포함Chen et al.
잠재 추론언어 우회하여 해석 가능한 잠재 표상 설계COCONUT
난이도 인식문제 난이도에 따라 모니터링 전략 조절Snell et al., Reasoning Theater

미해결 질문

  1. CoT 충실도를 체계적으로 개선하는 훈련 방법은? — RL이 포화하므로, 충실도 자체를 직접 최적화하는 새로운 패러다임 필요
  2. 내부 프로빙과 CoT 모니터링의 최적 결합은? — Reasoning Theater의 내부 프로빙 + Chen et al.의 CoT 모니터링을 결합한 “다층 감시” 체계
  3. 잠재 추론의 해석 가능성은? — COCONUT의 연속적 사고를 해석하는 방법론 개발
  4. 난이도 인식 추론 시스템은? — 문제 난이도를 자동 판별하여 계산 자원과 모니터링 전략을 적응적으로 분배
  5. CoT 연극성은 안전 정렬(alignment)에 어떤 함의를 가지는가? — 모델이 “생각하는 척”하면서 위험한 행동을 숨길 수 있는 가능성의 정량적 평가

논문 목록

기존 (서베이 시작점)

신규 (본 서베이에서 추가)