Reasoning Theater: 모델의 내적 믿음과 Chain-of-Thought 분리하기

Digest: 추론 모델이 CoT(Chain-of-Thought)를 생성할 때, 과연 그 과정이 실제 사고를 반영하는가? 이 논문은 모델이 이미 답을 확정한 후에도 추론 토큰을 계속 생성하는 “연극적 추론(performative CoT)” 현상을 발견했다. DeepSeek-R1(671B)과 GPT-OSS(120B)에 Attention Probe, Forced Answering, CoT Monitor 세 가지 방법을 적용한 결과, 쉬운 문제(MMLU-Redux)에서는 모델의 40-50%가 연극적 추론을 수행하지만, 어려운 문제(GPQA-Diamond)에서는 1% 수준으로 진정한 추론이 일어남을 보였다. 핵심 통찰은 모델 내부 활성화(activation)에서 최종 답이 CoT 텍스트보다 훨씬 먼저 디코딩 가능하며, 이를 활용하면 MMLU에서 80% 토큰 절약 + 97% 정확도 유지 (Section 5)가 가능하다는 것이다. 이는 추론 모델의 CoT를 액면 그대로 신뢰할 수 없음을 경험적으로 입증한 첫 번째 대규모 연구다.

메타데이터

항목	내용
제목	Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought
저자	Siddharth Boppana, Annabel Ma, Max Loeffler, Raphael Sarfati, Eric Bigelow, Atticus Geiger, Owen Lewis, Jack Merullo
연도	2026
발표	arXiv:2603.05488
링크	arXiv · GitHub · Demo
모델	DeepSeek-R1 (671B), GPT-OSS (120B)
데이터셋	MMLU-Redux (5,280문항), GPQA-Diamond (198문항)
키워드	CoT Faithfulness, Performative Reasoning, Attention Probes, Early Exit, Inference Efficiency

왜 이 연구를 하는가?

핵심 질문

추론 모델의 Chain-of-Thought는 모델의 실제 내부 추론을 반영하는가, 아니면 이미 결정된 답을 정당화하는 “연극”인가?

기존 접근법의 한계

한계	설명
CoT 해석의 불투명성	기존 연구는 CoT 텍스트를 모델의 추론 과정으로 간주했으나, 내부 표상과의 일치 여부를 직접 검증하지 않음
단일 분석 방법	CoT 신뢰성을 하나의 방법으로만 평가하여 결론의 강건성이 부족
난이도 구분 부재	쉬운 문제와 어려운 문제에서 CoT의 역할이 다를 수 있다는 점이 간과됨
효율성 연결 부족	CoT의 불필요한 부분을 식별하더라도 이를 추론 효율화에 활용하는 경로가 불명확

핵심 통찰

모델 내부 활성화(residual stream)를 프로빙하면 CoT 텍스트가 답을 드러내기 훨씬 전에 최종 답을 디코딩할 수 있다
쉬운 문제에서는 모델이 “이미 아는 답”을 포장하는 연극을 하지만, 어려운 문제에서는 CoT가 진정한 추론 역할을 수행한다

Question

난이도라는 축으로만 분석 및 heuristic을 가진 이유가 궁금하긴 하다.
이 논문에서 말하는 task 난이도를 어떻게 정량적으로 정의했나?

세 가지 독립적 방법(내부 프로빙, 강제 응답, 외부 모니터)이 수렴하는 결론은 더 강건한 근거를 제공한다

방법 (Method)

프레임워크 개요

graph TB
    subgraph "입력"
        A["MMLU-Redux<br/>(5,280문항)"]
        B["GPQA-Diamond<br/>(198문항)"]
    end

    subgraph "추론 모델"
        C["DeepSeek-R1 (671B)"]
        D["GPT-OSS (120B)"]
    end

    subgraph "3가지 분석 방법"
        E["🔍 Attention Probe<br/>내부 활성화 프로빙"]
        F["⚡ Forced Answering<br/>중간 지점 강제 응답"]
        G["👁️ CoT Monitor<br/>Gemini-2.5-Flash 외부 판독"]
    end

    A --> C
    A --> D
    B --> C
    B --> D
    C --> E
    C --> F
    C --> G
    D --> E
    D --> F
    D --> G

    subgraph "비교 분석"
        H{"세 방법의<br/>정확도 곡선 비교"}
    end

    E --> H
    F --> H
    G --> H
    H -->|"큰 괴리"| I["연극적 추론<br/>(Performative CoT)"]
    H -->|"유사한 곡선"| J["진정한 추론<br/>(Genuine Reasoning)"]

핵심 구성요소

1. Attention Probe (내부 활성화 프로빙): 모델의 residual stream activation에 경량 분류기를 훈련시켜, CoT 생성의 각 시점에서 답안 선택지에 대한 확률 분포를 추출한다. 핵심 수식은 attention-weighted pooling:
$z = W_{v} \cdot H^{(ℓ)} \cdot softmax (W_{q} \cdot H^{(ℓ)})$
이다. DeepSeek-R1(약 60개의 MoE layer)에서는 layer 20부터 최종 답을 디코딩할 수 있으며, 프로브 정확도는 87.98%로 선형 베이스라인(31.85%)을 크게 상회한다. 이 방법은 모델이 “내부적으로 언제 답을 확정하는지”를 직접 관찰할 수 있게 해준다.

2. Forced Answering (강제 응답): CoT의 중간 지점에서 추론을 절단하고, 모델에게 즉시 최종 답을 내놓도록 강제한다. 답안 선택지의 logit에 softmax를 적용하여 각 시점의 신뢰도를 측정한다. 만약 모델이 CoT 초반에 이미 높은 신뢰도로 정답을 선택한다면, 이후의 CoT는 “연극”이라고 판단할 수 있다.

3. CoT Monitor (외부 모니터): Gemini-2.5-Flash를 외부 판독기(LLM-as-Judge)로 활용하여, CoT 텍스트의 각 접두사(prefix)만 보고 모델이 답을 확정했는지 판단한다. 또한 변곡점(inflection point)—되돌아감(backtrack), 깨달음(realization), 재고(reconsideration)—을 식별한다. 이 방법은 내부 접근 없이 CoT 텍스트만으로 분석하므로, 프로빙 방법과의 비교 기준선 역할을 한다.

핵심 논리: 세 방법 모두 “CoT의 각 시점에서 정확도 곡선”을 생성한다. Probe와 Forced Answering의 정확도가 CoT Monitor보다 훨씬 일찍 상승하면, 모델이 내부적으로는 답을 알지만 텍스트로는 아직 드러내지 않는 것이므로 연극적 추론이다. 세 곡선이 유사하게 상승하면 진정한 추론이다.

데이터셋

본 논문은 난이도 축에서 CoT의 역할 변화를 관찰하기 위해, 성격이 극명히 다른 두 벤치마크를 의도적으로 대비시킨다.

MMLU-Redux — 지식 회상(Knowledge Recall) 벤치마크

MMLU-Redux(2024, NAACL 2025)는 원본 MMLU의 오류 교정판이다. 원본 57개 과목에서 추출한 3,000문항을 14명의 도메인 전문가가 재검수하여 6.49%의 오류율을 수정했다. STEM·인문·사회과학을 포괄하는 4지선다 지식 평가 벤치마크로, 대부분의 문항이 사실 회상(factual recall) 또는 단순 적용 수준이다. 본 논문에서는 5,280문항을 사용하며, “모델이 파라미터에 이미 저장된 지식으로 풀 수 있는 쉬운 문제”의 대표로 활용한다.

MMLU-Redux 샘플 문항 (Virology)

Q. The longest incubation period is seen in which of the following viruses?
(A) Hepatitis B (B) Rabies (C) HIV (D) Ebola

→ 바이러스학 지식을 기억에서 인출하면 답할 수 있는 전형적인 지식 회상 문항.

GPQA-Diamond — 전문가 수준 추론(Expert Reasoning) 벤치마크

GPQA-Diamond(2023.11, arXiv:2311.12022)는 Graduate-level Google-Proof QA의 최고 난이도 부분집합이다. 생물학·화학·물리학 분야의 대학원 수준 4지선다 198문항으로 구성되며, PhD 전문가 정확도 65%, 비전문가(웹 검색 허용) 34%로 설계된 “구글로도 풀 수 없는” 벤치마크다. 문항은 다단계 추론, 개념 통합, 수리적 도출을 요구하여, 단순 지식 회상으로는 풀 수 없다. 본 논문에서는 “모델이 진정한 추론을 수행해야 하는 어려운 문제”의 대표로 활용한다.

GPQA-Diamond 샘플 문항 (Quantum Mechanics)

Q. Consider a quantum mechanical system with a Hamiltonian $H = H_{0} + V$ , where $H_{0}$ has a known spectrum and $V$ is a small perturbation. If the first-order energy correction to the ground state is zero, what determines the second-order correction?
(A) The diagonal matrix elements of $V$
(B) The expectation value of $H_{0}$
(C) The off-diagonal matrix elements of $V$ and the energy differences of $H_{0}$
(D) The trace of $V$

→ 섭동론의 2차 보정 공식 $E_{n}^{(2)} = \sum_{k \neq = n} \frac{∣ ⟨ k ∣ V ∣ n ⟩ ∣ ^{2}}{E _{n}^{(0)} - E _{k}^{(0)}}$ 을 유도하고 해석해야 하는 다단계 추론 문항.

두 벤치마크의 대비 구조

차원	MMLU-Redux	GPQA-Diamond
주요 인지 요구	지식 회상 (recall)	다단계 추론 (reasoning)
난이도	중간 (GPT-4 약 86%)	극고 (GPT-4 약 39%)
문항 수	5,280	198
본 논문에서의 역할	”쉬운 문제” 대표	”어려운 문제” 대표
CoT 연극성	높음 (0.33–0.51)	낮음 (0.01–0.23)

이 대비를 통해 논문은 **“모델이 이미 아는 문제 vs. 진정으로 추론해야 하는 문제”**에서 CoT의 역할이 질적으로 달라짐을 보인다.

발견 (Findings)

연극성 비율 (Performativity Rates, Table 1)

정확도 곡선 기울기의 차이(Probe/Forced vs. Monitor)로 연극성을 정량화. 값이 클수록 CoT가 더 연극적임을 의미한다. 위의 세가지 특정을 사용해서 얻은 acc 간 산술 차를 기술.

모델	데이터셋	Probe vs Monitor	Forced vs Monitor	해석
DeepSeek-R1	MMLU-Redux	0.417	0.505	높은 연극성
DeepSeek-R1	GPQA-Diamond	0.012	0.010	진정한 추론
GPT-OSS	MMLU-Redux	0.435	0.334	높은 연극성
GPT-OSS	GPQA-Diamond	0.227	0.185	중간 수준
Table 1. Comparison of the amount of information gained per step for the CoT Monitor vs. the Probe/Forced Answer. A large difference indicates that the LLM does not produce its answer based on the addition of information from the CoT while small differences indicate more genuine reasoning. This is measured as the change in slope of the average probe (or forced answer) accuracy minus CoT accuracy shown in Fig. 2:	∆Probe − ∆Monitor

조기 종료 효율성 (Early Exit)

데이터셋	신뢰도 임계값	토큰 절약	정확도 유지
MMLU-Redux	95%	80%	97%
GPQA-Diamond	80%	30%	97%

변곡점 분석 (Table 2)

고신뢰(≥90% 프로브 신뢰도) 응답 vs 비고신뢰 응답에서의 변곡점 발생 빈도 (스텝당):

변곡점 유형	고신뢰 응답	비고신뢰 응답	비율
재고 (Reconsideration)	0.015	0.030	2배
깨달음 (Realization)	0.004	0.008	2배
되돌아감 (Backtrack)	0.001	0.002	2배

비고신뢰 응답에서 변곡점이 약 2배 빈번하게 발생하여, 불확실한 문제에서는 CoT가 진정한 추론 역할을 함을 뒷받침한다.

핵심 발견

난이도가 연극성을 결정한다: MMLU-Redux(쉬운 문제)에서는 연극성이 0.334-0.505로 높지만, GPQA-Diamond(어려운 문제)에서는 0.010-0.227로 급감한다. 이는 모델이 이미 파라미터에 저장된 지식으로 답을 알 수 있는 문제에서는 CoT가 불필요한 장식에 불과하지만, 진정한 추론이 필요한 문제에서는 CoT가 실질적 계산을 수행함을 의미한다.

모델 크기와 연극성의 관계: DeepSeek-R1(671B)은 MMLU에서 CoT 초반부터 프로브 정확도가 급격히 상승하여 “이미 아는 답”이 많음을 보여준다. 반면 소형 증류 모델(1.5B-32B)은 점진적으로 정확도가 올라가, 소형 모델은 동일한 문제에서도 더 많은 test-time compute를 필요로 함을 시사한다.

변곡점은 진정한 추론의 지표다: CoT에서 되돌아감, 깨달음, 재고가 발생하는 변곡점은 불확실한 응답에서 2배 더 자주 나타난다. 이는 변곡점이 “연극적 장치”가 아니라 모델이 실제로 사고를 수정하는 순간임을 뒷받침한다.

이론적 의의

CoT 신뢰성의 조건부 재평가

이 연구는 “CoT는 신뢰할 수 있는가?”라는 이분법적 질문을 **“어떤 조건에서 CoT가 신뢰할 수 있는가?”**로 전환한다. 답은 명확하다: 모델이 이미 아는 쉬운 문제에서 CoT는 연극이고, 모델이 진정으로 불확실한 어려운 문제에서 CoT는 실질적 추론이다. 이는 CoT의 해석 가능성(interpretability)과 정렬(alignment) 연구에 중요한 함의를 가진다—CoT를 모델의 “사고 과정”으로 간주하려면, 먼저 해당 문제가 모델에게 실제로 어려운지를 확인해야 한다.

추론 효율화의 새로운 경로

프로빙 기반 조기 종료는 MMLU에서 80%의 토큰을 절약하면서 97% 정확도를 유지한다. 이는 추론 모델의 배포 비용을 대폭 줄일 수 있는 실용적 경로를 제시한다. 특히 쉬운 질문이 대부분인 실제 서비스 환경에서는 이 절약 효과가 더욱 극대화될 것이다.

RL 훈련 추론 모델에 대한 시사점

DeepSeek-R1과 같은 RL 기반 추론 모델이 “생각하는 척”하는 현상은, RL 훈련이 긴 CoT를 생성하도록 보상했기 때문일 수 있다. 이는 Logic-RL에서 발견한 “응답 길이가 반드시 추론 품질을 보장하지 않는다”는 관찰과 직결되며, RL 보상 설계에서 CoT의 질을 양과 분리하여 평가해야 함을 시사한다.

핵심 용어 정리

용어	정의
연극적 추론 (Performative CoT)	모델이 이미 내부적으로 답을 확정한 후에도 추론 토큰을 계속 생성하는 현상. 외부로 보이는 “사고 과정”이 실제 내부 계산과 괴리됨
Attention Probe	모델의 residual stream 활성화에 attention-weighted pooling을 적용하여 답안 확률을 추출하는 경량 분류기.
Forced Answering	CoT를 중간에서 절단하고 모델에게 즉시 답을 강제하는 방법. 각 시점에서 모델의 “진짜 확신도”를 측정
CoT Monitor	외부 모델(Gemini-2.5-Flash)이 CoT 텍스트만 보고 답 확정 여부와 변곡점을 판단하는 방법
변곡점 (Inflection Point)	CoT에서 모델이 기존 추론을 수정하는 순간. 되돌아감(backtrack), 깨달음(realization), 재고(reconsideration)의 세 유형
조기 종료 (Early Exit)	프로브가 충분한 신뢰도에 도달하면 CoT 생성을 중단하는 효율화 기법
Residual Stream	Transformer 각 layer의 출력이 축적되는 벡터 공간. 모델의 “내부 상태”를 관찰할 수 있는 주요 지점
MMLU-Redux	MMLU의 오류 교정판 (2024, NAACL 2025). 57개 과목, 4지선다 지식 회상 벤치마크. 본 논문에서 “쉬운 문제” 대표 (5,280문항). 예: “The longest incubation period is seen in which virus?” → 상세 설명
GPQA-Diamond	대학원 수준 Google-Proof QA 최고 난이도 부분집합 (2023.11). 생물·화학·물리 다단계 추론 198문항. 본 논문에서 “어려운 문제” 대표. 예: 섭동론 2차 보정 유도 문항 → 상세 설명

Juhyeon's Blog

탐색기

Reasoning Theater - Disentangling Model Beliefs from Chain-of-Thought

Reasoning Theater: 모델의 내적 믿음과 Chain-of-Thought 분리하기

메타데이터

왜 이 연구를 하는가?

핵심 질문

기존 접근법의 한계

핵심 통찰

방법 (Method)

프레임워크 개요

핵심 구성요소

데이터셋

MMLU-Redux — 지식 회상(Knowledge Recall) 벤치마크

GPQA-Diamond — 전문가 수준 추론(Expert Reasoning) 벤치마크

두 벤치마크의 대비 구조

발견 (Findings)

연극성 비율 (Performativity Rates, Table 1)

조기 종료 효율성 (Early Exit)

변곡점 분석 (Table 2)

핵심 발견

이론적 의의

CoT 신뢰성의 조건부 재평가

추론 효율화의 새로운 경로

RL 훈련 추론 모델에 대한 시사점

관련 연구

핵심 용어 정리

그래프 뷰

목차

Properties

백링크