Reasoning Theater: 모델의 내적 믿음과 Chain-of-Thought 분리하기
Digest: 추론 모델이 CoT(Chain-of-Thought)를 생성할 때, 과연 그 과정이 실제 사고를 반영하는가? 이 논문은 모델이 이미 답을 확정한 후에도 추론 토큰을 계속 생성하는 “연극적 추론(performative CoT)” 현상을 발견했다. DeepSeek-R1(671B)과 GPT-OSS(120B)에 Attention Probe, Forced Answering, CoT Monitor 세 가지 방법을 적용한 결과, 쉬운 문제(MMLU-Redux)에서는 모델의 40-50%가 연극적 추론을 수행하지만, 어려운 문제(GPQA-Diamond)에서는 1% 수준으로 진정한 추론이 일어남을 보였다. 핵심 통찰은 모델 내부 활성화(activation)에서 최종 답이 CoT 텍스트보다 훨씬 먼저 디코딩 가능하며, 이를 활용하면 MMLU에서 80% 토큰 절약 + 97% 정확도 유지 (Section 5)가 가능하다는 것이다. 이는 추론 모델의 CoT를 액면 그대로 신뢰할 수 없음을 경험적으로 입증한 첫 번째 대규모 연구다.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought |
| 저자 | Siddharth Boppana, Annabel Ma, Max Loeffler, Raphael Sarfati, Eric Bigelow, Atticus Geiger, Owen Lewis, Jack Merullo |
| 연도 | 2026 |
| 발표 | arXiv:2603.05488 |
| 링크 | arXiv · GitHub · Demo |
| 모델 | DeepSeek-R1 (671B), GPT-OSS (120B) |
| 데이터셋 | MMLU-Redux (5,280문항), GPQA-Diamond (198문항) |
| 키워드 | CoT Faithfulness, Performative Reasoning, Attention Probes, Early Exit, Inference Efficiency |
왜 이 연구를 하는가?
핵심 질문
추론 모델의 Chain-of-Thought는 모델의 실제 내부 추론을 반영하는가, 아니면 이미 결정된 답을 정당화하는 “연극”인가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| CoT 해석의 불투명성 | 기존 연구는 CoT 텍스트를 모델의 추론 과정으로 간주했으나, 내부 표상과의 일치 여부를 직접 검증하지 않음 |
| 단일 분석 방법 | CoT 신뢰성을 하나의 방법으로만 평가하여 결론의 강건성이 부족 |
| 난이도 구분 부재 | 쉬운 문제와 어려운 문제에서 CoT의 역할이 다를 수 있다는 점이 간과됨 |
| 효율성 연결 부족 | CoT의 불필요한 부분을 식별하더라도 이를 추론 효율화에 활용하는 경로가 불명확 |
핵심 통찰
- 모델 내부 활성화(residual stream)를 프로빙하면 CoT 텍스트가 답을 드러내기 훨씬 전에 최종 답을 디코딩할 수 있다
- 쉬운 문제에서는 모델이 “이미 아는 답”을 포장하는 연극을 하지만, 어려운 문제에서는 CoT가 진정한 추론 역할을 수행한다
Question
난이도라는 축으로만 분석 및 heuristic을 가진 이유가 궁금하긴 하다.
이 논문에서 말하는 task 난이도를 어떻게 정량적으로 정의했나?
- 세 가지 독립적 방법(내부 프로빙, 강제 응답, 외부 모니터)이 수렴하는 결론은 더 강건한 근거를 제공한다
방법 (Method)
프레임워크 개요
graph TB subgraph "입력" A["MMLU-Redux<br/>(5,280문항)"] B["GPQA-Diamond<br/>(198문항)"] end subgraph "추론 모델" C["DeepSeek-R1 (671B)"] D["GPT-OSS (120B)"] end subgraph "3가지 분석 방법" E["🔍 Attention Probe<br/>내부 활성화 프로빙"] F["⚡ Forced Answering<br/>중간 지점 강제 응답"] G["👁️ CoT Monitor<br/>Gemini-2.5-Flash 외부 판독"] end A --> C A --> D B --> C B --> D C --> E C --> F C --> G D --> E D --> F D --> G subgraph "비교 분석" H{"세 방법의<br/>정확도 곡선 비교"} end E --> H F --> H G --> H H -->|"큰 괴리"| I["연극적 추론<br/>(Performative CoT)"] H -->|"유사한 곡선"| J["진정한 추론<br/>(Genuine Reasoning)"]
핵심 구성요소
1. Attention Probe (내부 활성화 프로빙): 모델의 residual stream activation에 경량 분류기를 훈련시켜, CoT 생성의 각 시점에서 답안 선택지에 대한 확률 분포를 추출한다. 핵심 수식은 attention-weighted pooling:
이다. DeepSeek-R1(약 60개의 MoE layer)에서는 layer 20부터 최종 답을 디코딩할 수 있으며, 프로브 정확도는 87.98%로 선형 베이스라인(31.85%)을 크게 상회한다. 이 방법은 모델이 “내부적으로 언제 답을 확정하는지”를 직접 관찰할 수 있게 해준다.
2. Forced Answering (강제 응답): CoT의 중간 지점에서 추론을 절단하고, 모델에게 즉시 최종 답을 내놓도록 강제한다. 답안 선택지의 logit에 softmax를 적용하여 각 시점의 신뢰도를 측정한다. 만약 모델이 CoT 초반에 이미 높은 신뢰도로 정답을 선택한다면, 이후의 CoT는 “연극”이라고 판단할 수 있다.
3. CoT Monitor (외부 모니터): Gemini-2.5-Flash를 외부 판독기(LLM-as-Judge)로 활용하여, CoT 텍스트의 각 접두사(prefix)만 보고 모델이 답을 확정했는지 판단한다. 또한 변곡점(inflection point)—되돌아감(backtrack), 깨달음(realization), 재고(reconsideration)—을 식별한다. 이 방법은 내부 접근 없이 CoT 텍스트만으로 분석하므로, 프로빙 방법과의 비교 기준선 역할을 한다.
핵심 논리: 세 방법 모두 “CoT의 각 시점에서 정확도 곡선”을 생성한다. Probe와 Forced Answering의 정확도가 CoT Monitor보다 훨씬 일찍 상승하면, 모델이 내부적으로는 답을 알지만 텍스트로는 아직 드러내지 않는 것이므로 연극적 추론이다. 세 곡선이 유사하게 상승하면 진정한 추론이다.
데이터셋
본 논문은 난이도 축에서 CoT의 역할 변화를 관찰하기 위해, 성격이 극명히 다른 두 벤치마크를 의도적으로 대비시킨다.
MMLU-Redux — 지식 회상(Knowledge Recall) 벤치마크
MMLU-Redux(2024, NAACL 2025)는 원본 MMLU의 오류 교정판이다. 원본 57개 과목에서 추출한 3,000문항을 14명의 도메인 전문가가 재검수하여 6.49%의 오류율을 수정했다. STEM·인문·사회과학을 포괄하는 4지선다 지식 평가 벤치마크로, 대부분의 문항이 사실 회상(factual recall) 또는 단순 적용 수준이다. 본 논문에서는 5,280문항을 사용하며, “모델이 파라미터에 이미 저장된 지식으로 풀 수 있는 쉬운 문제”의 대표로 활용한다.
MMLU-Redux 샘플 문항 (Virology)
Q. The longest incubation period is seen in which of the following viruses?
(A) Hepatitis B (B) Rabies (C) HIV (D) Ebola→ 바이러스학 지식을 기억에서 인출하면 답할 수 있는 전형적인 지식 회상 문항.
GPQA-Diamond — 전문가 수준 추론(Expert Reasoning) 벤치마크
GPQA-Diamond(2023.11, arXiv:2311.12022)는 Graduate-level Google-Proof QA의 최고 난이도 부분집합이다. 생물학·화학·물리학 분야의 대학원 수준 4지선다 198문항으로 구성되며, PhD 전문가 정확도 65%, 비전문가(웹 검색 허용) 34%로 설계된 “구글로도 풀 수 없는” 벤치마크다. 문항은 다단계 추론, 개념 통합, 수리적 도출을 요구하여, 단순 지식 회상으로는 풀 수 없다. 본 논문에서는 “모델이 진정한 추론을 수행해야 하는 어려운 문제”의 대표로 활용한다.
GPQA-Diamond 샘플 문항 (Quantum Mechanics)
Q. Consider a quantum mechanical system with a Hamiltonian , where has a known spectrum and is a small perturbation. If the first-order energy correction to the ground state is zero, what determines the second-order correction?
(A) The diagonal matrix elements of
(B) The expectation value of
(C) The off-diagonal matrix elements of and the energy differences of
(D) The trace of→ 섭동론의 2차 보정 공식 을 유도하고 해석해야 하는 다단계 추론 문항.
두 벤치마크의 대비 구조
| 차원 | MMLU-Redux | GPQA-Diamond |
|---|---|---|
| 주요 인지 요구 | 지식 회상 (recall) | 다단계 추론 (reasoning) |
| 난이도 | 중간 (GPT-4 약 86%) | 극고 (GPT-4 약 39%) |
| 문항 수 | 5,280 | 198 |
| 본 논문에서의 역할 | ”쉬운 문제” 대표 | ”어려운 문제” 대표 |
| CoT 연극성 | 높음 (0.33–0.51) | 낮음 (0.01–0.23) |
이 대비를 통해 논문은 **“모델이 이미 아는 문제 vs. 진정으로 추론해야 하는 문제”**에서 CoT의 역할이 질적으로 달라짐을 보인다.
발견 (Findings)
연극성 비율 (Performativity Rates, Table 1)
정확도 곡선 기울기의 차이(Probe/Forced vs. Monitor)로 연극성을 정량화. 값이 클수록 CoT가 더 연극적임을 의미한다. 위의 세가지 특정을 사용해서 얻은 acc 간 산술 차를 기술.
| 모델 | 데이터셋 | Probe vs Monitor | Forced vs Monitor | 해석 |
|---|---|---|---|---|
| DeepSeek-R1 | MMLU-Redux | 0.417 | 0.505 | 높은 연극성 |
| DeepSeek-R1 | GPQA-Diamond | 0.012 | 0.010 | 진정한 추론 |
| GPT-OSS | MMLU-Redux | 0.435 | 0.334 | 높은 연극성 |
| GPT-OSS | GPQA-Diamond | 0.227 | 0.185 | 중간 수준 |
| Table 1. Comparison of the amount of information gained per step for the CoT Monitor vs. the Probe/Forced Answer. A large difference indicates that the LLM does not produce its answer based on the addition of information from the CoT while small differences indicate more genuine reasoning. This is measured as the change in slope of the average probe (or forced answer) accuracy minus CoT accuracy shown in Fig. 2: | ∆Probe − ∆Monitor |
조기 종료 효율성 (Early Exit)
| 데이터셋 | 신뢰도 임계값 | 토큰 절약 | 정확도 유지 |
|---|---|---|---|
| MMLU-Redux | 95% | 80% | 97% |
| GPQA-Diamond | 80% | 30% | 97% |
변곡점 분석 (Table 2)
고신뢰(≥90% 프로브 신뢰도) 응답 vs 비고신뢰 응답에서의 변곡점 발생 빈도 (스텝당):
| 변곡점 유형 | 고신뢰 응답 | 비고신뢰 응답 | 비율 |
|---|---|---|---|
| 재고 (Reconsideration) | 0.015 | 0.030 | 2배 |
| 깨달음 (Realization) | 0.004 | 0.008 | 2배 |
| 되돌아감 (Backtrack) | 0.001 | 0.002 | 2배 |
비고신뢰 응답에서 변곡점이 약 2배 빈번하게 발생하여, 불확실한 문제에서는 CoT가 진정한 추론 역할을 함을 뒷받침한다.
핵심 발견
난이도가 연극성을 결정한다: MMLU-Redux(쉬운 문제)에서는 연극성이 0.334-0.505로 높지만, GPQA-Diamond(어려운 문제)에서는 0.010-0.227로 급감한다. 이는 모델이 이미 파라미터에 저장된 지식으로 답을 알 수 있는 문제에서는 CoT가 불필요한 장식에 불과하지만, 진정한 추론이 필요한 문제에서는 CoT가 실질적 계산을 수행함을 의미한다.
모델 크기와 연극성의 관계: DeepSeek-R1(671B)은 MMLU에서 CoT 초반부터 프로브 정확도가 급격히 상승하여 “이미 아는 답”이 많음을 보여준다. 반면 소형 증류 모델(1.5B-32B)은 점진적으로 정확도가 올라가, 소형 모델은 동일한 문제에서도 더 많은 test-time compute를 필요로 함을 시사한다.
변곡점은 진정한 추론의 지표다: CoT에서 되돌아감, 깨달음, 재고가 발생하는 변곡점은 불확실한 응답에서 2배 더 자주 나타난다. 이는 변곡점이 “연극적 장치”가 아니라 모델이 실제로 사고를 수정하는 순간임을 뒷받침한다.
이론적 의의
CoT 신뢰성의 조건부 재평가
이 연구는 “CoT는 신뢰할 수 있는가?”라는 이분법적 질문을 **“어떤 조건에서 CoT가 신뢰할 수 있는가?”**로 전환한다. 답은 명확하다: 모델이 이미 아는 쉬운 문제에서 CoT는 연극이고, 모델이 진정으로 불확실한 어려운 문제에서 CoT는 실질적 추론이다. 이는 CoT의 해석 가능성(interpretability)과 정렬(alignment) 연구에 중요한 함의를 가진다—CoT를 모델의 “사고 과정”으로 간주하려면, 먼저 해당 문제가 모델에게 실제로 어려운지를 확인해야 한다.
추론 효율화의 새로운 경로
프로빙 기반 조기 종료는 MMLU에서 80%의 토큰을 절약하면서 97% 정확도를 유지한다. 이는 추론 모델의 배포 비용을 대폭 줄일 수 있는 실용적 경로를 제시한다. 특히 쉬운 질문이 대부분인 실제 서비스 환경에서는 이 절약 효과가 더욱 극대화될 것이다.
RL 훈련 추론 모델에 대한 시사점
DeepSeek-R1과 같은 RL 기반 추론 모델이 “생각하는 척”하는 현상은, RL 훈련이 긴 CoT를 생성하도록 보상했기 때문일 수 있다. 이는 Logic-RL에서 발견한 “응답 길이가 반드시 추론 품질을 보장하지 않는다”는 관찰과 직결되며, RL 보상 설계에서 CoT의 질을 양과 분리하여 평가해야 함을 시사한다.
관련 연구
- DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — 본 논문이 분석한 주요 모델. RL로 훈련된 추론 모델의 CoT 신뢰성 문제를 직접 검증
- Logic-RL_2025_Rule-based-RL — “응답 길이 ≠ 추론 품질”이라는 발견(RQ7)이 본 논문의 연극적 CoT 개념과 직접 연결
- MPS-Generalization_2025_Math-Reasoning-Transfer — Long CoT가 일반화를 돕는다는 발견과 본 논문의 “쉬운 문제에서 CoT는 불필요”라는 발견의 긴장 관계가 흥미로운 후속 질문을 제기
- Measuring Faithfulness in Chain-of-Thought Reasoning — CoT 충실도 측정의 선구적 연구. Early Answering, Filler Token 등 개입 실험으로 CoT 의존도를 인과적으로 분석. 본 논문의 방법론적 기반
- Language Models Don’t Always Say What They Think - Unfaithful Explanations in CoT — 편향 주입으로 CoT 불충실성을 체계적으로 보인 연구. 본 논문이 내부 활성화 수준에서 확인한 CoT 불충실성의 외부 관찰 대응물
- Reasoning Models Don’t Always Say What They Think — Anthropic의 후속 연구. 추론 모델에서도 CoT 충실도가 25-39%에 불과하며, RL 훈련이 충실도를 포화점까지만 개선함을 보임
- Chain-of-Thought Reasoning In The Wild Is Not Always Faithful — 자연 환경에서도 CoT 불충실성이 발생함을 대칭 질문 쌍으로 증명. 본 논문의 “연극적 추론”이 인위적 설정이 아닌 구조적 현상임을 뒷받침
- Let’s Think Dot by Dot - Hidden Computation in Transformers — 의미 없는 필러 토큰이 CoT를 대체할 수 있음을 보여, “추가 토큰의 계산적 가치”를 이론적으로 특성화. 본 논문의 “CoT는 계산 기회일 뿐 추론 내용이 아닐 수 있다”는 해석을 뒷받침
- Scaling LLM Test-Time Compute Optimally — “쉬운 문제에 계산을 낭비하지 말라”는 최적 전략이 본 논문의 “쉬운 문제에서 CoT 80% 절약” 발견과 동일한 원리
- COCONUT - Training LLMs to Reason in Continuous Latent Space — 언어 공간을 완전히 벗어나 잠재 공간에서 추론하는 접근. CoT 토큰의 상당 부분이 추론에 불필요함을 구조적으로 증명하여 본 논문의 “연극적 추론” 가설을 보강
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| 연극적 추론 (Performative CoT) | 모델이 이미 내부적으로 답을 확정한 후에도 추론 토큰을 계속 생성하는 현상. 외부로 보이는 “사고 과정”이 실제 내부 계산과 괴리됨 |
| Attention Probe | 모델의 residual stream 활성화에 attention-weighted pooling을 적용하여 답안 확률을 추출하는 경량 분류기. |
| Forced Answering | CoT를 중간에서 절단하고 모델에게 즉시 답을 강제하는 방법. 각 시점에서 모델의 “진짜 확신도”를 측정 |
| CoT Monitor | 외부 모델(Gemini-2.5-Flash)이 CoT 텍스트만 보고 답 확정 여부와 변곡점을 판단하는 방법 |
| 변곡점 (Inflection Point) | CoT에서 모델이 기존 추론을 수정하는 순간. 되돌아감(backtrack), 깨달음(realization), 재고(reconsideration)의 세 유형 |
| 조기 종료 (Early Exit) | 프로브가 충분한 신뢰도에 도달하면 CoT 생성을 중단하는 효율화 기법 |
| Residual Stream | Transformer 각 layer의 출력이 축적되는 벡터 공간. 모델의 “내부 상태”를 관찰할 수 있는 주요 지점 |
| MMLU-Redux | MMLU의 오류 교정판 (2024, NAACL 2025). 57개 과목, 4지선다 지식 회상 벤치마크. 본 논문에서 “쉬운 문제” 대표 (5,280문항). 예: “The longest incubation period is seen in which virus?” → 상세 설명 |
| GPQA-Diamond | 대학원 수준 Google-Proof QA 최고 난이도 부분집합 (2023.11). 생물·화학·물리 다단계 추론 198문항. 본 논문에서 “어려운 문제” 대표. 예: 섭동론 2차 보정 유도 문항 → 상세 설명 |