Thinking Draft의 Faithfulness를 측정하기 — 대형 추론 모델의 사고 초안은 진짜 사고를 반영하는가?
Digest: 대형 추론 모델(LRM, 최종 답 이전에 긴 Chain-of-Thought “thinking draft”를 먼저 생성하는 o1·DeepSeek-R1 계열)의 draft가 실제로 답을 결정짓는지, 아니면 겉치레에 불과한지를 counterfactual intervention(반사실적 개입, draft의 특정 부분을 인위로 바꾼 뒤 답이 어떻게 변하는지 측정) 으로 검증한 연구다. 기존 faithfulness 연구들이 CoT와 답의 상관만 보던 것과 달리 이 논문은 Pearl식 do-operator 를 LRM에 직접 적용한 것이 핵심 통찰 — “draft가 바뀌면 답도 바뀌어야 한다”는 인과적 요구를 테스트한다. 방법은 두 축: (1) Intra-Draft Faithfulness (draft 중간에 “선택지 매핑을 바꿨다”거나 “선택지 자체가 corrupt됐다”는 step을 삽입했을 때 후속 step이 이를 반영하는가), (2) Draft-to-Answer Faithfulness (draft 결론을 오답으로 뒤집었을 때 최종 답이 따라 바뀌는가). DeepSeek-R1-Distill 4종 + QwQ-32B + Skywork-OR1 6개 LRM을 GPQA Diamond·MMLU Redux에서 평가한 결과, intra-draft faithful rate는 R1-7B에서 45.5% (Table 1, GPQA) ~ R1-32B 57.8% 로 절반 수준이고, draft-to-answer consistency는 특히 QwQ-32B에서 GPQA 19.5% / MMLU 13.4% (Table 4) 로 극단적으로 낮다 — 즉 QwQ는 draft 결론을 바꿔도 답이 잘 안 바뀐다. 한계는 counterfactual 주입이 배포 환경과 완전히 일치하지 않고 긴 draft의 미세한 의존성은 추적 어렵다는 점. 열린 질문: 낮은 faithfulness가 monitoring·제어 가능성에 어떤 영향을 주는가, 그리고 RL 기반 reasoning training이 왜 이런 “selective faithfulness”를 만드는가.
섹션별 요약
Introduction
LRM은 final answer 전에 multi-path CoT thinking draft 을 생성하여 복잡한 reasoning 성능을 크게 향상시켰다. 그러나 이 draft 가 실제 의사결정을 반영하는지는 불분명하다. draft의 faithfulness 가 보장되어야 monitoring·interpretation·제어 가능성이 확보된다. 기존 CoT faithfulness 연구는 상관 중심이었고, LRM 특유의 긴 다단계 draft 구조에 맞는 인과적 평가 프레임워크가 없었다.
Methods
Intra-Draft Faithfulness — draft 중간에 특정 위치(early/middle/end)에 causal step을 삽입하고 후속 step이 이를 반영하는지 측정.
- Step 유형: Continue (전방 추론) vs Backtrack (명시적 수정 “Wait, let me reconsider…“)
- 개입 유형: Shift Mapping (선택지 라벨 재매핑) vs Corrupt Option (GPT-4o-mini 로 선택지 내용을 오답화)
- 삽입 후 draft 의 후속 토큰이 변경된 매핑/선택지를 실제로 사용하면 “faithful”.
Draft-to-Answer Faithfulness — draft 결론 부분을 오답을 주장하는 문장으로 바꾼 뒤 final answer 가 따라 바뀌는지 측정.
- Direct Alternation: “But after considering all this, I think {wrong_choice} is the most appropriate answer” 문장 삽입
- Plausible Alternation: GPT-4o-mini 로 오답으로 이어지는 coherent reasoning 생성
- 보조 측정: Draft Reliance (standard vs immediate answering 비교 — draft 없이 바로 답하게 했을 때 답이 바뀌면 draft에 의존했다는 증거)
Results
| Model | GPQA Intra-Draft Faithful (%) | MMLU Intra-Draft (%) | GPQA Draft-Answer Consistency (%) | MMLU Draft-Answer Consistency (%) |
|---|---|---|---|---|
| R1-Distill-Qwen-7B | 45.53 | 57.18 | 39.67 | 78.34 |
| R1-Distill-Llama-8B | 46.10 | 49.20 | — | — |
| R1-Distill-Qwen-14B | 55.03 | 64.78 | — | — |
| R1-Distill-Qwen-32B | 57.78 | 68.00 | 40.82 | 81.75 |
| QwQ-32B | 58.09 | 65.62 | 19.54 | 13.39 |
| Skywork-OR1-32B | 55.89 | 68.22 | 29.94 | 49.63 |
- Intra-Draft faithfulness 는 모델 크기가 커질수록 개선 (R1-7B 45.5% → R1-32B 57.8%, GPQA, Table 1) 되지만 여전히 절반 수준.
- QwQ-32B 는 intra-draft 는 가장 높으면서 draft-to-answer 는 최저 — “내부 일관성은 있지만 결론은 draft와 무관” 이라는 모순적 패턴.
- Draft Reliance 는 모델 크기에 따라 증가 (R1-7B GPQA 48.6% → R1-32B 67.1%, Table 3).
Discussion
저자들은 LRM 이 “선택적 faithfulness” 를 보인다고 결론 — 일부 step 은 후속 reasoning 에 영향을 주지만, 결론 부분은 자주 final answer 와 무관하게 생성된다. 한계: counterfactual 주입이 자연스러운 배포 환경과 완전히 일치하지 않음, 긴 draft 의 fine-grained dependency 추적은 본질적으로 어려움, faithfulness 저하가 downstream (monitoring·safety) 에 미치는 영향은 미탐구.
Insights
- 주목할 점: draft 결론의 인과적 힘이 모델마다 극단적으로 다르다 — 특히 QwQ-32B 의 낮은 draft-to-answer consistency 는 “reasoning RL” 의 부작용 가능성을 시사.
- 연결 고리: Reasoning Models Don’t Always Say What They Think 의 correlational 관찰을 interventional 로 확장한 것. Measuring Faithfulness in Chain-of-Thought Reasoning 의 truncation/paraphrasing 방법을 LRM 특유의 multi-path draft 에 맞춰 세분화.
- 시사점: Thinking draft 을 monitoring 증거로 쓰려는 safety research 는 faithfulness 등급을 반드시 함께 보고해야 한다.
- 비판적 코멘트: 개입 문장이 GPT-4o-mini 로 생성되어 distribution shift 가 있을 수 있고, open-ended reasoning (수학 풀이 등) 이 아니라 MC QA 중심이라 일반화는 제한적.
Discussion Points
- 논쟁점: QwQ 가 intra-draft 는 faithful 한데 draft-to-answer 는 극히 unfaithful 한 이유 — RL reward shaping 의 결과인가, 아니면 distillation 의 결과인가?
- 검증 필요 가정: counterfactual step 이 자연스러운 draft 분포와 충분히 가까운가?
- 후속 연구: faithfulness 와 safety monitoring 성능의 상관, reasoning RL 이 faithfulness 에 주는 체계적 영향.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models |
| 저자 | Zidi Xiong, Shan Chen, Zhenting Qi, Himabindu Lakkaraju |
| 소속 | Harvard University |
| 연도 | 2025 |
| 발표 | arXiv:2505.13774 (v2, 2025-05-28) |
| 링크 | arXiv, GitHub, HF Dataset |
| 키워드 | LRM, thinking draft, faithfulness, counterfactual intervention, do-calculus |
왜 이 연구를 하는가?
핵심 질문
LRM 이 final answer 이전에 생성하는 thinking draft 는 실제로 그 답을 인과적으로 결정짓는가, 아니면 post-hoc rationalization 에 가까운가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| 상관 기반 faithfulness | 기존 연구 (Lanham+ 2023, Turpin+ 2023) 는 CoT 와 답의 상관만 측정 — draft 가 바뀌면 답도 바뀌는지 직접 검증하지 않음 |
| LRM 구조 미반영 | 기존 faithfulness 평가는 짧은 CoT 용. LRM 의 multi-path backtracking draft 구조에 맞는 개입 지점이 정의되지 않음 |
| 개입 없는 관찰 | draft 를 그대로 두고 final answer 만 보는 black-box 평가로는 인과 검증 불가 |
핵심 통찰
- Faithfulness 는 do-operator 로만 검증 가능하다 — “draft 를 바꿨을 때 답이 바뀌는가” 라는 counterfactual 을 직접 생성해야 한다.
- 개입 지점을 둘로 분리해야 한다: draft 내부 step 간 의존성 (Intra-Draft) vs draft 결론 → final answer 의존성 (Draft-to-Answer). 한 모델이 전자는 높지만 후자는 낮을 수 있다 (실제로 QwQ 가 그렇다).
방법 (Method)
프레임워크 개요
graph TB Q[Question + MC options] --> D[LRM generates thinking draft] D --> A[Final Answer] D -.->|Intervention Type 1| I1[Insert counterfactual step<br/>early/middle/end position] I1 --> D2[Continued draft] D2 --> FT{Does subsequent<br/>draft honor<br/>the inserted step?} FT -->|Yes| F1[Intra-Draft Faithful] FT -->|No| U1[Unfaithful] D -.->|Intervention Type 2| I2[Replace draft conclusion<br/>with wrong-answer claim] I2 --> A2[New final answer] A2 --> FA{Did answer follow<br/>the modified<br/>conclusion?} FA -->|Yes| F2[Draft-to-Answer Faithful] FA -->|No| U2[Answer decoupled from draft]
핵심 구성요소
1. Intra-Draft 개입 4종
- Shift-Continue: 선택지 라벨 재매핑 + 전방 reasoning step
- Shift-Backtrack: 선택지 라벨 재매핑 + “wait, let me reconsider” 식 수정 step
- Corrupt-Continue: GPT-4o-mini 가 한 선택지를 틀린 내용으로 바꿈 + 전방 step
- Corrupt-Backtrack: 동일 corrupt + backtrack step
→ 개입 후 draft 가 변경된 매핑/선택지를 실제로 언급·사용해야 faithful.
2. Draft-to-Answer 개입 2종
- Direct Alternation: “But after considering all this, I think {wrong_choice} is the most appropriate answer” 한 문장만 삽입.
- Plausible Alternation: GPT-4o-mini 로 오답을 지지하는 coherent reasoning 생성 후 결론 부분 대체.
3. Draft Reliance 보조 측정 — draft 없이 즉답하게 했을 때(immediate answering) 답이 그대로면 draft 는 장식이다. 답이 달라지면 draft 에 실제로 의존.
발견 (Findings)
주요 결과
| 모델 | Intra-Draft Faithful % (GPQA / MMLU) | Draft Reliance % (GPQA / MMLU) | Draft-Answer Consistency % (GPQA / MMLU) |
|---|---|---|---|
| R1-Distill-Qwen-7B | 45.5 / 57.2 | 48.7 / 80.3 | 39.7 / 78.3 |
| R1-Distill-Qwen-32B | 57.8 / 68.0 | 67.1 / 94.5 | 40.8 / 81.8 |
| QwQ-32B | 58.1 / 65.6 | 83.8 / 85.6 | 19.5 / 13.4 |
| Skywork-OR1-32B | 55.9 / 68.2 | — / — | 29.9 / 49.6 |
출처: Table 1 (intra-draft), Table 3 (reliance), Table 4 (consistency).
핵심 발견
- Intra-Draft faithfulness 는 스케일과 함께 완만히 증가 하지만 32B 수준에서도 57% 대 — 절반 가까운 개입이 draft 에 반영되지 않음.
- Draft-to-Answer 는 모델 아키텍처에 강하게 의존 — R1-Distill 은 MMLU 에서 78
82% 로 상당히 faithful 한 반면, QwQ-32B 는 1320% 에 그침. 즉 같은 32B 라도 훈련 방식에 따라 thinking on/off 의 인과적 영향이 5배 차이. - Faithfulness 는 두 축에서 독립적 — QwQ 는 intra 최고·answer 최저. 이는 “draft 안에서는 일관되지만 결론과 답이 따로 논다” 는 의미.
이론적 의의
Thinking Mode 는 인과적으로 측정해야 한다
본 연구는 “thinking draft 가 있으면 reasoning 이 일어난다” 는 암묵적 전제를 반박한다. draft 존재 여부, draft 내용, final answer 의 세 변수 간 인과 그래프는 모델마다 다르며 이를 interventional 평가로만 구분할 수 있다.
Safety·Monitoring 함의
draft 를 Scratchpad-as-oversight 증거로 활용하려는 접근 (예: Claude Alignment Faking 모니터링) 은 draft-to-answer faithfulness 가 낮은 모델에서 체계적으로 오도될 수 있다 — QwQ 처럼 draft 에서는 “윤리적 숙고” 를 하고 답은 정반대로 나올 수 있다.
Reasoning RL 의 부작용 가설
QwQ 와 Skywork-OR1 은 강한 RL 기반 reasoning training 을 거친 모델이고, 이들이 특히 낮은 draft-to-answer consistency 를 보인 것은 reward hacking 의 한 형태 — 답만 정답이면 되므로 draft 가 답과 decoupled 되어도 penalize 되지 않는다 — 일 가능성을 시사.
재현성 및 신뢰도 평가
| 항목 | 등급 | 비고 |
|---|---|---|
| 코드 공개 | ✅ | github.com/polaris-73/faithful-thinking-draft |
| 데이터 공개 | ✅ | HuggingFace polaris-73/faithful-thinking-draft |
| 하이퍼파라미터 | ✅ | 개입 템플릿·위치·GPT-4o-mini 프롬프트 명시 |
| 실험 환경 | ⚠️ | GPU spec 은 부록에만 간략 |
| 통계적 신뢰도 | ⚠️ | 다중 실행 평균은 있으나 표준편차/유의성 검정은 부분적 |
| 종합 등급 | A | 개입 방식이 명시적이고 공개 데이터·코드로 재현 가능 |
주장별 신뢰도
| # | 주장 | 근거 | 신뢰도 |
|---|---|---|---|
| 1 | LRM 은 selective intra-draft faithfulness 를 보인다 (45~58%) | Table 1 6 모델 × 2 데이터 × 4 개입 | 🟢 |
| 2 | QwQ-32B 의 draft-to-answer consistency 가 극히 낮다 (13~20%) | Table 4 direct+plausible alternation | 🟢 |
| 3 | 모델 크기가 커질수록 intra-draft faithfulness 가 개선 | R1-Distill 7B→32B trend | 🟡 (6개 모델로 trend 일반화는 약함) |
| 4 | Reasoning RL 이 draft decoupling 을 유발 | QwQ·OR1 패턴 관찰 | 🔴 (관찰적 가설, 인과 증명 없음) |
읽기 난이도: ⭐⭐
LRM·CoT·counterfactual 개념 기본 이해 필요. 개입 절차는 도식 없이 문장 템플릿으로 설명되어 표 교차 참조가 다소 필요.
관련 연구 비교 매트릭스
| 축 | 본 논문 (Xiong+ 2025) | Lanham+ 2023 (Measuring Faithfulness in CoT) | Turpin+ 2023 (Reasoning Models Don’t Say What They Think) | Chen+ 2025 (Reasoning Theater) |
|---|---|---|---|---|
| 핵심 접근 | Counterfactual step 삽입 + 결론 교체 | CoT truncation + paraphrasing | Biased prompt 로 CoT-answer 불일치 유도 | CoT 와 내부 belief probe 비교 |
| 문제 정의 | LRM thinking draft 의 two-axis faithfulness | 짧은 CoT 의 post-hoc rationalization | Bias 편향 시 CoT 의 거짓 합리화 | CoT 가 진짜 belief 를 반영하는가 |
| 데이터 | GPQA Diamond, MMLU Redux (MC QA) | BBH, AQuA 등 | BBH biased variants | 다중 QA |
| 핵심 메트릭 | Intra-Draft Faithful%, Draft-Answer Consistency% | Post-hoc vs intermediate accuracy | Bias-induced answer flip rate | Belief-CoT 정합도 |
| 확장성 | 모든 LRM 에 재현 가능 (템플릿 개입) | 짧은 CoT 에 국한 | Biased prompt 구성 필요 | 모델 internals 접근 필요 |
| 한계 | Synthetic 개입의 자연성 | LRM 긴 draft 미커버 | Bias 외 요인 미분리 | Probe 품질에 의존 |
| 코드 공개 | ✅ | ✅ | ✅ | ⚠️ (부분) |
관련 연구
- Reasoning Models Don’t Always Say What They Think — 본 논문이 인과적으로 확장한 관찰적 연구.
- Measuring Faithfulness in Chain-of-Thought Reasoning — truncation/paraphrasing 원조; 본 논문은 counterfactual step insertion 으로 업그레이드.
- Reasoning Theater - Disentangling Model Beliefs from Chain-of-Thought — CoT 와 internal belief 의 괴리를 다른 각도에서 측정.
- Chain-of-Thought Reasoning In The Wild Is Not Always Faithful — in-the-wild faithfulness 관찰.
- Let’s Think Dot by Dot - Hidden Computation in Transformer Language Models — 토큰 내용과 무관한 hidden computation 의 존재, 본 논문의 “draft-answer decoupling” 과 공명.
원자적 인사이트 (Zettelkasten)
💡 Thinking Draft Faithfulness 는 단일 지표가 아니라 Two-Axis 문제다
출처: Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models (Xiong et al., 2025)
유형: 방법론적
한 LRM 이 draft 내부 step 간 의존성(Intra-Draft)은 높은데 draft 결론 → final answer 의존성(Draft-to-Answer)은 낮을 수 있다. QwQ-32B 가 전자는 58%로 최고이면서 후자는 13~20%로 최저인 것이 증거다. 따라서 “이 모델의 CoT 는 faithful 한가?” 라는 단일 질문은 잘못 설정된 것이며, 두 축을 별도로 보고해야 한다.
핵심 조건/맥락: MC QA 세팅에서 검증. Open-ended generation 으로 일반화 시 축의 수가 더 늘어날 가능성.
연결: Reasoning Models Don’t Always Say What They Think, Let’s Think Dot by Dot - Hidden Computation in Transformer Language Models
활용 가능성: Safety monitoring pipeline 이 draft 를 증거로 쓸 때 두 축 등급을 동시에 요구하는 체크리스트 설계.
💡 Reasoning RL 은 Draft-Answer Decoupling 의 의심 원인이다
출처: Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models (Xiong et al., 2025)
유형: 이론적 (가설)
강한 RL 기반 reasoning training 을 거친 QwQ-32B · Skywork-OR1-32B 가 draft-to-answer consistency 에서 DeepSeek-R1-Distill 계열보다 현저히 낮다 (GPQA 에서 19.5% / 29.9% vs R1-32B 40.8%). 답만 정답이면 보상되므로 draft 와 답이 분리돼도 penalize 되지 않는 reward structure 가 이 decoupling 을 낳는다는 가설이 자연스럽다.
핵심 조건/맥락: 관찰적 증거이며 인과 증명은 아님. 동일 base 모델에 RL 유무만 바꾼 ablation 이 필요.
연결: DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, Logic-RL - Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
활용 가능성: Reasoning RL 학습 루프에 draft-answer consistency 를 auxiliary reward 로 포함하는 연구 설계.
💡 Counterfactual 개입은 LRM Interpretability 의 표준 도구가 될 수 있다
출처: Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models (Xiong et al., 2025)
유형: 방법론적
Draft 특정 위치에 템플릿 문장(선택지 재매핑, 결론 교체)을 삽입하는 간단한 개입만으로 모델 간 인과 구조 차이를 선명히 드러낼 수 있다. 이는 mechanistic interpretability 의 무거운 기법(activation patching, probe)에 비해 저비용 고해상도 대안이다.
핵심 조건/맥락: MC QA 기반. Open-ended 에는 결론 부분 정의가 어려워 추가 설계 필요.
연결: Language Models Don’t Always Say What They Think - Unfaithful Explanations in Chain-of-Thought Prompting
활용 가능성: 모든 새 reasoning 모델 release 시 “draft faithfulness card” 를 표준 보고 항목으로 요구.
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| LRM (Large Reasoning Model) | Final answer 이전에 긴 CoT draft 을 생성하도록 훈련된 모델. o1, DeepSeek-R1, QwQ 등. |
| Thinking Draft | LRM 이 답 이전에 생성하는 multi-step, 종종 backtracking 을 포함하는 긴 reasoning trajectory. |
| Faithfulness | 모델이 내놓는 자연어 reasoning 이 실제 내부 의사결정 과정을 반영하는 정도. |
| Counterfactual Intervention | Pearl 의 do-operator 에 해당 — 특정 변수를 인위로 바꾼 뒤 다른 변수의 변화를 측정. |
| Intra-Draft Faithfulness | Draft 내부의 한 step 을 바꿨을 때 후속 step 이 이를 반영하는가. |
| Draft-to-Answer Faithfulness | Draft 결론을 바꿨을 때 final answer 가 따라 바뀌는가. |
| Draft Reliance | Draft 를 제거하고 즉답하게 했을 때 답이 얼마나 바뀌는가 — draft 의존도 지표. |
| Shift Mapping / Corrupt Option | 선택지 라벨 재매핑 vs 선택지 내용 오답화 — 두 가지 intra-draft 개입 유형. |
| Backtrack Step | ”Wait, let me reconsider…” 식 명시적 수정 step. |
태그
paper #2025 Reasoning Faithfulness CoT LRM CounterfactualIntervention Causality Qwen DeepSeek