Thinking 과 Nothinking 의 Calibration — 추론 모델 안의 두 모드를 ICL 로 조율하기
Digest: Qwen3 · DeepSeek-R1 같은 RLLM(Reasoning LLM, thinking 모드 토글이 가능한 모델)에서 같은 질문에 대해 Thinking 모드와 Nothinking 모드로 병렬 생성한 두 답이 얼마나 자주 달라지는지 를 직접 측정하고, 이를 활용한 새 ICL 기법 JointThinking 을 제안한 연구다. 기존 연구들이 thinking mode 를 “켜면 항상 좋다” 고 전제한 것과 달리, 이 논문의 핵심 통찰은 “두 모드의 답이 일치하면 거의 항상 정답이고, 불일치할 때만 두 번째 thinking 이 필요하다” 는 경험적 관찰 — GSM8K·R1-32B 에서 두 모드 일치 시 오답률이 1.55% 이하, 두 답이 일치하는 비율은 94% 에 달해 2차 thinking 은 6% 의 쿼리에만 발동된다. 방법은 (1) Thinking/Nothinking 병렬 프롬프트 → (2) 답 비교 → (3) 불일치 시에만 두 답을 함께 제시하는 single prompt 로 한 번 더 thinking. 핵심 수치: Qwen3-14B · AIME24 에서 Thinking 단독 62.9% → Nothinking 단독 27.5% → JointThinking 71.7% (+8.8pt over thinking), R1-32B · AIME24 에서 65.4% → 39.6% → 70.8% (+5.4pt). OOD 에서는 training-based AdaptThink 를 크게 앞선다 (MMLU-Pro R1-7B 66.8% vs 57.1%). 한계는 consistency check 가 exact-match 의존, 실험이 32B 급까지, 그리고 reasoning 모델의 불충분한 instruction-following 이 ICL 확장을 막는다는 점. 열린 질문: 두 모드 불일치가 드러내는 reasoning failure 의 종류 는 무엇이고, 왜 thinking 이 오히려 틀리게 만드는 경우가 있는가.
섹션별 요약
Introduction
RLLM 의 multi-step reasoning 능력은 training/inference 전략 위주로 연구돼 왔고, ICL(In-Context Learning) 측면은 미탐구 이다. 본 논문은 Thinking/Nothinking 이라는 두 가지 내재된 모드를 ICL 자원으로 재해석한다.
Motivation
thinking 이 항상 정답을 보장하지 않고, Nothinking 이 맞추는 쉬운 문제도 많다 — 이 둘을 어떻게 조합할지가 새로운 ICL 디자인 문제가 된다.
Check
사람으로 치면 task-level에 따라 deep-thinking이 필요한 경우도 있고 아닌 경우도 존재하니까, task-level을 먼저 한 번 간 본 다음 think token을 trigger하는 방식으로 사용하는 패러다임을 제시해보는 건 어떨까?
MemGen 구조인거지. thinking을 할지 말지 여부 결정하게 하는.
Methods
JointThinking 파이프라인 (세 단계):
- Parallel Generation: 동일 질문에 대해 Thinking 모드와 Nothinking 모드 각각 한 답 생성.
- Consistency Check: 두 답이 일치하면 그대로 채택 (대부분의 쿼리).
- Second-Round Thinking: 불일치 시 두 답을 함께 제시하는 single prompt 로 Thinking 모드 재호출 — 두 후보 중 선택하거나 새 답 생성.
System1 - System2 Fusion
System1이랑 System2가 상충하는 결과를 return할 때, 이를 조율하는 걸 system2로 해결하려는 접근으로 보이는데, 별도의 module을 달 수는 없는걸까? 그 별도의 모듈은 어떻게 만들고 어디서 가져와야 할까?
핵심은 “inconsistency = 어려움 신호” 라는 내재적 calibration 을 활용하는 것. 추가 훈련 없이 inference-only.
Results
| Model | Benchmark | Thinking only | Nothinking only | JointThinking | Δ vs Thinking |
|---|---|---|---|---|---|
| R1-Distill-Qwen-7B | MATH500 | 87.60 | 74.60 | 87.80 | +0.2 |
| R1-Distill-Qwen-32B | AIME24 | 65.42 | 39.58 | 70.83 | +5.4 |
| Qwen3-14B | AIME24 | 62.92 | 27.50 | 71.67 | +8.8 |
| R1-Distill-Qwen-7B (OOD) | MMLU-Pro | — | — | 66.79 (vs AdaptThink 57.07) | +9.7 vs SOTA |
| R1-Distill-Qwen-7B (OOD) | GPQA | — | — | 57.49 (vs AdaptThink 51.23) | +6.3 vs SOTA |
- GSM8K · R1-32B 에서 두 모드 일치율 94%, 일치 시 오답률 0.00~1.55%. 즉 2차 thinking 은 6% 의 쿼리에만 발동.
- Thinking 과 Nothinking 의 직접 불일치율 이 문제 난이도와 거의 monotonic (GSM8K < MATH500 < AIME) — 불일치가 uncertainty 의 자연 지표.
Discussion
저자들은 JointThinking 이 few-shot CoT, Thinking-Twice, Majority Voting 을 모두 능가한다고 보고. 특히 2차 thinking 시 model size 와 이상적 정답률의 gap 이 줄어든다 — 큰 모델일수록 두 모드 불일치를 더 잘 재조정. 한계: exact-match 기반 consistency check (생성형 QA 에 취약), 32B 이상 미실험, RLLM 의 instruction-following 한계로 ICL 확장 어려움.
Insights
- 주목할 점: Thinking 모드가 틀리게 만드는 사례가 체계적으로 존재 — Nothinking 이 맞추고 Thinking 이 틀리는 비율이 benchmark 따라 무시 못 할 수준 (예: AIME24 에서 Qwen3-14B 는 Thinking 62.9%, JointThinking 71.7% → 약 8.8pt 의 gain 중 상당수가 Thinking 을 “끄거나 재조정” 해서 얻은 것).
- 연결 고리: Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models 가 개입 기반으로 draft-answer 의 인과를 측정한 반면, 본 논문은 자연 발생한 모드 간 불일치 를 증거로 쓴다 — 인과 측정의 다른 앵글.
- 시사점: Thinking 을 “항상 켜기” 보다 “불일치 감지기” 로 쓰는 것이 추론 효율·정확도 모두 유리.
- 비판적 코멘트: Nothinking 모드의 답이 실제로 “reasoning 없이” 나온 것인지 검증 부족 — 모델이 내부적으로 CoT 를 압축해 수행할 수 있다.
Discussion Points
- 논쟁점: 두 모드의 답 일치가 정답을 보장한다는 것은 상관 인가 인과 인가? 둘 다 같은 bias 로 틀릴 가능성 (shared failure mode).
- 검증 필요 가정: Consistency rate 가 benchmark distribution 에 robust 한가.
- 후속 연구: 세 번째 모드 (e.g., tool-use, RAG) 를 추가해 triple-calibration 으로 확장. Thinking 이 틀리고 Nothinking 이 맞는 쿼리 집합의 분류학.
왜 이 연구를 하는가?
핵심 질문
같은 RLLM 의 Thinking 모드와 Nothinking 모드는 언제 같은 답을 내고 언제 다른 답을 내는가? 두 모드의 불일치를 활용하면 ICL 성능을 올릴 수 있는가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| Thinking 항상 ON 전제 | 기존 연구는 thinking 모드의 output 만 분석. Nothinking 과의 차이를 자원으로 보지 않음. |
| Training-based mode routing 의존 | AdaptThink 같은 방법은 thinking 사용 여부를 학습으로 결정 — OOD 일반화 취약. |
| Thinking-Twice 낭비 | 매 쿼리에 thinking 을 두 번 돌리는 기존 기법은 대부분 쿼리에서 비용 낭비. |
핵심 통찰
- RLLM 에는 이미 두 가지 “관점” 이 내장돼 있다 (Thinking / Nothinking). 이는 다른 모델과의 앙상블 없이 단일 모델 내 self-disagreement 를 만들 수 있는 희귀 자원.
- 두 모드가 일치하면 거의 항상 정답 이라는 경험 법칙 — 이는 곧 불일치를 선택적 computation 의 trigger 로 쓸 수 있다는 뜻.
방법 (Method)
프레임워크 개요
graph TB Q[Question] --> T[Thinking mode generation] Q --> N[Nothinking mode generation] T --> CT[Answer_T] N --> CN[Answer_N] CT --> CHK{Answer_T == Answer_N ?} CN --> CHK CHK -->|Yes ~94% of queries| OUT1[Accept consensus answer] CHK -->|No ~6% of queries| SR[Second-round Thinking prompt<br/>with both Answer_T and Answer_N<br/>as context] SR --> OUT2[Final answer]
핵심 구성요소
1. Parallel Generation — 동일 prompt 에 /think 와 /no_think (Qwen3) 또는 해당 토큰 제어로 병렬 호출. Temperature 는 Qwen3 권장값 (Thinking 0.6, Nothinking 0.7).
2. Consistency Check — 수학/MC 태스크에서는 exact-match. Open-ended 는 저자들이 추가 정규화 수행.
3. Second-Round Thinking — 불일치 발생 시 단일 프롬프트 안에 두 후보를 제시:
“Thinking mode said X, Nothinking mode said Y. Reconsider carefully and give the final answer.”
다시 Thinking 모드로 호출해 tie-breaker.
발견 (Findings)
주요 결과
In-distribution (수학):
| 모델 | AIME24 Thinking | AIME24 Nothinking | AIME24 Joint | MATH500 Thinking | MATH500 Joint |
|---|---|---|---|---|---|
| R1-Distill-Qwen-7B | — | — | — | 87.60 | 87.80 |
| R1-Distill-Qwen-32B | 65.42 | 39.58 | 70.83 | — | — |
| Qwen3-14B | 62.92 | 27.50 | 71.67 | — | — |
Out-of-distribution (R1-Distill-Qwen-7B):
| Benchmark | JointThinking | AdaptThink (SOTA training-based) |
|---|---|---|
| MMLU-Pro | 66.79 | 57.07 |
| GPQA | 57.49 | 51.23 |
출처: Paper Tables (HTML v4).
핵심 발견
- 두 모드 일치 시 정답률 ≈100% — GSM8K·R1-32B 에서 일치 케이스 오답률 1.55% 이하. 이것이 JointThinking 을 성립시키는 경험 법칙.
- Nothinking 이 맞고 Thinking 이 틀리는 케이스가 체계적으로 존재 — AIME24 에서 Qwen3-14B 는 Thinking 으로 62.9%, 두 모드 조합 시 71.7%. Gain 의 일부는 Thinking 단독일 때 틀렸던 문제를 Nothinking 가 바로잡은 데서 옴.
- 난이도에 따른 자연스러운 자원 배분 — GSM8K 는 94% 가 Nothinking 만으로 충분, AIME 는 두 모드 불일치율이 훨씬 높아 Joint 의 gain 이 커짐.
- OOD 에서 training-free 가 training-based 를 앞섬 — AdaptThink 대비 MMLU-Pro +9.7pt, GPQA +6.3pt. Training 은 distribution shift 에 취약한 반면 ICL 은 zero-shot 범용성 유지.
이론적 의의
Thinking Mode 는 스위치가 아니라 분포다
본 연구는 thinking/nothinking 을 이항 스위치가 아니라 두 가지 서로 다른 답변 분포 로 재개념화한다. 두 분포의 agreement 는 내장 calibration 으로 작동하여, 모델이 자신의 uncertainty 를 외부 probe 없이 드러낼 수 있다.
Thinking 이 오히려 해가 되는 영역의 존재
AIME 같은 어려운 태스크에서도 Nothinking 이 맞추고 Thinking 이 틀리는 쿼리가 존재한다는 것은 “thinking 은 항상 도움이 된다” 는 가정에 대한 반례. 이는 Reasoning Models Don’t Always Say What They Think 의 관찰과 정합적이다.
ICL 이 Reasoning 모델의 새 설계 축으로 부상
기존 RLLM 연구가 training 과 inference-time search (Tree of Thoughts 등) 에 집중한 것과 달리, 모델의 내장 모드를 ICL 자원으로 활용 하는 길을 연다. 향후 세 번째, 네 번째 모드(tool-use, RAG persona 등) 와의 multi-way calibration 으로 확장 가능.
재현성 및 신뢰도 평가
| 항목 | 등급 | 비고 |
|---|---|---|
| 코드 공개 | ✅ | github.com/HAOTIAN89/JointThinking |
| 데이터 공개 | ✅ | 표준 benchmark 사용 (GSM8K, MATH500, AIME24, AMC23, MMLU-Pro, GPQA) |
| 하이퍼파라미터 | ✅ | Qwen3/R1 권장 temperature 등 명시 |
| 실험 환경 | ⚠️ | GPU spec 부록 |
| 통계적 신뢰도 | ⚠️ | 다중 seed 평균이나 표준편차는 부분적 |
| 종합 등급 | A | Training-free 이므로 재현 진입장벽 매우 낮음 |
주장별 신뢰도
| # | 주장 | 근거 | 신뢰도 |
|---|---|---|---|
| 1 | 두 모드 일치 시 정답률 ≈ 100% | GSM8K·R1-32B 일치 케이스 오답률 0~1.55% | 🟢 |
| 2 | JointThinking 이 Thinking-only 을 능가 | R1-32B AIME24 +5.4pt, Qwen3-14B +8.8pt | 🟢 |
| 3 | OOD 에서 training-based SOTA 능가 | MMLU-Pro +9.7pt, GPQA +6.3pt vs AdaptThink | 🟢 |
| 4 | Nothinking 이 Thinking 보다 나은 쿼리 집합이 존재 | AIME24 에서 Thinking → Joint gain 의 원천 | 🟡 (집계 수치 중심, per-query 분석은 제한적) |
| 5 | 큰 모델일수록 second-thinking 의 개선 폭 큼 | 7B→32B scaling 관찰 | 🟡 (3~4개 사이즈로 trend 주장) |
읽기 난이도: ⭐⭐
Qwen3 / DeepSeek-R1 의 mode 토글, ICL 기본 개념 필요. 방법은 개념적으로 단순해 초심자 친화적이나 결과 표가 많아 비교 교차 참조가 요구됨.
관련 연구 비교 매트릭스
| 축 | 본 논문 (Wu+ 2025) | AdaptThink (Li+ 2025) | Thinking-Twice / Self-Consistency | Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models |
|---|---|---|---|---|
| 핵심 접근 | Thinking/Nothinking 병렬 + 불일치 시 2차 thinking | Thinking 사용 여부를 RL 로 학습 | Thinking 모드 반복 호출 후 다수결 | Draft 내부/결론 counterfactual 개입 |
| 문제 정의 | Mode disagreement 를 ICL 자원화 | Thinking 비용 최적화 | Reasoning variance 완화 | Draft 와 답의 인과 의존 측정 |
| 데이터 | GSM8K/MATH500/AIME/AMC/MMLU-Pro/GPQA | 수학 위주 | 수학/QA 범용 | GPQA/MMLU Redux MC |
| 핵심 메트릭 | ID/OOD 정확도, 일치율 | 정확도 × token cost | Pass@k / majority@k | Faithfulness rate |
| 확장성 | Training-free, 모든 RLLM | 모델별 재학습 필요 | Thinking 호출 N배 비용 | 모든 LRM 에 적용 |
| 한계 | Exact-match consistency 의존 | OOD 취약 | 비용 높음 | MC QA 중심 |
| 코드 공개 | ✅ | ✅ | — | ✅ |
관련 연구
- Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models — 두 논문은 상호보완: 본 논문은 “mode 간 자연 불일치”, 저 논문은 “draft 내 인위 개입” 으로 동일한 thinking 인과성 질문에 다른 앵글로 접근.
- DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — R1-Distill 계열 모델이 본 논문의 주요 실험 대상.
- Reasoning Models Don’t Always Say What They Think — thinking mode 가 답을 바꾸지 않는 경우에 대한 선행 경험 증거.
- Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters — test-time compute 배분 문제로 연결, JointThinking 은 그 중 한 가지 전략.
- Let’s Think Dot by Dot - Hidden Computation in Transformer Language Models — Nothinking 모드에서도 내부적으로 hidden computation 이 일어날 가능성.
원자적 인사이트 (Zettelkasten)
💡 Mode Agreement 는 내장 Uncertainty Signal 이다
출처: Thinking with Nothinking Calibration - A New In-Context Learning Paradigm in Reasoning Large Language Models (Wu et al., 2025)
유형: 실험적
같은 RLLM 의 Thinking/Nothinking 두 모드가 같은 답을 내면 그 답이 거의 항상 정답 (GSM8K·R1-32B 에서 일치 시 오답률 ≤1.55%) 이다. 이는 외부 probe 없이 모델의 self-disagreement 를 uncertainty 지표로 쓸 수 있음을 보여준다. 앙상블에 다른 모델이 필요하지 않다.
핵심 조건/맥락: Mode 토글을 지원하는 RLLM (Qwen3, DeepSeek-R1-Distill) 에 한정. Closed-source thinking 모델에는 직접 적용 불가.
연결: Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models
활용 가능성: RLLM 배포 시 per-query confidence 출력을 기본 제공, 불일치 쿼리만 human-in-the-loop 으로 라우팅.
💡 Thinking 이 오히려 틀리게 하는 쿼리가 체계적으로 존재한다
출처: Thinking with Nothinking Calibration - A New In-Context Learning Paradigm in Reasoning Large Language Models (Wu et al., 2025)
유형: 실패/한계
AIME24 같은 어려운 수학에서 Qwen3-14B 의 Thinking-only 정확도는 62.9%, 두 모드 조합 시 71.7% — gain 중 상당 부분은 Nothinking 이 맞추고 Thinking 이 틀렸던 문제를 재조정한 데서 나온다. “Thinking = 더 낫다” 전제가 전역적으로는 성립하지 않는다.
핵심 조건/맥락: 수학 태스크에서 가장 뚜렷. 언어적 reasoning 에서는 패턴이 다를 수 있음.
연결: Reasoning Models Don’t Always Say What They Think, Measuring Faithfulness in Chain-of-Thought Reasoning
활용 가능성: 쿼리별 mode selection 알고리즘 개발 — “언제 thinking 을 끄는 것이 나은가” 를 예측하는 classifier.
💡 Training-Free Calibration 이 OOD 에서 Training-Based SOTA 를 이긴다
출처: Thinking with Nothinking Calibration - A New In-Context Learning Paradigm in Reasoning Large Language Models (Wu et al., 2025)
유형: 이론적
AdaptThink 같은 training-based mode routing 은 ID 에서는 강하지만 OOD (MMLU-Pro, GPQA) 에서 JointThinking 대비 9.7pt / 6.3pt 낮다. 모델 내장 모드 간 disagreement 를 쓰는 ICL 방식이 distribution shift 에 본질적으로 robust 하다.
핵심 조건/맥락: 두 모드가 동일 base 모델에서 나와 같은 shift 에 동시에 노출된다는 점이 robustness 의 원천.
연결: Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
활용 가능성: OOD 가 중요한 배포 시 training-based 보다 ICL calibration 우선 고려. Safety-critical domain 에 특히 유용.
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| RLLM (Reasoning LLM) | Thinking mode 를 내장한 LLM. Qwen3, DeepSeek-R1 계열 등. |
| Thinking Mode | 긴 CoT draft 을 먼저 생성한 후 답을 내는 모드. Qwen3 에서는 /think 토큰으로 활성화. |
| Nothinking Mode | Draft 없이 바로 답하는 모드. /no_think 로 활성화. |
| JointThinking | 두 모드를 병렬 생성 후 불일치 시에만 2차 thinking 을 하는 ICL 프레임워크 (본 논문 제안). |
| In-Context Learning (ICL) | 모델 파라미터를 업데이트하지 않고 prompt 내 예시/지시로 행동을 조정하는 학습 방식. |
| Mode Agreement | 두 모드가 같은 최종 답을 낸 상태. 일치율 ≈ 내장 confidence 지표. |
| AdaptThink | Training-based thinking-mode router — 쿼리별로 thinking 사용 여부를 학습해 결정 (본 논문의 주요 비교 baseline). |
| Thinking-Twice | Thinking 모드를 두 번 호출해 다수결하는 단순 self-consistency 변형. |
태그
paper #2025 Reasoning ThinkingMode ICL Qwen3 DeepSeekR1 Calibration ModeConsistency RLLM