Thinking 과 Nothinking 의 Calibration — 추론 모델 안의 두 모드를 ICL 로 조율하기

Digest: Qwen3 · DeepSeek-R1 같은 RLLM(Reasoning LLM, thinking 모드 토글이 가능한 모델)에서 같은 질문에 대해 Thinking 모드와 Nothinking 모드로 병렬 생성한 두 답이 얼마나 자주 달라지는지 를 직접 측정하고, 이를 활용한 새 ICL 기법 JointThinking 을 제안한 연구다. 기존 연구들이 thinking mode 를 “켜면 항상 좋다” 고 전제한 것과 달리, 이 논문의 핵심 통찰은 “두 모드의 답이 일치하면 거의 항상 정답이고, 불일치할 때만 두 번째 thinking 이 필요하다” 는 경험적 관찰 — GSM8K·R1-32B 에서 두 모드 일치 시 오답률이 1.55% 이하, 두 답이 일치하는 비율은 94% 에 달해 2차 thinking 은 6% 의 쿼리에만 발동된다. 방법은 (1) Thinking/Nothinking 병렬 프롬프트 → (2) 답 비교 → (3) 불일치 시에만 두 답을 함께 제시하는 single prompt 로 한 번 더 thinking. 핵심 수치: Qwen3-14B · AIME24 에서 Thinking 단독 62.9% → Nothinking 단독 27.5% → JointThinking 71.7% (+8.8pt over thinking), R1-32B · AIME24 에서 65.4% → 39.6% → 70.8% (+5.4pt). OOD 에서는 training-based AdaptThink 를 크게 앞선다 (MMLU-Pro R1-7B 66.8% vs 57.1%). 한계는 consistency check 가 exact-match 의존, 실험이 32B 급까지, 그리고 reasoning 모델의 불충분한 instruction-following 이 ICL 확장을 막는다는 점. 열린 질문: 두 모드 불일치가 드러내는 reasoning failure 의 종류 는 무엇이고, 왜 thinking 이 오히려 틀리게 만드는 경우가 있는가.


섹션별 요약

Introduction

RLLM 의 multi-step reasoning 능력은 training/inference 전략 위주로 연구돼 왔고, ICL(In-Context Learning) 측면은 미탐구 이다. 본 논문은 Thinking/Nothinking 이라는 두 가지 내재된 모드를 ICL 자원으로 재해석한다.

Motivation

thinking 이 항상 정답을 보장하지 않고, Nothinking 이 맞추는 쉬운 문제도 많다 — 이 둘을 어떻게 조합할지가 새로운 ICL 디자인 문제가 된다.

Check

사람으로 치면 task-level에 따라 deep-thinking이 필요한 경우도 있고 아닌 경우도 존재하니까, task-level을 먼저 한 번 간 본 다음 think token을 trigger하는 방식으로 사용하는 패러다임을 제시해보는 건 어떨까?
MemGen 구조인거지. thinking을 할지 말지 여부 결정하게 하는.

Methods

JointThinking 파이프라인 (세 단계):

  1. Parallel Generation: 동일 질문에 대해 Thinking 모드와 Nothinking 모드 각각 한 답 생성.
  2. Consistency Check: 두 답이 일치하면 그대로 채택 (대부분의 쿼리).
  3. Second-Round Thinking: 불일치 시 두 답을 함께 제시하는 single prompt 로 Thinking 모드 재호출 — 두 후보 중 선택하거나 새 답 생성.

System1 - System2 Fusion

System1이랑 System2가 상충하는 결과를 return할 때, 이를 조율하는 걸 system2로 해결하려는 접근으로 보이는데, 별도의 module을 달 수는 없는걸까? 그 별도의 모듈은 어떻게 만들고 어디서 가져와야 할까?

핵심은 “inconsistency = 어려움 신호” 라는 내재적 calibration 을 활용하는 것. 추가 훈련 없이 inference-only.

Results

ModelBenchmarkThinking onlyNothinking onlyJointThinkingΔ vs Thinking
R1-Distill-Qwen-7BMATH50087.6074.6087.80+0.2
R1-Distill-Qwen-32BAIME2465.4239.5870.83+5.4
Qwen3-14BAIME2462.9227.5071.67+8.8
R1-Distill-Qwen-7B (OOD)MMLU-Pro66.79 (vs AdaptThink 57.07)+9.7 vs SOTA
R1-Distill-Qwen-7B (OOD)GPQA57.49 (vs AdaptThink 51.23)+6.3 vs SOTA
  • GSM8K · R1-32B 에서 두 모드 일치율 94%, 일치 시 오답률 0.00~1.55%. 즉 2차 thinking 은 6% 의 쿼리에만 발동.
  • Thinking 과 Nothinking 의 직접 불일치율 이 문제 난이도와 거의 monotonic (GSM8K < MATH500 < AIME) — 불일치가 uncertainty 의 자연 지표.

Discussion

저자들은 JointThinking 이 few-shot CoT, Thinking-Twice, Majority Voting 을 모두 능가한다고 보고. 특히 2차 thinking 시 model size 와 이상적 정답률의 gap 이 줄어든다 — 큰 모델일수록 두 모드 불일치를 더 잘 재조정. 한계: exact-match 기반 consistency check (생성형 QA 에 취약), 32B 이상 미실험, RLLM 의 instruction-following 한계로 ICL 확장 어려움.

Insights

  • 주목할 점: Thinking 모드가 틀리게 만드는 사례가 체계적으로 존재 — Nothinking 이 맞추고 Thinking 이 틀리는 비율이 benchmark 따라 무시 못 할 수준 (예: AIME24 에서 Qwen3-14B 는 Thinking 62.9%, JointThinking 71.7% → 약 8.8pt 의 gain 중 상당수가 Thinking 을 “끄거나 재조정” 해서 얻은 것).
  • 연결 고리: Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models 가 개입 기반으로 draft-answer 의 인과를 측정한 반면, 본 논문은 자연 발생한 모드 간 불일치 를 증거로 쓴다 — 인과 측정의 다른 앵글.
  • 시사점: Thinking 을 “항상 켜기” 보다 “불일치 감지기” 로 쓰는 것이 추론 효율·정확도 모두 유리.
  • 비판적 코멘트: Nothinking 모드의 답이 실제로 “reasoning 없이” 나온 것인지 검증 부족 — 모델이 내부적으로 CoT 를 압축해 수행할 수 있다.

Discussion Points

  • 논쟁점: 두 모드의 답 일치가 정답을 보장한다는 것은 상관 인가 인과 인가? 둘 다 같은 bias 로 틀릴 가능성 (shared failure mode).
  • 검증 필요 가정: Consistency rate 가 benchmark distribution 에 robust 한가.
  • 후속 연구: 세 번째 모드 (e.g., tool-use, RAG) 를 추가해 triple-calibration 으로 확장. Thinking 이 틀리고 Nothinking 이 맞는 쿼리 집합의 분류학.

왜 이 연구를 하는가?

핵심 질문

같은 RLLM 의 Thinking 모드와 Nothinking 모드는 언제 같은 답을 내고 언제 다른 답을 내는가? 두 모드의 불일치를 활용하면 ICL 성능을 올릴 수 있는가?

기존 접근법의 한계

한계설명
Thinking 항상 ON 전제기존 연구는 thinking 모드의 output 만 분석. Nothinking 과의 차이를 자원으로 보지 않음.
Training-based mode routing 의존AdaptThink 같은 방법은 thinking 사용 여부를 학습으로 결정 — OOD 일반화 취약.
Thinking-Twice 낭비매 쿼리에 thinking 을 두 번 돌리는 기존 기법은 대부분 쿼리에서 비용 낭비.

핵심 통찰

  • RLLM 에는 이미 두 가지 “관점” 이 내장돼 있다 (Thinking / Nothinking). 이는 다른 모델과의 앙상블 없이 단일 모델 내 self-disagreement 를 만들 수 있는 희귀 자원.
  • 두 모드가 일치하면 거의 항상 정답 이라는 경험 법칙 — 이는 곧 불일치를 선택적 computation 의 trigger 로 쓸 수 있다는 뜻.

방법 (Method)

프레임워크 개요

graph TB
    Q[Question] --> T[Thinking mode generation]
    Q --> N[Nothinking mode generation]
    T --> CT[Answer_T]
    N --> CN[Answer_N]
    CT --> CHK{Answer_T == Answer_N ?}
    CN --> CHK
    CHK -->|Yes ~94% of queries| OUT1[Accept consensus answer]
    CHK -->|No ~6% of queries| SR[Second-round Thinking prompt<br/>with both Answer_T and Answer_N<br/>as context]
    SR --> OUT2[Final answer]

핵심 구성요소

1. Parallel Generation — 동일 prompt 에 /think/no_think (Qwen3) 또는 해당 토큰 제어로 병렬 호출. Temperature 는 Qwen3 권장값 (Thinking 0.6, Nothinking 0.7).

2. Consistency Check — 수학/MC 태스크에서는 exact-match. Open-ended 는 저자들이 추가 정규화 수행.

3. Second-Round Thinking — 불일치 발생 시 단일 프롬프트 안에 두 후보를 제시:

“Thinking mode said X, Nothinking mode said Y. Reconsider carefully and give the final answer.”
다시 Thinking 모드로 호출해 tie-breaker.


발견 (Findings)

주요 결과

In-distribution (수학):

모델AIME24 ThinkingAIME24 NothinkingAIME24 JointMATH500 ThinkingMATH500 Joint
R1-Distill-Qwen-7B87.6087.80
R1-Distill-Qwen-32B65.4239.5870.83
Qwen3-14B62.9227.5071.67

Out-of-distribution (R1-Distill-Qwen-7B):

BenchmarkJointThinkingAdaptThink (SOTA training-based)
MMLU-Pro66.7957.07
GPQA57.4951.23

출처: Paper Tables (HTML v4).

핵심 발견

  1. 두 모드 일치 시 정답률 ≈100% — GSM8K·R1-32B 에서 일치 케이스 오답률 1.55% 이하. 이것이 JointThinking 을 성립시키는 경험 법칙.
  2. Nothinking 이 맞고 Thinking 이 틀리는 케이스가 체계적으로 존재 — AIME24 에서 Qwen3-14B 는 Thinking 으로 62.9%, 두 모드 조합 시 71.7%. Gain 의 일부는 Thinking 단독일 때 틀렸던 문제를 Nothinking 가 바로잡은 데서 옴.
  3. 난이도에 따른 자연스러운 자원 배분 — GSM8K 는 94% 가 Nothinking 만으로 충분, AIME 는 두 모드 불일치율이 훨씬 높아 Joint 의 gain 이 커짐.
  4. OOD 에서 training-free 가 training-based 를 앞섬 — AdaptThink 대비 MMLU-Pro +9.7pt, GPQA +6.3pt. Training 은 distribution shift 에 취약한 반면 ICL 은 zero-shot 범용성 유지.

이론적 의의

Thinking Mode 는 스위치가 아니라 분포다

본 연구는 thinking/nothinking 을 이항 스위치가 아니라 두 가지 서로 다른 답변 분포 로 재개념화한다. 두 분포의 agreement 는 내장 calibration 으로 작동하여, 모델이 자신의 uncertainty 를 외부 probe 없이 드러낼 수 있다.

Thinking 이 오히려 해가 되는 영역의 존재

AIME 같은 어려운 태스크에서도 Nothinking 이 맞추고 Thinking 이 틀리는 쿼리가 존재한다는 것은 “thinking 은 항상 도움이 된다” 는 가정에 대한 반례. 이는 Reasoning Models Don’t Always Say What They Think 의 관찰과 정합적이다.

ICL 이 Reasoning 모델의 새 설계 축으로 부상

기존 RLLM 연구가 training 과 inference-time search (Tree of Thoughts 등) 에 집중한 것과 달리, 모델의 내장 모드를 ICL 자원으로 활용 하는 길을 연다. 향후 세 번째, 네 번째 모드(tool-use, RAG persona 등) 와의 multi-way calibration 으로 확장 가능.


재현성 및 신뢰도 평가

항목등급비고
코드 공개github.com/HAOTIAN89/JointThinking
데이터 공개표준 benchmark 사용 (GSM8K, MATH500, AIME24, AMC23, MMLU-Pro, GPQA)
하이퍼파라미터Qwen3/R1 권장 temperature 등 명시
실험 환경⚠️GPU spec 부록
통계적 신뢰도⚠️다중 seed 평균이나 표준편차는 부분적
종합 등급ATraining-free 이므로 재현 진입장벽 매우 낮음

주장별 신뢰도

#주장근거신뢰도
1두 모드 일치 시 정답률 ≈ 100%GSM8K·R1-32B 일치 케이스 오답률 0~1.55%🟢
2JointThinking 이 Thinking-only 을 능가R1-32B AIME24 +5.4pt, Qwen3-14B +8.8pt🟢
3OOD 에서 training-based SOTA 능가MMLU-Pro +9.7pt, GPQA +6.3pt vs AdaptThink🟢
4Nothinking 이 Thinking 보다 나은 쿼리 집합이 존재AIME24 에서 Thinking → Joint gain 의 원천🟡 (집계 수치 중심, per-query 분석은 제한적)
5큰 모델일수록 second-thinking 의 개선 폭 큼7B→32B scaling 관찰🟡 (3~4개 사이즈로 trend 주장)

읽기 난이도: ⭐⭐

Qwen3 / DeepSeek-R1 의 mode 토글, ICL 기본 개념 필요. 방법은 개념적으로 단순해 초심자 친화적이나 결과 표가 많아 비교 교차 참조가 요구됨.


관련 연구 비교 매트릭스

본 논문 (Wu+ 2025)AdaptThink (Li+ 2025)Thinking-Twice / Self-ConsistencyMeasuring the Faithfulness of Thinking Drafts in Large Reasoning Models
핵심 접근Thinking/Nothinking 병렬 + 불일치 시 2차 thinkingThinking 사용 여부를 RL 로 학습Thinking 모드 반복 호출 후 다수결Draft 내부/결론 counterfactual 개입
문제 정의Mode disagreement 를 ICL 자원화Thinking 비용 최적화Reasoning variance 완화Draft 와 답의 인과 의존 측정
데이터GSM8K/MATH500/AIME/AMC/MMLU-Pro/GPQA수학 위주수학/QA 범용GPQA/MMLU Redux MC
핵심 메트릭ID/OOD 정확도, 일치율정확도 × token costPass@k / majority@kFaithfulness rate
확장성Training-free, 모든 RLLM모델별 재학습 필요Thinking 호출 N배 비용모든 LRM 에 적용
한계Exact-match consistency 의존OOD 취약비용 높음MC QA 중심
코드 공개

관련 연구


원자적 인사이트 (Zettelkasten)

💡 Mode Agreement 는 내장 Uncertainty Signal 이다

출처: Thinking with Nothinking Calibration - A New In-Context Learning Paradigm in Reasoning Large Language Models (Wu et al., 2025)
유형: 실험적

같은 RLLM 의 Thinking/Nothinking 두 모드가 같은 답을 내면 그 답이 거의 항상 정답 (GSM8K·R1-32B 에서 일치 시 오답률 ≤1.55%) 이다. 이는 외부 probe 없이 모델의 self-disagreement 를 uncertainty 지표로 쓸 수 있음을 보여준다. 앙상블에 다른 모델이 필요하지 않다.

핵심 조건/맥락: Mode 토글을 지원하는 RLLM (Qwen3, DeepSeek-R1-Distill) 에 한정. Closed-source thinking 모델에는 직접 적용 불가.
연결: Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models
활용 가능성: RLLM 배포 시 per-query confidence 출력을 기본 제공, 불일치 쿼리만 human-in-the-loop 으로 라우팅.

💡 Thinking 이 오히려 틀리게 하는 쿼리가 체계적으로 존재한다

출처: Thinking with Nothinking Calibration - A New In-Context Learning Paradigm in Reasoning Large Language Models (Wu et al., 2025)
유형: 실패/한계

AIME24 같은 어려운 수학에서 Qwen3-14B 의 Thinking-only 정확도는 62.9%, 두 모드 조합 시 71.7% — gain 중 상당 부분은 Nothinking 이 맞추고 Thinking 이 틀렸던 문제를 재조정한 데서 나온다. “Thinking = 더 낫다” 전제가 전역적으로는 성립하지 않는다.

핵심 조건/맥락: 수학 태스크에서 가장 뚜렷. 언어적 reasoning 에서는 패턴이 다를 수 있음.
연결: Reasoning Models Don’t Always Say What They Think, Measuring Faithfulness in Chain-of-Thought Reasoning
활용 가능성: 쿼리별 mode selection 알고리즘 개발 — “언제 thinking 을 끄는 것이 나은가” 를 예측하는 classifier.

💡 Training-Free Calibration 이 OOD 에서 Training-Based SOTA 를 이긴다

출처: Thinking with Nothinking Calibration - A New In-Context Learning Paradigm in Reasoning Large Language Models (Wu et al., 2025)
유형: 이론적

AdaptThink 같은 training-based mode routing 은 ID 에서는 강하지만 OOD (MMLU-Pro, GPQA) 에서 JointThinking 대비 9.7pt / 6.3pt 낮다. 모델 내장 모드 간 disagreement 를 쓰는 ICL 방식이 distribution shift 에 본질적으로 robust 하다.

핵심 조건/맥락: 두 모드가 동일 base 모델에서 나와 같은 shift 에 동시에 노출된다는 점이 robustness 의 원천.
연결: Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
활용 가능성: OOD 가 중요한 배포 시 training-based 보다 ICL calibration 우선 고려. Safety-critical domain 에 특히 유용.


핵심 용어 정리

용어정의
RLLM (Reasoning LLM)Thinking mode 를 내장한 LLM. Qwen3, DeepSeek-R1 계열 등.
Thinking Mode긴 CoT draft 을 먼저 생성한 후 답을 내는 모드. Qwen3 에서는 /think 토큰으로 활성화.
Nothinking ModeDraft 없이 바로 답하는 모드. /no_think 로 활성화.
JointThinking두 모드를 병렬 생성 후 불일치 시에만 2차 thinking 을 하는 ICL 프레임워크 (본 논문 제안).
In-Context Learning (ICL)모델 파라미터를 업데이트하지 않고 prompt 내 예시/지시로 행동을 조정하는 학습 방식.
Mode Agreement두 모드가 같은 최종 답을 낸 상태. 일치율 ≈ 내장 confidence 지표.
AdaptThinkTraining-based thinking-mode router — 쿼리별로 thinking 사용 여부를 학습해 결정 (본 논문의 주요 비교 baseline).
Thinking-TwiceThinking 모드를 두 번 호출해 다수결하는 단순 self-consistency 변형.

태그

paper #2025 Reasoning ThinkingMode ICL Qwen3 DeepSeekR1 Calibration ModeConsistency RLLM