깊이 있게 생각하라, 길게만 말고 — Deep-Thinking Token으로 LLM 추론 노력 측정하기

Digest: LLM의 Chain-of-Thought(연쇄 추론) 추론에서 출력 토큰 수는 추론 품질의 신뢰할 수 있는 지표가 아니다 — 실제로 토큰 수와 정확도 사이에는 음의 상관관계(r=-0.594)가 관찰되어 “overthinking(과잉 사고)” 현상을 시사한다. 이 논문은 트랜스포머의 각 레이어에서 예측 분포가 수렴하기까지 얼마나 깊은 레이어까지 수정이 필요한지를 측정하는 Deep-Thinking Token(심층 사고 토큰) 개념을 제안한다. 핵심 통찰은 “진짜 추론 노력은 출력 길이가 아니라 모델 내부에서 예측 분포가 늦게까지 수정되는 정도에 반영된다”는 것이다. 구체적으로, 중간 레이어의 은닉 상태를 unembedding matrix(출력 임베딩 역변환)로 투사한 뒤 **Jensen-Shannon Divergence(JSD, 두 확률분포 간 대칭적 거리 측도)**를 계산하여 settling depth(수렴 깊이)를 결정하고, 전체 토큰 중 깊은 레이어까지 수정이 필요한 토큰의 비율인 **Deep-Thinking Ratio(DTR)**를 정의한다. AIME 2024/2025, HMMT 2025, GPQA-Diamond 벤치마크에서 GPT-OSS, DeepSeek-R1, Qwen3 모델로 실험한 결과, DTR은 정확도와 평균 Pearson r=0.683 (Table 1)의 강한 양의 상관을 보여 토큰 수(r=-0.594), 로그 확률(r=0.527), Self-Certainty(r=0.605)를 크게 능가했다. 또한 DTR 기반 응답 선택 전략인 Think@n은 50개 토큰의 접두사만으로 전체 DTR을 예측하여, AIME 2025에서 94.7% 정확도를 49% 비용 절감으로 달성했다 (Table 2; 기존 self-consistency 기준 92.7%). 그러나 DTR이 모델 간 직접 비교에 적합한지는 미검증이며, 추론 수준(reasoning level) 설정에 따라 depth-length 간 trade-off가 존재한다는 한계가 있다. 이 연구는 “추론의 깊이를 어떻게 측정할 것인가”라는 근본적 질문을 열어놓으며, 향후 더 깊고 계산 집약적인 추론 메커니즘 설계의 기반을 제공한다.

섹션별 요약

Introduction

LLM의 추론 능력이 향상되면서 CoT(Chain-of-Thought) 추론이 핵심 패러다임이 되었으나, “더 긴 추론 = 더 나은 추론”이라는 가정은 검증되지 않았다. 실제로 토큰 수와 정확도 사이에 역U자형 관계 또는 음의 상관이 보고되고 있다. 이 논문은 토큰 수 대신 모델 내부의 레이어별 예측 수정 깊이를 추론 노력의 진정한 지표로 제안한다.

Methods

Deep-Thinking Token 정의: 트랜스포머의 각 레이어에서 hidden state를 unembedding matrix로 투사하여 예측 분포를 얻고, 최종 레이어 분포와의 JSD를 계산한다. JSD가 임계값 g=0.5 아래로 처음 떨어지는 레이어를 settling depth(c_t)로 정의하며, c_t > ρ×L (ρ=0.85, L=총 레이어 수)인 토큰을 deep-thinking token으로 분류한다.
DTR 계산: 생성된 시퀀스에서 deep-thinking token의 비율로 정의된다.
Think@n 전략: n개 응답 중 접두사 50토큰만으로 DTR을 추정하여 가장 높은 DTR을 가진 응답을 선택하는 추론 시간 스케일링 방법이다.

Results

DTR은 32개 모델-벤치마크 조합에서 평균 Pearson r=0.683으로 정확도와 강한 양의 상관을 보임
토큰 수는 r=-0.594로 오히려 음의 상관 (overthinking 현상 확인)
JSD가 KL divergence, cosine similarity보다 안정적 상관 (Appendix A)
g=0.5, ρ=0.85가 최적 하이퍼파라미터 (Figure 4)
Think@n: AIME 2025에서 94.7% 정확도, 49% 비용 절감 (Table 2)

메트릭	평균 Pearson r	양의 상관 비율
DTR	0.683	30/32
Self-Certainty	0.605	26/32
Log Probability	0.527	24/32
Token Count	-0.594	6/32

Discussion

Reasoning Level 효과: 높은 추론 수준 설정 시 DTR은 감소하지만 정확도는 향상 — depth와 length 간 계산 자원 재분배 발생 (Appendix B)
정성적 사례: 오답 응답(27,724 토큰, DTR=13.9%) vs 정답 응답(3,725 토큰, DTR=19.0%) — 짧지만 깊은 사고가 더 효과적 (Appendix E)
모델 간 비교 한계: DTR은 동일 모델 내에서만 의미 있는 비교가 가능하며, 모델 간 직접 비교는 아키텍처 차이로 부적절할 수 있음

Insights

주목할 점: 토큰 수와 정확도의 음의 상관은 현재 CoT 추론의 효율성에 근본적 의문을 제기한다. 모델이 “길게 생각하는 것”과 “깊이 생각하는 것”은 다른 현상이다.
연결 고리: Early exit 연구(LayerSkip, SpecExit)와 상보적 — DTR은 “어떤 토큰이 깊은 처리를 필요로 하는가”를 식별하여 adaptive computation의 기반이 될 수 있다.
시사점: 추론 모델 훈련 시 “긴 CoT를 생성하도록” 학습하는 대신, “깊은 사고 토큰의 비율을 높이도록” 학습하는 것이 더 효과적일 수 있다.
비판적 코멘트: 30개 시드 평균이라는 통계적 견고성에도 불구하고, 모든 실험이 수학/과학 영역에 한정되어 있어 자연어 추론, 코드 생성 등으로의 일반화는 미검증이다.

Discussion Points

논쟁점: DTR이 정말 “추론의 깊이”를 측정하는 것인지, 아니면 단순히 “토큰 예측의 어려움”을 측정하는 것인지 구분이 필요하다. 어려운 토큰이 반드시 추론에 기여하는 토큰은 아닐 수 있다.
검증 필요 가정: “settling depth가 늦을수록 해당 토큰에서 더 깊은 추론이 일어난다”는 가정은 mechanistic interpretability 연구를 통한 추가 검증이 필요하다.
후속 연구: (1) DTR을 reward signal로 사용한 RL 훈련, (2) 실시간 adaptive depth 할당, (3) 비수학 도메인으로의 일반화 검증이 필요하다.

메타데이터

항목	내용
제목	Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens
저자	Wei-Lin Chen, Liqian Peng, Tian Tan, Chao Zhao, Blake JianHang Chen, Ziqian Lin, Alec Go, Yu Meng (Google)
소속	미공개 (arXiv 프리프린트)
연도	2026
발표	arXiv:2602.13517
링크	arXiv
키워드	Deep-Thinking Tokens, DTR, reasoning effort, inference-time scaling, layer-wise prediction, overthinking

BibTeX

@article{chen2026thinkdeep,
  title={Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens},
  author={Chen, Wei-Lin and Peng, Liqian and Tan, Tian and Zhao, Chao and Chen, Blake JianHang and Lin, Ziqian and Go, Alec and Meng, Yu},
  journal={arXiv preprint arXiv:2602.13517},
  year={2026},
  url={https://arxiv.org/abs/2602.13517},
  eprint={2602.13517},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

왜 이 연구를 하는가?

핵심 질문

LLM의 추론 노력을 출력 토큰 수가 아닌 모델 내부의 계산 깊이로 측정할 수 있는가?

기존 접근법의 한계

한계	설명
토큰 수의 비신뢰성	CoT 길이와 정확도 사이에 음의 상관(r=-0.594) — 길수록 나빠질 수 있음
Overthinking 현상	모델이 같은 수준의 사고를 반복하며 길게 생성하지만 정확도는 하락
Confidence 기반 한계	로그 확률이나 Self-Certainty는 모델 내부 계산 과정을 직접 반영하지 못함
비용 비효율	Self-consistency(다수결 투표)는 모든 응답을 끝까지 생성해야 하므로 비용이 높음

핵심 통찰

진짜 추론 노력은 “예측 분포가 깊은 레이어까지 수정되는 정도”에 반영된다 — 얕은 레이어에서 이미 수렴하는 토큰은 패턴 매칭에 가깝고, 깊은 레이어까지 분포가 변하는 토큰에서 실질적 추론이 일어난다.
50개 토큰의 접두사만으로도 전체 응답의 DTR을 예측할 수 있어, 추론 초기에 응답 품질을 판단할 수 있다.

방법 (Method)

프레임워크 개요

graph TB
    A["입력 토큰 생성<br/>(CoT 추론)"] --> B["각 토큰의 중간 레이어<br/>hidden state 추출"]
    B --> C["Unembedding Matrix로<br/>예측 분포 변환"]
    C --> D["레이어별 JSD 계산<br/>(vs 최종 레이어)"]
    D --> E{"JSD < g=0.5<br/>처음 달성 지점"}
    E -->|"settling depth c_t"| F{"c_t > ρ×L?<br/>(ρ=0.85)"}
    F -->|"Yes"| G["Deep-Thinking Token"]
    F -->|"No"| H["일반 Token"]
    G --> I["DTR = Deep-Thinking<br/>Token 비율 계산"]
    H --> I
    I --> J["Think@n: DTR 높은<br/>응답 선택"]

핵심 구성요소

1. Settling Depth 계산

각 생성 토큰 t에 대해, 레이어 l의 hidden state h_t^l을 unembedding matrix W_u로 투사하여 예측 분포 p_t^l = softmax(W_u · h_t^l)을 얻는다. 최종 레이어 L의 분포 p_t^L과의 JSD를 모든 레이어에서 계산하여, JSD(p_t^l, p_t^L) < g (g=0.5)를 처음 만족하는 레이어 l을 settling depth c_t로 정의한다.

2. Deep-Thinking Token 분류

c_t > ρ × L (ρ=0.85)인 토큰을 deep-thinking token으로 분류한다. 즉, 전체 레이어의 85% 이상을 지나야 예측이 수렴하는 토큰이다. ρ=0.85는 “상위 15% 레이어에서야 비로소 안정화”를 의미한다.

3. DTR (Deep-Thinking Ratio)

DTR = (deep-thinking token 수) / (전체 생성 토큰 수). 높은 DTR은 응답 내 더 많은 토큰이 깊은 계산을 필요로 했음을 의미한다.

4. Think@n

n개의 응답 후보를 생성하되, 각 응답의 처음 50개 토큰(ℓ_prefix=50)만으로 DTR을 추정한다. 추정된 DTR이 가장 높은 응답을 선택하여 최종 답으로 사용한다. 이를 통해 모든 응답을 끝까지 생성하지 않고도 품질 높은 응답을 선별할 수 있다.

발견 (Findings)

주요 결과

전략	벤치마크	정확도	비용 절감
Self-Consistency (baseline)	AIME 2025	92.7%	0%
Think@n (DTR)	AIME 2025	94.7%	49%
Self-Certainty@n	AIME 2025	91.3%	45%
Length-based@n	AIME 2025	89.5%	40%

핵심 발견

첫째, DTR은 32개 모델-벤치마크 조합 중 30개에서 정확도와 양의 상관을 보인 반면, 토큰 수는 26개에서 음의 상관을 보였다. 이는 “더 긴 추론이 더 나은 추론”이라는 직관에 정면으로 반하는 결과다.

둘째, Think@n은 Pareto-optimal 성능을 달성하여, self-consistency 대비 동일하거나 더 높은 정확도를 절반의 추론 비용으로 달성했다. 특히 50개 토큰만으로 전체 응답의 품질을 예측할 수 있다는 점은 실용적 의미가 크다.

셋째, 추론 수준(reasoning level)을 높이면 DTR은 감소하지만 정확도는 향상된다는 역설적 결과가 관찰되었다. 이는 높은 추론 수준에서 모델이 “깊이”보다 “길이”로 계산 자원을 재분배함을 시사한다 — 각 토큰의 내부 처리는 더 효율적이지만, 더 많은 단계를 거친다.

이론적 의의

추론 노력의 새로운 측정 패러다임

기존의 surface-level 메트릭(토큰 수, 자기 신뢰도, 로그 확률)이 추론 품질을 제대로 포착하지 못한다는 것을 실증적으로 보여주었다. 모델 내부의 레이어별 계산 과정을 직접 관찰하는 접근법은 LLM의 “사고 과정”을 이해하는 mechanistic interpretability와 직접 연결된다.

Depth-Length Trade-off 발견

추론 모델에서 “깊이”와 “길이”가 대체 가능한 계산 자원임을 발견했다. 이는 향후 adaptive computation 설계에서 “언제 깊이 생각하고, 언제 더 많은 단계를 밟을 것인가”를 동적으로 결정하는 메커니즘의 필요성을 제기한다.

추론 시간 효율화의 실용적 기반

Think@n은 50개 토큰만으로 응답 품질을 예측하여 추론 비용을 절반으로 줄일 수 있음을 보여주었다. 이는 대규모 LLM 서비스에서 비용-성능 최적화에 직접 적용 가능한 기법이다.

재현성 및 신뢰도 평가

항목	등급	비고
코드 공개	⚠️	arXiv 프리프린트 단계, 코드 링크 미확인
데이터 공개	✅	AIME, HMMT, GPQA 등 공개 벤치마크 사용
하이퍼파라미터	✅	g=0.5, ρ=0.85, ℓ_prefix=50 등 완전 보고
실험 환경	⚠️	모델 크기(20B/120B) 명시되었으나 GPU 사양 미보고
통계적 신뢰도	✅	30개 시드, 25 샘플/질문, 표준편차 0.3-2.5pp
종합 등급	B	통계적 견고성 높으나 코드 미공개가 감점 요인

주장별 신뢰도

#	주장	근거	신뢰도
1	DTR이 토큰 수보다 추론 품질을 잘 예측한다	32개 조합에서 평균 r=0.683 vs r=-0.594, 30시드 평균 (Table 1)	🟢
2	Think@n이 self-consistency와 동등 이상의 정확도를 절반 비용으로 달성한다	AIME 2025: 94.7% vs 92.7%, 49% 비용 절감 (Table 2)	🟢
3	50토큰 접두사로 전체 DTR을 예측할 수 있다	Table 3에서 접두사 DTR과 전체 DTR의 상관 보고, 표준편차 0.3-2.5pp	🟡
4	높은 추론 수준에서 depth-length trade-off가 발생한다	Appendix B에서 관찰되었으나 메커니즘 설명이 추측적	🟡

읽기 난이도: ⭐⭐

정보 이론(JSD), 트랜스포머 아키텍처(레이어, unembedding matrix)에 대한 기본 이해가 필요하다. 논문 구조는 명확하고 직관적 설명과 시각화가 충분하여, 해당 배경지식이 있으면 어렵지 않게 따라갈 수 있다.

축	본 논문 (DTR)	When More is Less (2025)	Between Under/Overthinking (2025)	LayerSkip (Meta, 2024)
핵심 접근	레이어별 JSD로 settling depth 측정	CoT 길이-정확도 역U자 관계 분석	Reasoning Completion Point 탐지	Early exit + self-speculative decoding
문제 정의	추론 노력 측정 메트릭	CoT 길이의 최적성	Overthinking/Underthinking 분류	추론 속도 최적화
데이터	AIME, HMMT, GPQA (수학/과학)	다양한 추론 벤치마크	수학/코드/과학 벤치마크	일반 언어 모델 태스크
핵심 메트릭	Pearson r=0.683 (DTR-정확도)	역U자 관계 경향	RCP 탐지 정확도	추론 속도 2-5x 향상
확장성	접두사 50토큰으로 조기 예측 가능	관찰적 분석 중심	인스턴스별 적응적 조기 종료	레이어 스킵으로 속도 향상
한계	모델 간 비교 불가, 수학/과학 한정	인과적 메커니즘 미설명	오버헤드 발생 가능	추론 품질 저하 가능성
코드 공개	❌	✅	⚠️	✅

원자적 인사이트 (Zettelkasten)

💡 토큰 수와 추론 품질의 음의 상관관계

출처: Think Deep, Not Just Long - Measuring LLM Reasoning Effort via Deep-Thinking Tokens (Chen et al., 2026)
유형: 실험적

CoT 추론에서 출력 토큰 수와 정확도 사이에 평균 r=-0.594의 음의 상관이 관찰되었다. 이는 32개 모델-벤치마크 조합 중 26개에서 재현되었으며, 모델이 길게 출력할수록 오히려 정확도가 낮아지는 “overthinking” 현상을 실증한다.

핵심 조건/맥락: 수학/과학 추론 벤치마크에서 reasoning model(GPT-OSS, DeepSeek-R1, Qwen3)로 실험. 일반 텍스트 생성이나 창의적 과제에서는 다를 수 있다.
연결: Chain-of-Thought Reasoning In The Wild Is Not Always Faithful, Reasoning Models Don’t Always Say What They Think
활용 가능성: 추론 모델 훈련 시 “긴 CoT 생성”이 아닌 “효율적 추론”을 목표로 한 보상 설계, 추론 길이 제한 전략

💡 Settling Depth — 레이어별 예측 수렴으로 추론 깊이 측정

출처: Think Deep, Not Just Long - Measuring LLM Reasoning Effort via Deep-Thinking Tokens (Chen et al., 2026)
유형: 방법론적

트랜스포머의 각 레이어에서 예측 분포가 최종 레이어와 수렴하는 깊이(settling depth)를 JSD로 측정하면, 해당 토큰에서 모델이 얼마나 많은 내부 계산을 수행했는지를 추정할 수 있다. 전체 레이어의 85% 이상을 지나야 수렴하는 토큰(deep-thinking token)의 비율이 정확도와 r=0.683의 상관을 보인다.

핵심 조건/맥락: JSD 임계값 g=0.5, 깊이 비율 ρ=0.85가 최적. KL divergence나 cosine similarity보다 JSD가 안정적. 모델 내부 hidden state에 접근 가능해야 함.
연결: Let’s Think Dot by Dot - Hidden Computation in Transformer Language Models, Early exit 연구들 (LayerSkip)
활용 가능성: Adaptive computation 설계, 추론 품질 모니터링, 모델 디버깅 도구

💡 Depth-Length Trade-off — 추론 모델의 두 가지 계산 자원

출처: Think Deep, Not Just Long - Measuring LLM Reasoning Effort via Deep-Thinking Tokens (Chen et al., 2026)
유형: 이론적

추론 수준(reasoning level)을 높이면 DTR(깊이)은 감소하지만 정확도는 향상된다. 이는 모델이 “각 토큰에서 깊이 생각하기”와 “더 많은 토큰을 생성하기” 사이에서 계산 자원을 재분배함을 시사한다. 즉, depth와 length는 대체 가능한 두 가지 추론 자원이다.

핵심 조건/맥락: Appendix B에서 관찰된 현상으로, 메커니즘에 대한 인과적 설명은 아직 없음. GPT-OSS의 reasoning level 설정(low/medium/high)에서 관찰.
연결: Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
활용 가능성: test-time compute 최적 배분 전략, 난이도 적응형 추론 깊이/길이 조절 메커니즘 설계

핵심 용어 정리

용어	정의
Chain-of-Thought (CoT)	LLM이 최종 답에 도달하기 전 중간 추론 단계를 명시적으로 생성하는 추론 방식
Deep-Thinking Token	트랜스포머의 전체 레이어 중 85% 이상을 지나야 예측 분포가 수렴하는 토큰. 해당 토큰에서 모델이 깊은 내부 계산을 수행했음을 시사
DTR (Deep-Thinking Ratio)	생성된 시퀀스에서 deep-thinking token이 차지하는 비율. 높을수록 응답 전체에서 깊은 추론이 많이 일어났음을 의미
Settling Depth (c_t)	특정 토큰의 예측 분포가 최종 레이어의 분포와 충분히 유사해지는(JSD < g) 첫 번째 레이어. 수렴까지 필요한 레이어 수를 나타냄
Jensen-Shannon Divergence (JSD)	두 확률 분포 간의 대칭적 거리 측도. KL divergence와 달리 대칭적이고 값이 유한하여 안정적 비교에 적합
Unembedding Matrix	트랜스포머의 hidden state를 어휘(vocabulary) 상의 확률 분포로 변환하는 행렬. 보통 최종 레이어에서만 적용하지만 이 논문은 중간 레이어에도 적용
Think@n	n개 응답 후보 중 DTR이 가장 높은 것을 선택하는 추론 시간 스케일링 전략. 50개 접두사 토큰만으로 DTR을 추정하여 비용을 절감
Self-Consistency	여러 응답을 생성한 후 다수결 투표로 최종 답을 결정하는 방법. 모든 응답을 끝까지 생성해야 하므로 비용이 높음
Overthinking	모델이 불필요하게 긴 추론을 생성하여 오히려 정확도가 하락하는 현상
Reasoning Level	추론 모델에서 설정할 수 있는 추론 강도 파라미터 (예: low/medium/high). 높을수록 더 긴 CoT를 생성하지만 각 토큰의 내부 처리 깊이(DTR)는 줄어드는 trade-off 존재

Think Deep, Not Just Long - Measuring LLM Reasoning Effort via Deep-Thinking Tokens