수학 문제 풀이 학습은 범용 추론으로 일반화되는가?

Digest: LLM을 수학 문제 풀이(MPS, Mathematical Problem-Solving)로 훈련하면 수학만 잘하게 되는가, 아니면 범용 추론 능력도 함께 향상되는가? 이 논문은 5가지 훈련 전략을 체계적으로 비교하여 핵심적 발견을 제시한다. 짧은 추론 체인의 지도 미세조정(SFT)은 범용 추론에 거의 도움이 되지 않으며 오히려 성능을 저하시키는 반면, 긴 자기반성적 추론 체인(Long CoT)과 규칙 기반 RL은 도메인 간 일반화를 달성한다. 예를 들어 LIMO(Long CoT 모델)는 단 817개 수학 샘플로 훈련했음에도 LogiQA에서 65.4% → 73.1%, GPQA에서 50.0% → 55.1% (Table 2)로 향상되었고, SimpleRL은 GPQA에서 44.4% → 65.2% (Table 3)의 극적 향상을 보였다. 핵심 메커니즘은 긴 추론 체인이 다른 도메인에서도 장문 추론 패턴을 활성화시키는 것이며, 이는 인지과학에서 수학 학습이 일반 추론을 강화한다는 관찰과 일맥상통한다.

메타데이터

항목	내용
제목	Does Learning Mathematical Problem-Solving Generalize to Broader Reasoning?
저자	Ruochen Zhou, Minrui Xu, Shiqi Chen, Junteng Liu, Yunqi Li, Xinxin Lin, Zhengyu Chen, Junxian He
소속	HKUST (Hong Kong University of Science and Technology)
연도	2025
발표	arXiv:2507.04391
링크	arXiv
키워드	Mathematical Reasoning, Generalization, Long CoT, RL, Transfer Learning

왜 이 연구를 하는가?

핵심 질문

수학 문제 풀이(MPS) 훈련이 LLM의 범용 추론 능력 발달에 기여하는가, 아니면 수학 벤치마크 성능만 높이는가?

기존 접근법의 한계

한계	설명
평가 범위의 편협함	기존 MPS 연구들은 수학 벤치마크에서만 성능을 평가하여, 추론 능력의 일반화 여부를 확인하지 못함
훈련 전략 간 비교 부재	사전학습, SFT, RL 등 다양한 훈련 방식이 일반화에 미치는 영향을 체계적으로 비교한 연구가 없음
Short CoT의 한계 미인식	기존 수학 SFT는 짧은 추론 체인을 사용하며, 이것이 일반화를 저해할 수 있다는 점이 간과됨
전이 메커니즘 불명확	수학 훈련이 다른 도메인에 도움이 된다면 그 메커니즘이 무엇인지 규명되지 않음

핵심 통찰

수학 훈련의 일반화는 “무엇을 학습하느냐”가 아니라 **“어떻게 추론하는 방식을 학습하느냐”**에 달려 있다
긴 추론 체인과 자기반성은 특정 도메인의 지식이 아니라 범용적 사고 패턴을 학습시킨다
짧은 답만 학습하면 모델이 “빠르게 답하는 습관”을 들여 오히려 복잡한 추론이 필요한 과제에서 성능이 하락한다

방법 (Method)

프레임워크 개요

graph TB
    subgraph "5가지 훈련 전략"
        A["1. 수학 텍스트<br/>사전학습"]
        B["2. STEM 데이터<br/>SFT"]
        C["3. Short CoT<br/>수학 SFT"]
        D["4. Long CoT<br/>자기반성 SFT"]
        E["5. 규칙 기반 RL"]
    end

    subgraph "평가"
        F["5개 수학 벤치마크<br/>(GSM8K, MATH 등)"]
        G["8개 범용 추론 벤치마크<br/>(LogiQA, GPQA, ARC-c 등)"]
    end

    A --> F
    A --> G
    B --> F
    B --> G
    C --> F
    C --> G
    D --> F
    D --> G
    E --> F
    E --> G

    style C fill:#ff6b6b,color:#fff
    style D fill:#51cf66,color:#fff
    style E fill:#51cf66,color:#fff

핵심 구성요소

1. 수학 텍스트 사전학습 (Continual Pretraining): RhO-Math-7B, DeepSeekMath-Base 등이 이 범주에 해당한다. OpenWebMath 같은 다양한 수학 텍스트로 사전학습하여 수학적 지식 기반을 확장한다. 8개 범용 추론 과제 중 6개에서 개선을 보여 가장 안정적인 일반화를 달성했다.

2. Short CoT 수학 SFT: Math-CoT SFT, Math-PoT SFT가 대표적이다. 짧은 풀이 과정이 포함된 수학 문제-답 쌍으로 지도 학습한다. Math-CoT SFT는 범용 추론 8개 과제 중 7개에서 성능이 하락했고, Math-PoT SFT는 8개 전부에서 하락했다.

3. Long CoT 자기반성 SFT: LIMO(817개 샘플), s1.1(1,000개 샘플)이 이 범주에 속한다. 수천 토큰 길이의 자기반성적 추론 체인으로 훈련하며, Qwen2.5-32B-Instruct를 베이스로 사용한다. 핵심은 중간 단계를 반성하고 여러 경로를 탐색하는 사고 패턴을 학습시키는 것이다.

4. 규칙 기반 RL: SimpleRL-Zero, SimpleRL이 대표적이다. 수학 문제의 정답 여부를 규칙 기반 보상으로 사용하여 강화학습을 수행한다. SFT와 달리 추론 과정의 형태를 직접 지정하지 않으며, 모델이 스스로 효과적인 추론 전략을 탐색한다.

발견 (Findings)

주요 결과: Long CoT의 일반화 효과 (Table 2)

과제	베이스 모델	LIMO (817개)	s1.1 (1,000개)
LogiQA	65.4%	73.1% (+11.8%)	73.9% (+13.0%)
GPQA	50.0%	55.1% (+10.2%)	60.6% (+21.2%)
ARC-c	93.3%	95.9% (+2.8%)	95.4% (+2.3%)
ZebraLogic	26.4%	44.5% (+68.6%)	37.0% (+40.2%)

주요 결과: RL의 일반화 효과 (Table 3)

과제	베이스 모델	SimpleRL-Zero	SimpleRL
MATH	53.5%	81.5% (+52.3%)	85.1% (+59.1%)
LogiQA	26.6%	35.3% (+32.7%)	45.3% (+70.3%)
GPQA	44.4%	48.5% (+9.2%)	65.2% (+46.8%)

주요 결과: Short CoT의 일반화 실패

과제	베이스 모델	Math-CoT SFT	변화
ZebraLogic	—	—	하락
LogiQA	—	—	하락
GPQA	—	—	하락
ARC-c	—	—	하락
7/8 과제에서 하락

핵심 발견

응답 길이가 핵심 메커니즘이다: 베이스 모델의 평균 응답 길이는 252-683 토큰인 반면, LIMO 훈련 후 1,165-3,989 토큰으로 증가했다 (Table 2). 이 길이 증가는 모든 도메인에서 관찰되며, 수학 훈련이 “다른 도메인에서도 길게 생각하는 습관”을 활성화시킨다는 것을 의미한다.

짧은 답을 강제하면 효과가 사라진다: s1.1-short(단축 버전, 평균 418.9 토큰)는 베이스 모델보다도 일관되게 낮은 성능을 보였다 (Table 2 ablation). 이는 긴 추론 체인 자체가 일반화의 핵심 요인임을 확인시켜 준다.

비수학 대체 데이터는 효과가 없다: Magicoder-Evol-Instruct, Magpie-Reasoning, OpenOrca 등 비수학 데이터셋으로 훈련한 경우 제한적 개선만 보이고 광범위한 일반화를 달성하지 못했다. 효과적인 일반화는 다양한 콘텐츠가 아니라 특정 훈련 패러다임(Long CoT, RL)에서 비롯된다.

이론적 의의

추론 일반화의 조건 규명

이 연구는 “수학을 잘하면 논리도 잘할까?”라는 오래된 질문에 대해 조건부 답변을 제시한다. 단순히 수학 문제를 많이 풀게 하는 것(Short CoT SFT)은 효과가 없고, 추론 과정 자체를 길고 반성적으로 만드는 훈련(Long CoT, RL)만이 일반화를 달성한다. 이는 인지과학에서 수학 학습이 메타인지(자기 사고를 모니터링하는 능력)를 발달시킨다는 이론과 일치한다.

SFT와 RL의 근본적 차이

Short CoT SFT가 일반화에 실패하는 반면 RL이 성공하는 이유는, SFT가 “주어진 답의 패턴을 모방”하는 반면 RL은 “스스로 효과적인 추론 경로를 탐색”하기 때문이다. 이는 Logic-RL의 발견(RL이 SFT보다 암기 대신 추론을 학습)과 정확히 일치하며, 두 독립적 연구가 동일한 결론에 도달한 것은 이 원리의 강건함을 뒷받침한다.

훈련 패러다임 재고의 필요성

수학 추론 연구의 목표가 “수학 벤치마크 점수”에서 “범용 추론 능력”으로 전환되어야 함을 주장한다. 이를 위해 평가 체계도 수학 과제를 넘어 논리, 과학, 상식 추론 등을 포괄해야 한다.

핵심 용어 정리

용어	정의
MPS (Mathematical Problem-Solving)	수학 문제 풀이. 이 논문에서는 GSM8K, MATH 등의 벤치마크로 평가되는 수학적 추론 과제를 총칭
CoT (Chain-of-Thought)	추론 체인. 모델이 최종 답에 도달하기까지의 중간 추론 단계를 명시적으로 생성하는 기법
Long CoT	수천 토큰 길이의 긴 추론 체인. 중간 단계의 반성(reflection)과 다중 경로 탐색을 포함
Short CoT	수백 토큰 이내의 짧은 추론 체인. 기존 수학 SFT 데이터에서 일반적으로 사용되는 형태
SFT (Supervised Fine-Tuning)	지도 미세조정. 정답이 포함된 데이터로 모델을 직접 학습시키는 방법
규칙 기반 RL (Rule-based RL)	정답 여부를 자동으로 판별하는 규칙을 보상 신호로 사용하는 강화학습. 인간 피드백 없이도 훈련 가능
LIMO	Learning with Insufficient Mathematical Observations. 817개의 Long CoT 수학 샘플만으로 훈련한 모델
SimpleRL	수학 문제에 규칙 기반 보상을 적용한 RL 모델. Zero 버전은 SFT 없이 순수 RL만 사용
LogiQA	논리적 추론 능력을 평가하는 벤치마크. 주어진 지문에서 논리적 결론을 도출하는 다지선다 문제
GPQA	Graduate-level Professional QA. 대학원 수준의 전문 지식 질의응답 벤치마크
ZebraLogic	제브라 퍼즐 형태의 논리 추론 벤치마크. 복잡한 제약 조건을 조합하여 답을 추론

Juhyeon's Blog

탐색기

Does Learning Mathematical Problem-Solving Generalize to Broader Reasoning