DeepSeek-R1/GRPO: RLVR 기반 추론 훈련 — SvS가 엔트로피 유지로 확장
SPIN (Chen et al., 2024): 자기 플레이 파인튜닝 — SvS는 문제 생성까지 포함
STaR (Zelikman et al., 2022): 자기 학습 추론 — 외부 데이터 의존
AlphaZero: 자기 대전 — SvS가 LLM 추론 훈련에 적용
차별점: 정답 보존 제약으로 합성 데이터 검증 가능성 확보; 엔트로피 유지를 명시적 설계 목표로 설정
Methods
SvS 프레임워크
훈련 배치 3구성 요소
원문제 풀기: 정책이 G=8개 해 생성, 정답률 0 < Acc(x) < 1인 “저성능 문제”만 증강 대상
변형 문제 합성: 정답률 [12.5%, 50%] 구간 문제의 정답 솔루션 → G_v=8개 변형 문제 생성. 원문의 의미·참조 정답 보존, 구조·표현만 변화
합성 문제 풀기: 변형 문제를 원래 정답을 레이블로 삼아 다시 훈련
합성 보상 함수
R_v(x̂) = I(acc_l ≤ Acc(x̂) ≤ acc_h) — 너무 쉽거나 어려운 합성 문제에 보상 없음
옵티마이저: GRPO + Clip-Higher + Token-Level Loss + Dynamic Sampling
방법론 다이어그램
graph TD
A[훈련 문제 집합 x] --> B{정책: G=8개 솔루션 생성}
B --> C{정확도 Acc 평가}
C -->|Acc=0 또는 1| D[제외: 너무 쉽거나 불가능]
C -->|0 < Acc < 1| E[저성능 문제 선별]
E --> F{Acc 12.5%~50%?}
F -->|Yes| G[정답 솔루션으로<br/>변형 문제 합성 G_v=8]
F -->|No| H[원문제만 사용]
G --> I{합성 보상 R_v 평가}
I -->|적절 난이도| J[변형 문제 유지]
I -->|부적절| K[폐기]
J --> L[정책이 변형 문제 풀기<br/>원래 정답을 레이블로]
H --> M[원문제 솔루션]
L --> N[변형문제 솔루션]
M --> O[GRPO 정책 업데이트]
N --> O
O --> P[업데이트된 정책]
P -->|다음 스텝| A
style G fill:#e67e22,color:#fff
style O fill:#27ae60,color:#fff
style D fill:#c0392b,color:#fff
Results
기반 모델: Qwen2.5-32B-Instruct, LLaMA-3.1-8B, Qwen2.5-3B
핵심 발견: SvS는 Pass@k를 대폭 향상시키면서 Pass@1도 동시 개선; 일반 태스크 성능 저하(RLVR 부작용) 억제
실험 결과 상세
메인 결과 (Qwen2.5-32B, DAPO-17k)
Benchmark
Metric
RLVR
SvS
Gain
AIME24
Pass@1
28.8
39.3
+10.5
AIME24
Pass@32
52.5
70.8
+18.3
AIME25
Pass@1
30.0
40.5
+10.5
AIME25
Pass@32
42.4
65.2
+22.8
BeyondAIME
Pass@1
14.0
19.2
+5.2
BeyondAIME
Pass@32
35.9
45.9
+10.0
일반 태스크 성능 보존
Benchmark
Initial
RLVR
SvS
MMLU-Pro
68.33
70.25
71.58
ARC-C
58.62
57.94 ↓
58.79
HumanEval
56.10
53.66 ↓
56.10
멀티 스케일 (MATH-12k)
Model
Avg Gain (Pass@1)
Qwen2.5-3B
+2.9%p
LLaMA-3.1-8B
+2.4%p
Qwen2.5-32B
+2.5%p
Discussion
Pass@k 재정의: 기존 RLVR이 Pass@1만 최적화한 반면, SvS는 Pass@k(잠재적 추론 역량 상한)를 명시적 목표로 설정
데이터 동적 확장 > 알고리즘 수정: 새로운 RL 알고리즘이 아닌 훈련 데이터 분포의 온라인 확장으로 엔트로피 붕괴 해결
한계 1: DAPO-17k 사용 시 정수형 답변에 과적합 — 개방형 문제 혼합 필요
한계 2: 수학 경시대회 형식에 특화 — 코드 생성, 과학 추론으로의 일반화 제한적 검증
Insights
주목할 점: 평가 지표(Pass@k)의 변화가 훈련 설계 철학 전체를 바꿀 수 있음을 보여주는 선례 — “무엇을 측정하느냐가 무엇을 최적화하느냐를 결정”
연결 고리: AlphaZero의 자기 대전을 LLM 추론에 구현. SPIN, STaR과 계보를 같이하되 정답 보존 제약이 핵심 차별점
시사점: 합성 데이터 품질이 모델 역량에 종속적 — 약한 초기 모델에서는 변형 문제 품질 보장 어려움
비판적 코멘트: Pass@32, Pass@1024는 대량 inference-time compute 요구 — 실용적 배포 환경에서의 의미 불확실
Discussion Points
논쟁점: Pass@k 개선이 모델의 진짜 능력 향상인가, 추론 예산 증가 효과인가? 실용적 배포에서 단일 추론 성능이 더 중요할 수 있음
검증 필요 가정: “변형 문제의 정답 동일성 = 의미 동등성” 가정의 유효성 — 구조 변경 시 추론 경로가 달라질 수 있음
후속 연구: (1) 전용 소형 Synthesizer 모델로 역할 분리, (2) 코드 생성·과학 Q&A로 도메인 확장, (3) SFT-distilled vs Base 체크포인트에서의 SvS 효과 비교