Introduction

SvS(Self-play with Variational problem Synthesis)는 RLVR 훈련의 엔트로피 붕괴 문제를 해결하는 자기 플레이 프레임워크
표준 RLVR: Pass@1 향상 → 정책 엔트로피 단조 감소 → Pass@k 성장 억제 (다양성 손실)
핵심 아이디어: 정책이 정답 솔루션으로부터 참조 정답이 동일한 **변형 문제(variational problems)**를 합성하고, 이를 다시 풀어 온라인 자기 개선 루프 형성
핵심 결과: AIME24 Pass@32 +18.3%p, AIME25 Pass@32 +22.8%p; 3B~32B 모델에서 일관된 향상

DeepSeek-R1/GRPO: RLVR 기반 추론 훈련 — SvS가 엔트로피 유지로 확장
SPIN (Chen et al., 2024): 자기 플레이 파인튜닝 — SvS는 문제 생성까지 포함
STaR (Zelikman et al., 2022): 자기 학습 추론 — 외부 데이터 의존
AlphaZero: 자기 대전 — SvS가 LLM 추론 훈련에 적용
차별점: 정답 보존 제약으로 합성 데이터 검증 가능성 확보; 엔트로피 유지를 명시적 설계 목표로 설정

Methods

SvS 프레임워크

훈련 배치 3구성 요소

원문제 풀기: 정책이 G=8개 해 생성, 정답률 0 < Acc(x) < 1인 “저성능 문제”만 증강 대상
변형 문제 합성: 정답률 [12.5%, 50%] 구간 문제의 정답 솔루션 → G_v=8개 변형 문제 생성. 원문의 의미·참조 정답 보존, 구조·표현만 변화
합성 문제 풀기: 변형 문제를 원래 정답을 레이블로 삼아 다시 훈련

합성 보상 함수

R_v(x̂) = I(acc_l ≤ Acc(x̂) ≤ acc_h) — 너무 쉽거나 어려운 합성 문제에 보상 없음
옵티마이저: GRPO + Clip-Higher + Token-Level Loss + Dynamic Sampling

방법론 다이어그램

graph TD
    A[훈련 문제 집합 x] --> B{정책: G=8개 솔루션 생성}
    B --> C{정확도 Acc 평가}
    C -->|Acc=0 또는 1| D[제외: 너무 쉽거나 불가능]
    C -->|0 < Acc < 1| E[저성능 문제 선별]
    E --> F{Acc 12.5%~50%?}
    F -->|Yes| G[정답 솔루션으로<br/>변형 문제 합성 G_v=8]
    F -->|No| H[원문제만 사용]
    G --> I{합성 보상 R_v 평가}
    I -->|적절 난이도| J[변형 문제 유지]
    I -->|부적절| K[폐기]
    J --> L[정책이 변형 문제 풀기<br/>원래 정답을 레이블로]
    H --> M[원문제 솔루션]
    L --> N[변형문제 솔루션]
    M --> O[GRPO 정책 업데이트]
    N --> O
    O --> P[업데이트된 정책]
    P -->|다음 스텝| A

    style G fill:#e67e22,color:#fff
    style O fill:#27ae60,color:#fff
    style D fill:#c0392b,color:#fff

Results

기반 모델: Qwen2.5-32B-Instruct, LLaMA-3.1-8B, Qwen2.5-3B
핵심 발견: SvS는 Pass@k를 대폭 향상시키면서 Pass@1도 동시 개선; 일반 태스크 성능 저하(RLVR 부작용) 억제

실험 결과 상세

메인 결과 (Qwen2.5-32B, DAPO-17k)

Benchmark	Metric	RLVR	SvS	Gain
AIME24	Pass@1	28.8	39.3	+10.5
AIME24	Pass@32	52.5	70.8	+18.3
AIME25	Pass@1	30.0	40.5	+10.5
AIME25	Pass@32	42.4	65.2	+22.8
BeyondAIME	Pass@1	14.0	19.2	+5.2
BeyondAIME	Pass@32	35.9	45.9	+10.0

일반 태스크 성능 보존

Benchmark	Initial	RLVR	SvS
MMLU-Pro	68.33	70.25	71.58
ARC-C	58.62	57.94 ↓	58.79
HumanEval	56.10	53.66 ↓	56.10

멀티 스케일 (MATH-12k)

Model	Avg Gain (Pass@1)
Qwen2.5-3B	+2.9%p
LLaMA-3.1-8B	+2.4%p
Qwen2.5-32B	+2.5%p

Discussion

Pass@k 재정의: 기존 RLVR이 Pass@1만 최적화한 반면, SvS는 Pass@k(잠재적 추론 역량 상한)를 명시적 목표로 설정
데이터 동적 확장 > 알고리즘 수정: 새로운 RL 알고리즘이 아닌 훈련 데이터 분포의 온라인 확장으로 엔트로피 붕괴 해결
한계 1: DAPO-17k 사용 시 정수형 답변에 과적합 — 개방형 문제 혼합 필요
한계 2: 수학 경시대회 형식에 특화 — 코드 생성, 과학 추론으로의 일반화 제한적 검증

Insights

주목할 점: 평가 지표(Pass@k)의 변화가 훈련 설계 철학 전체를 바꿀 수 있음을 보여주는 선례 — “무엇을 측정하느냐가 무엇을 최적화하느냐를 결정”
연결 고리: AlphaZero의 자기 대전을 LLM 추론에 구현. SPIN, STaR과 계보를 같이하되 정답 보존 제약이 핵심 차별점
시사점: 합성 데이터 품질이 모델 역량에 종속적 — 약한 초기 모델에서는 변형 문제 품질 보장 어려움
비판적 코멘트: Pass@32, Pass@1024는 대량 inference-time compute 요구 — 실용적 배포 환경에서의 의미 불확실

Discussion Points

논쟁점: Pass@k 개선이 모델의 진짜 능력 향상인가, 추론 예산 증가 효과인가? 실용적 배포에서 단일 추론 성능이 더 중요할 수 있음
검증 필요 가정: “변형 문제의 정답 동일성 = 의미 동등성” 가정의 유효성 — 구조 변경 시 추론 경로가 달라질 수 있음
후속 연구: (1) 전용 소형 Synthesizer 모델로 역할 분리, (2) 코드 생성·과학 Q&A로 도메인 확장, (3) SFT-distilled vs Base 체크포인트에서의 SvS 효과 비교

Juhyeon's Blog

탐색기

Beyond Pass@1 - Self-Play with Variational Problem Synthesis

Introduction

Methods

SvS 프레임워크

훈련 배치 3구성 요소

합성 보상 함수

방법론 다이어그램

Results

실험 결과 상세

메인 결과 (Qwen2.5-32B, DAPO-17k)

일반 태스크 성능 보존

멀티 스케일 (MATH-12k)

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크

Beyond Pass@1 - Self-Play with Variational Problem Synthesis

Introduction

Related Papers

Methods

SvS 프레임워크

훈련 배치 3구성 요소

합성 보상 함수

방법론 다이어그램

Results

실험 결과 상세

메인 결과 (Qwen2.5-32B, DAPO-17k)

일반 태스크 성능 보존

멀티 스케일 (MATH-12k)

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크