Introduction


  • SvS(Self-play with Variational problem Synthesis)는 RLVR 훈련의 엔트로피 붕괴 문제를 해결하는 자기 플레이 프레임워크
  • 표준 RLVR: Pass@1 향상 → 정책 엔트로피 단조 감소 → Pass@k 성장 억제 (다양성 손실)
  • 핵심 아이디어: 정책이 정답 솔루션으로부터 참조 정답이 동일한 **변형 문제(variational problems)**를 합성하고, 이를 다시 풀어 온라인 자기 개선 루프 형성
  • 핵심 결과: AIME24 Pass@32 +18.3%p, AIME25 Pass@32 +22.8%p; 3B~32B 모델에서 일관된 향상

Related Papers


  • DeepSeek-R1/GRPO: RLVR 기반 추론 훈련 — SvS가 엔트로피 유지로 확장
  • SPIN (Chen et al., 2024): 자기 플레이 파인튜닝 — SvS는 문제 생성까지 포함
  • STaR (Zelikman et al., 2022): 자기 학습 추론 — 외부 데이터 의존
  • AlphaZero: 자기 대전 — SvS가 LLM 추론 훈련에 적용
  • 차별점: 정답 보존 제약으로 합성 데이터 검증 가능성 확보; 엔트로피 유지를 명시적 설계 목표로 설정

Methods


SvS 프레임워크

훈련 배치 3구성 요소

  1. 원문제 풀기: 정책이 G=8개 해 생성, 정답률 0 < Acc(x) < 1인 “저성능 문제”만 증강 대상
  2. 변형 문제 합성: 정답률 [12.5%, 50%] 구간 문제의 정답 솔루션 → G_v=8개 변형 문제 생성. 원문의 의미·참조 정답 보존, 구조·표현만 변화
  3. 합성 문제 풀기: 변형 문제를 원래 정답을 레이블로 삼아 다시 훈련

합성 보상 함수

  • R_v(x̂) = I(acc_l ≤ Acc(x̂) ≤ acc_h) — 너무 쉽거나 어려운 합성 문제에 보상 없음
  • 옵티마이저: GRPO + Clip-Higher + Token-Level Loss + Dynamic Sampling

방법론 다이어그램

graph TD
    A[훈련 문제 집합 x] --> B{정책: G=8개 솔루션 생성}
    B --> C{정확도 Acc 평가}
    C -->|Acc=0 또는 1| D[제외: 너무 쉽거나 불가능]
    C -->|0 < Acc < 1| E[저성능 문제 선별]
    E --> F{Acc 12.5%~50%?}
    F -->|Yes| G[정답 솔루션으로<br/>변형 문제 합성 G_v=8]
    F -->|No| H[원문제만 사용]
    G --> I{합성 보상 R_v 평가}
    I -->|적절 난이도| J[변형 문제 유지]
    I -->|부적절| K[폐기]
    J --> L[정책이 변형 문제 풀기<br/>원래 정답을 레이블로]
    H --> M[원문제 솔루션]
    L --> N[변형문제 솔루션]
    M --> O[GRPO 정책 업데이트]
    N --> O
    O --> P[업데이트된 정책]
    P -->|다음 스텝| A

    style G fill:#e67e22,color:#fff
    style O fill:#27ae60,color:#fff
    style D fill:#c0392b,color:#fff

Results


  • 기반 모델: Qwen2.5-32B-Instruct, LLaMA-3.1-8B, Qwen2.5-3B
  • 핵심 발견: SvS는 Pass@k를 대폭 향상시키면서 Pass@1도 동시 개선; 일반 태스크 성능 저하(RLVR 부작용) 억제

실험 결과 상세

메인 결과 (Qwen2.5-32B, DAPO-17k)

BenchmarkMetricRLVRSvSGain
AIME24Pass@128.839.3+10.5
AIME24Pass@3252.570.8+18.3
AIME25Pass@130.040.5+10.5
AIME25Pass@3242.465.2+22.8
BeyondAIMEPass@114.019.2+5.2
BeyondAIMEPass@3235.945.9+10.0

일반 태스크 성능 보존

BenchmarkInitialRLVRSvS
MMLU-Pro68.3370.2571.58
ARC-C58.6257.94 ↓58.79
HumanEval56.1053.66 ↓56.10

멀티 스케일 (MATH-12k)

ModelAvg Gain (Pass@1)
Qwen2.5-3B+2.9%p
LLaMA-3.1-8B+2.4%p
Qwen2.5-32B+2.5%p

Discussion


  • Pass@k 재정의: 기존 RLVR이 Pass@1만 최적화한 반면, SvS는 Pass@k(잠재적 추론 역량 상한)를 명시적 목표로 설정
  • 데이터 동적 확장 > 알고리즘 수정: 새로운 RL 알고리즘이 아닌 훈련 데이터 분포의 온라인 확장으로 엔트로피 붕괴 해결
  • 한계 1: DAPO-17k 사용 시 정수형 답변에 과적합 — 개방형 문제 혼합 필요
  • 한계 2: 수학 경시대회 형식에 특화 — 코드 생성, 과학 추론으로의 일반화 제한적 검증

Insights


  • 주목할 점: 평가 지표(Pass@k)의 변화가 훈련 설계 철학 전체를 바꿀 수 있음을 보여주는 선례 — “무엇을 측정하느냐가 무엇을 최적화하느냐를 결정”
  • 연결 고리: AlphaZero의 자기 대전을 LLM 추론에 구현. SPIN, STaR과 계보를 같이하되 정답 보존 제약이 핵심 차별점
  • 시사점: 합성 데이터 품질이 모델 역량에 종속적 — 약한 초기 모델에서는 변형 문제 품질 보장 어려움
  • 비판적 코멘트: Pass@32, Pass@1024는 대량 inference-time compute 요구 — 실용적 배포 환경에서의 의미 불확실

Discussion Points


  • 논쟁점: Pass@k 개선이 모델의 진짜 능력 향상인가, 추론 예산 증가 효과인가? 실용적 배포에서 단일 추론 성능이 더 중요할 수 있음
  • 검증 필요 가정: “변형 문제의 정답 동일성 = 의미 동등성” 가정의 유효성 — 구조 변경 시 추론 경로가 달라질 수 있음
  • 후속 연구: (1) 전용 소형 Synthesizer 모델로 역할 분리, (2) 코드 생성·과학 Q&A로 도메인 확장, (3) SFT-distilled vs Base 체크포인트에서의 SvS 효과 비교