R-Zero: 제로 데이터로 자기진화하는 추론 LLM

Digest: 대규모 언어 모델(LLM)의 추론 능력을 강화하려면 통상 방대한 고품질 학습 데이터가 필요하지만, R-Zero는 외부 데이터 없이 단일 베이스 모델만으로 이를 달성하는 자기진화 프레임워크를 제안한다. 핵심 통찰은 Vygotsky의 **근접발달영역(ZPD, Zone of Proximal Development)**을 RL 보상으로 직접 형식화한 것이다: Solver의 정답률이 50%에 가까운 문제—즉 능력 경계에 위치한 문제—를 Challenger가 생성하도록 불확실성 보상 r = 1 − 2|p̂ − 0.5|로 유도한다. Challenger와 Solver는 GRPO(Group Relative Policy Optimization)로 각각 훈련되며, Challenger가 생성한 후보 문제 중 majority-vote 기반 일관성 필터링을 통과한 것만 Solver 학습에 사용하는 반복 사이클을 구성한다. Qwen3-4B 기준 수학 추론 7개 벤치마크에서 평균 +7.36점(Table 1), 일반 도메인 추론에서 +4.81점(Table 2)의 향상을 달성했으며, 수학 문제로만 훈련했음에도 MMLU-Pro, SuperGPQA 등 일반 추론으로의 전이가 관찰되었다. 그러나 pseudo-label 정확도가 반복 진행에 따라 79%→63%(Table 5)로 하락하며, 모든 모델이 일정 반복 이후 성능이 저하되는 구조적 한계를 보인다. 또한 “Zero data”라는 명칭에도 불구하고 베이스 모델의 사전학습 데이터에 의존하며, 검증 가능한 정답이 없는 개방형 추론 과제에는 적용이 어렵다는 미해결 질문이 남아 있다.


섹션별 요약

Introduction

R-Zero는 최근 DeepSeek-R1-Zero 등이 보여준 “RL만으로 추론 능력 향상”이라는 흐름을 한 단계 더 밀어, 학습 데이터(문제) 자체도 모델이 스스로 생성하는 완전 자율 프레임워크를 제안한다. 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 연구들은 여전히 사람이 큐레이션한 문제셋에 의존하는데, 고품질 문제의 희소성이 장기적 확장성을 제약한다는 문제의식에서 출발한다. 핵심 기여는 세 가지: (1) Challenger-Solver 공진화 프레임워크, (2) 불확실성 보상의 이론적 정당화, (3) 다양한 백본에서의 실증.

Methods

프레임워크는 세 단계로 구성된다. 1단계: Challenger를 GRPO로 훈련하되, Solver 정답률 50%에 가까운 문제를 생성하도록 불확실성 보상을 부여하고, BLEU 클러스터링 기반 반복 패널티로 다양성을 보장한다. 2단계: Challenger가 생성한 8,000개 후보 문제를 majority-vote 일관성 필터링(정답률 0.250.75)으로 선별하여 고품질 학습셋과 pseudo-label을 구축한다. 3단계: Solver를 이진 정답 보상으로 GRPO 훈련한다. 이 사이클을 반복하며, 50% 불확실성 목표가 보상 신호의 분산(p̂(1−p̂))을 최대화하여 최적 정책과의 KL 발산을 하한하므로 “최대 효율 커리큘럼”을 이론적으로 보장한다.

Results

Qwen3-4B/8B와 OctoThinker-3B/8B에서 실험하였다. Qwen3-4B 기준 수학 7개 벤치마크 평균 42.57→49.93(+7.36, 3 iterations), 일반 도메인에서 MMLU-Pro 50.58→55.47, SuperGPQA 20.88→27.55를 달성했다. Ablation에서 반복 패널티 제거 시 수학 −3.31, 필터링 제거 시 일반 도메인 −4.46으로, 두 구성요소 모두 핵심적이다. R-Zero 전처리 후 지도학습 시 +2.35점 추가 향상(순차 전략이 혼합보다 우수).

Discussion

모든 모델이 일정 반복 후 성능 저하를 보인다(0.6B: 1회, 4B: 3회 후 collapse). Pseudo-label 정확도 하락(79%→63%)이 한 원인이지만, 유일한 원인은 아니다—0.6B 모델은 70.6% 정확도에서도 붕괴하는 반면 4B는 48.8%까지 견딘다. 이는 self-training의 다양성 손실(model collapse)이 근본 원인임을 시사한다. 또한 검증 가능한 정답이 있는 도메인에만 적용 가능하며, 개방형/주관적 과제로의 확장은 미해결이다.

Insights

  • 주목할 점: 교육심리학 이론(ZPD)이 RL 보상 설계로 직접 연결된 드문 사례. r = 1 − 2|p̂ − 0.5|라는 단순한 수식이 이론적으로 탄탄한 커리큘럼을 자동 생성한다.
  • 연결 고리: AlphaZero의 셀프플레이를 언어 모델 추론으로 확장한 구조. Semi-supervised learning의 self-training과 구조적으로 동형이며, Absolute Zero Reasoner(AZR)와는 코드 검증기 의존 여부에서 차별화된다.
  • 시사점: 고품질 학습 데이터가 희소한 저자원 언어나 특수 도메인에서 제로 레이블 추론 모델 구축 경로를 제공한다.
  • 비판적 코멘트: pseudo-label 품질 하락과 model collapse가 반복 후 성능 저하의 직접 원인이나, 논문에서 구체적 해결책을 제시하지 않는다. 후속 연구 R-Few에서 소량 인간 데이터 가이드로 이를 보완하려는 시도가 진행 중이다.

Discussion Points

  • 논쟁점: “Zero data” 명칭의 정당성—베이스 모델의 수조 토큰 사전학습 지식에 전적으로 의존하므로, 진정한 데이터 희소 환경에서의 효용성은 미검증이다. Absolute Zero Reasoner도 유사한 명칭을 사용하지만 코드 실행기라는 외부 검증 도구에 의존한다.
  • 검증 필요 가정: 검증 가능한 정답이 없는 개방형 추론(창의적 글쓰기, 대화)에서 불확실성 보상을 어떻게 재정의할 수 있는지 미검증이다.
  • 후속 연구: (1) 신뢰도 가중 GRPO로 pseudo-label 하락 억제, (2) 단일 모델 self-play(Challenger/Solver 분리 제거), (3) R-Few 방식의 소량 인간 데이터 결합, (4) VLM 확장(Visplay).

메타데이터

항목내용
제목R-Zero: Self-Evolving Reasoning LLM from Zero Data
저자Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu
소속Washington University in St. Louis, Tencent AI Seattle Lab, University of Maryland, UT Dallas
연도2025 (arXiv), ICLR 2026 Poster 채택
발표arXiv:2508.05004
링크arXiv, GitHub, Project Page
키워드Self-Evolving, Self-Play, Zero-Data RL, Curriculum Learning, GRPO, Reasoning

왜 이 연구를 하는가?

핵심 질문

외부 학습 데이터 없이, 단일 베이스 LLM만으로 추론 능력을 자기진화시킬 수 있는가?

기존 접근법의 한계

한계설명
데이터 의존성DeepSeek-R1-Zero, STaR 등 기존 RLVR 연구는 사람이 큐레이션한 문제셋에 의존
확장성 제약고품질 수학/추론 문제의 절대량이 부족하여 장기적 스케일링이 어려움
커리큘럼 부재무작위 문제 제시는 학습 효율이 낮고, 적응적 난이도 조절이 없음
단일 역할기존 self-play는 코드 생성(단위 테스트 검증 가능) 등 특정 도메인에 국한

핵심 통찰

  • Solver의 정답률이 50%인 문제는 보상 분산 p̂(1−p̂)를 최대화하여, 이론적으로 가장 효율적인 학습 신호를 제공한다(ZPD의 수학적 형식화).
  • 문제 생성과 문제 풀이를 별도 모델(Challenger/Solver)로 분리하되 동일 베이스에서 초기화하면, 셀프플레이를 통해 두 능력이 공진화할 수 있다.

방법 (Method)

프레임워크 개요

graph TD
    A[단일 베이스 LLM] --> B[Challenger 초기화]
    A --> C[Solver 초기화]

    subgraph "반복 사이클 (Iteration)"
        B --> D["Challenger GRPO 학습<br/>불확실성 보상 + 반복 패널티 + 포맷 패널티"]
        D --> E["후보 문제 ~8,000개 생성"]
        E --> F["일관성 필터링<br/>majority-vote 정답률 0.25~0.75"]
        F --> G["고품질 문제 + Pseudo-label"]
        G --> H["Solver GRPO 학습<br/>이진 정답 보상"]
        H -->|"다음 반복"| D
    end

    H --> I["최종 Solver<br/>(추론 능력 향상)"]

    style A fill:#e0f2fe
    style D fill:#fef3c7
    style F fill:#fce7f3
    style I fill:#d1fae5

핵심 구성요소

1. 불확실성 보상 (Uncertainty Reward)

Solver의 경험적 정답률 p̂를 기반으로 Challenger를 훈련하는 보상 함수이다. Solver가 m=10개 샘플을 생성하여 majority-vote로 정답률을 추정하고, 이를 기반으로 불확실성 보상을 계산한다.

이 보상은 정답률 50%일 때 최대값 1을 가지며, 0%나 100%일 때 0이 된다. 이론적으로 이 목표는 보상 신호의 분산 p̂(1−p̂)를 최대화하며, 이는 최적 정책과의 KL 발산의 하한을 제공한다.

2. 반복 패널티 (Repetition Penalty)

BLEU 점수 기반 클러스터링(τ_BLEU=0.5)으로 유사 문제를 그룹화하고, 클러스터 크기에 비례하는 패널티를 부여한다.

여기서 λ=1, |C_k|는 클러스터 크기, B는 배치 크기이다.

3. 복합 보상 (Composite Reward)

포맷 위반(질문 태그 누락) 시 즉시 보상 0을 부여하는 포맷 패널티도 적용된다.

4. 일관성 필터링 (Consistency Filtering)

Solver가 majority-vote로 추정한 정답률이 [0.25, 0.75] 범위에 들어오는 문제만 선별한다. 이는 너무 쉽거나 어려운 문제를 배제하면서, pseudo-label의 품질도 암묵적으로 보장한다.

5. 하이퍼파라미터

구성요소배치 크기학습 스텝롤아웃 수학습률KL 패널티
Challenger128541e-61e-2
Solver1281551e-61e-2

발견 (Findings)

주요 결과

수학적 추론 (7개 벤치마크, Table 1)

모델BaseR-ZeroGainAMCMATH-500GSM8KOlympiadAIME-24AIME-25Minerva
Qwen3-4B42.5749.93+7.3657.2779.6092.12
Qwen3-8B48.6453.72+5.08
OctoThinker-3B26.6429.32+2.68
OctoThinker-8B36.4138.52+2.11

일반 도메인 추론 (Table 2)

모델Base AVGR-Zero AVGGainMMLU-ProSuperGPQA
Qwen3-4B26.3431.15+4.8155.4727.55
Qwen3-8B31.9834.50+2.52

Ablation Study (Qwen3-4B, Table 3)

조건Math AVGGeneral AVG
Full R-Zero49.0731.15
반복 패널티 제거45.76 (−3.31)28.73 (−2.42)
필터링 제거47.35 (−1.72)26.69 (−4.46)

핵심 발견

수학 문제로만 훈련했음에도 MMLU-Pro(+4.89), SuperGPQA(+6.67) 등 일반 추론 벤치마크에서 유의미한 전이가 관찰되었다. 이는 R-Zero가 특정 도메인 지식이 아닌 범용 추론 능력을 향상시킴을 시사한다. Ablation에서 필터링 제거가 일반 도메인 성능을 크게 떨어뜨리는 점(−4.46)은, 문제 품질 관리가 도메인 전이에 핵심적임을 보여준다.

R-Zero 후 지도학습을 순차 적용(sequential strategy)하면 지도학습 단독 대비 +2.35점 추가 향상을 달성하며, 두 데이터를 혼합(mixing)하는 것보다 우수하다(Figure 4).

성능 저하 패턴 (Figure 3)

모델 크기최대 성능 도달 반복이후 패턴
0.6B1회즉시 하락
1.7B2회점진 하락
4B3회3회 후 하락

Pseudo-label 정확도 변화 (Table 5)

GRPO Step정확도
1579.0%
3069.0%
4563.0%

이론적 의의

ZPD의 수학적 형식화

Vygotsky의 근접발달영역(ZPD) 이론에서, 학습자가 독립적으로는 풀 수 없지만 약간의 도움으로 풀 수 있는 과제에서 가장 효과적인 학습이 일어난다. R-Zero의 불확실성 보상은 이를 RL 보상으로 직접 구현한다. 정답률 50%는 “모델이 반쯤 풀 수 있는” 난이도이며, 이 지점에서 보상 분산이 최대화되어 정책 학습이 가장 효율적이다. 교육심리학 이론이 기계학습 보상 설계로 직접 연결된 드문 사례이다.

Self-Play의 언어 추론 확장

AlphaZero가 바둑에서 셀프플레이로 초인적 성능을 달성했듯이, R-Zero는 이를 언어 모델 추론으로 확장한다. 바둑의 승패와 달리 언어 추론에서는 문제의 정답 검증이 어렵다는 차이가 있으며, majority-vote pseudo-label로 이를 우회하지만 정확도 하락이라는 대가를 치른다.

데이터 프리 커리큘럼 학습

기존 커리큘럼 학습은 문제 난이도를 사람이 정의해야 했지만, R-Zero는 Solver의 현재 능력에 따라 Challenger가 자동으로 난이도를 조절한다. 이는 적응적 시험(adaptive testing)과 구조적으로 유사하며, 학습 효율의 이론적 상한에 접근한다.


재현성 및 신뢰도 평가

항목등급비고
코드 공개GitHub 공개, 학습/평가 코드 포함
데이터 공개프레임워크 자체가 데이터 생성이므로, 코드로 재현 가능
하이퍼파라미터Challenger/Solver 학습 설정 상세 보고 (Table 형태)
실험 환경⚠️GPU 종류/수, 학습 시간 등 인프라 정보 불충분
통계적 신뢰도⚠️다중 실행 결과 없음, 표준편차 미보고
종합 등급B+코드/설정 공개는 우수하나 통계적 신뢰도 보고 부족

주장별 신뢰도

#주장근거신뢰도
1수학 추론 +7.36점 향상Table 1, 4개 백본 일관된 향상🟢
2일반 도메인 전이 효과Table 2, 수학 훈련만으로 MMLU-Pro/SuperGPQA 향상🟢
3불확실성 보상이 KL 발산 하한이론적 증명 제시, 실험적 검증은 간접적🟡
4모든 반복 패널티/필터링이 핵심Table 3 ablation으로 검증🟢
5지도학습과의 시너지Figure 4, 순차 전략 +2.35🟡
6”Zero data” 프레임워크베이스 모델 사전학습에 의존, 명칭 과장 소지🔴

읽기 난이도: ⭐⭐

RL(강화학습), GRPO, KL 발산 등 기본 개념에 대한 이해가 필요하지만, 프레임워크 자체는 직관적이다. ZPD 비유가 이해를 돕는다.


관련 연구 비교 매트릭스

R-ZeroDeepSeek-R1-ZeroAbsolute Zero ReasonerSPIN
핵심 접근Challenger-Solver 공진화, 불확실성 보상순수 RL (GRPO) on 외부 문제셋단일 모델 self-play + 코드 실행기 검증Self-play 파인튜닝, 이전 버전과 대결
문제 정의문제 생성 + 풀이 모두 자체풀이만 자체, 문제는 외부문제 생성 + 풀이 + 검증 모두 자체SFT 데이터 기반 정제
데이터Zero (베이스 모델 지식만)외부 수학 문제셋 필요Zero (코드 실행기 의존)SFT 데이터 필요
검증 방법Majority-vote pseudo-label정답 매칭코드 실행기 (unit test)Human SFT 데이터 분포
핵심 메트릭Qwen3-4B 수학 +7.36AIME 71.0% (DeepSeek-R1)수학+코드 SOTA (zero setting)MT-Bench 향상
확장성반복 후 collapse (3-4회)대규모 모델에서 안정코드 도메인에 특화수렴 후 정체
한계Pseudo-label 품질 하락, 도메인 제한외부 데이터 의존코드 실행기 필요, 비코드 도메인 제한SFT 데이터 품질에 의존
코드 공개

관련 연구

  • DeepSeek-R1 — R-Zero의 직접적 선행 연구. 외부 문제셋에 RL을 적용하여 추론 능력을 향상시킨 반면, R-Zero는 문제 자체도 자체 생성
  • Absolute Zero Reasoner — R-Zero와 동시기에 유사한 “zero data” 목표를 추구하지만, 코드 실행기를 검증 도구로 활용하는 점에서 차별화. NeurIPS 2025 Spotlight
  • SPIN - Self-Play Fine-Tuning — 이전 버전의 모델 출력과 인간 데이터를 구분하는 self-play. R-Zero는 데이터 생성까지 포함
  • STaR - Self-Taught Reasoning — Self-taught reasoning의 선구적 연구. 외부 데이터에 의존하는 점에서 R-Zero와 차이

원자적 인사이트 (Zettelkasten)

💡 불확실성 보상은 ZPD의 수학적 구현이다

출처: R-Zero - Self-Evolving Reasoning LLM from Zero Data (Huang et al., 2025)
유형: 이론적

r = 1 − 2|p̂ − 0.5|이라는 불확실성 보상은 Vygotsky의 근접발달영역(ZPD)을 RL 보상으로 직접 형식화한 것이다. 학습자의 정답률이 50%인 과제—즉 “반쯤 풀 수 있는” 난이도—에서 보상 신호의 분산 p̂(1−p̂)가 최대화되어 가장 효율적인 정책 학습이 일어난다. 이는 교육심리학의 핵심 이론이 기계학습 보상 설계로 직접 변환된 드문 사례이다.

핵심 조건/맥락: 검증 가능한 정답이 존재하는 도메인에서만 p̂를 정확히 추정할 수 있다. 개방형 과제에서는 불확실성 보상의 재정의가 필요하다.
연결: Curriculum Learning, Zone of Proximal Development, Active Learning
활용 가능성: 적응형 학습 시스템 설계, 능동 학습에서의 쿼리 난이도 선택 전략.

💡 Self-play는 언어 추론에서도 작동하지만 collapse가 구조적 한계이다

출처: R-Zero - Self-Evolving Reasoning LLM from Zero Data (Huang et al., 2025)
유형: 실험적

AlphaZero 스타일의 셀프플레이가 언어 모델 추론에서도 의미 있는 성능 향상(수학 +7.36, 일반 +4.81)을 달성했지만, 모든 모델이 일정 반복(0.6B: 1회, 4B: 3회) 후 성능이 저하된다. 이는 pseudo-label 정확도 하락(79%→63%)과 self-training의 다양성 손실이 복합적으로 작용한 결과이다. 더 큰 모델이 더 많은 반복을 견딘다는 패턴은, 모델 용량이 self-play collapse의 완충 역할을 함을 시사한다.

핵심 조건/맥락: 바둑과 달리 언어 추론에서는 완벽한 검증기가 없어 pseudo-label에 의존하며, 이것이 collapse의 근본 원인 중 하나이다.
연결: AlphaZero, Model Collapse, Self-Training
활용 가능성: Self-play 기반 LLM 학습에서 collapse 시점 예측 및 조기 종료 전략 설계.

💡 수학 추론 훈련이 일반 추론으로 전이된다

출처: R-Zero - Self-Evolving Reasoning LLM from Zero Data (Huang et al., 2025)
유형: 실험적

수학 문제로만 R-Zero를 훈련했음에도, MMLU-Pro(+4.89), SuperGPQA(+6.67) 등 일반 추론 벤치마크에서 유의미한 향상이 관찰되었다. 이는 R-Zero가 수학 도메인 특화 지식이 아닌 범용 추론 능력(논리적 사고, 단계적 분해 등)을 강화함을 시사한다. 단, 필터링을 제거하면 일반 도메인 성능이 −4.46으로 크게 하락하여, 이 전이 효과는 문제 품질 관리에 강하게 의존한다.

핵심 조건/맥락: Qwen3 계열에서 관찰된 결과이며, 다른 아키텍처에서의 재현은 OctoThinker에서도 확인되었지만 향상 폭이 더 작다.
연결: Transfer Learning, Mathematical Reasoning, General Reasoning
활용 가능성: 수학 RL을 범용 추론 부스팅의 전처리 단계로 활용하는 2단계 파이프라인 설계.


핵심 용어 정리

용어정의
GRPO (Group Relative Policy Optimization)DeepSeek에서 제안한 RL 알고리즘. 그룹 내 상대적 보상으로 정책을 최적화하며, critic 모델 없이 작동
ChallengerR-Zero에서 문제를 생성하는 역할의 모델. Solver의 능력 경계에 맞는 난이도의 문제를 생성하도록 불확실성 보상으로 훈련
SolverR-Zero에서 문제를 푸는 역할의 모델. Challenger가 생성한 문제를 이진 정답 보상으로 GRPO 학습
ZPD (Zone of Proximal Development)Vygotsky의 교육심리학 이론. 학습자가 독립적으로는 풀 수 없지만 약간의 도움으로 풀 수 있는 과제 영역
불확실성 보상 (Uncertainty Reward)r = 1 − 2|p̂ − 0.5|. Solver 정답률 50%에서 최대화되어 ZPD에 해당하는 문제 생성을 유도
Majority-vote Pseudo-label다수결 투표 기반 유사 정답. Solver의 m개 샘플 중 가장 빈도 높은 답을 정답으로 사용
RLVR (RL with Verifiable Rewards)검증 가능한 보상(정답 일치 여부)으로 LLM을 강화학습하는 패러다임
Self-Play자기 자신(또는 자신의 변형)과 대전하며 학습하는 방식. AlphaZero에서 유래
Model CollapseSelf-training 반복 시 생성 데이터의 다양성이 줄어들며 성능이 저하되는 현상
Consistency FilteringMajority-vote 정답률이 [0.25, 0.75] 범위인 문제만 선별하여 학습에 사용하는 품질 관리 기법

태그

paper #2025 Self-Evolving Reasoning Self-Play RLVR Curriculum ICLR2026 ZPD