R-Zero: 제로 데이터로 자기진화하는 추론 LLM

Digest: 대규모 언어 모델(LLM)의 추론 능력을 강화하려면 통상 방대한 고품질 학습 데이터가 필요하지만, R-Zero는 외부 데이터 없이 단일 베이스 모델만으로 이를 달성하는 자기진화 프레임워크를 제안한다. 핵심 통찰은 Vygotsky의 **근접발달영역(ZPD, Zone of Proximal Development)**을 RL 보상으로 직접 형식화한 것이다: Solver의 정답률이 50%에 가까운 문제—즉 능력 경계에 위치한 문제—를 Challenger가 생성하도록 불확실성 보상 r = 1 − 2|p̂ − 0.5|로 유도한다. Challenger와 Solver는 GRPO(Group Relative Policy Optimization)로 각각 훈련되며, Challenger가 생성한 후보 문제 중 majority-vote 기반 일관성 필터링을 통과한 것만 Solver 학습에 사용하는 반복 사이클을 구성한다. Qwen3-4B 기준 수학 추론 7개 벤치마크에서 평균 +7.36점(Table 1), 일반 도메인 추론에서 +4.81점(Table 2)의 향상을 달성했으며, 수학 문제로만 훈련했음에도 MMLU-Pro, SuperGPQA 등 일반 추론으로의 전이가 관찰되었다. 그러나 pseudo-label 정확도가 반복 진행에 따라 79%→63%(Table 5)로 하락하며, 모든 모델이 일정 반복 이후 성능이 저하되는 구조적 한계를 보인다. 또한 “Zero data”라는 명칭에도 불구하고 베이스 모델의 사전학습 데이터에 의존하며, 검증 가능한 정답이 없는 개방형 추론 과제에는 적용이 어렵다는 미해결 질문이 남아 있다.

섹션별 요약

Introduction

R-Zero는 최근 DeepSeek-R1-Zero 등이 보여준 “RL만으로 추론 능력 향상”이라는 흐름을 한 단계 더 밀어, 학습 데이터(문제) 자체도 모델이 스스로 생성하는 완전 자율 프레임워크를 제안한다. 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 연구들은 여전히 사람이 큐레이션한 문제셋에 의존하는데, 고품질 문제의 희소성이 장기적 확장성을 제약한다는 문제의식에서 출발한다. 핵심 기여는 세 가지: (1) Challenger-Solver 공진화 프레임워크, (2) 불확실성 보상의 이론적 정당화, (3) 다양한 백본에서의 실증.

Methods

프레임워크는 세 단계로 구성된다. 1단계: Challenger를 GRPO로 훈련하되, Solver 정답률 50%에 가까운 문제를 생성하도록 불확실성 보상을 부여하고, BLEU 클러스터링 기반 반복 패널티로 다양성을 보장한다. 2단계: Challenger가 생성한 ~~8,000개 후보 문제를 majority-vote 일관성 필터링(정답률 0.25~~0.75)으로 선별하여 고품질 학습셋과 pseudo-label을 구축한다. 3단계: Solver를 이진 정답 보상으로 GRPO 훈련한다. 이 사이클을 반복하며, 50% 불확실성 목표가 보상 신호의 분산(p̂(1−p̂))을 최대화하여 최적 정책과의 KL 발산을 하한하므로 “최대 효율 커리큘럼”을 이론적으로 보장한다.

Results

Qwen3-4B/8B와 OctoThinker-3B/8B에서 실험하였다. Qwen3-4B 기준 수학 7개 벤치마크 평균 42.57→49.93(+7.36, 3 iterations), 일반 도메인에서 MMLU-Pro 50.58→55.47, SuperGPQA 20.88→27.55를 달성했다. Ablation에서 반복 패널티 제거 시 수학 −3.31, 필터링 제거 시 일반 도메인 −4.46으로, 두 구성요소 모두 핵심적이다. R-Zero 전처리 후 지도학습 시 +2.35점 추가 향상(순차 전략이 혼합보다 우수).

Discussion

모든 모델이 일정 반복 후 성능 저하를 보인다(0.6B: 1회, 4B: 3회 후 collapse). Pseudo-label 정확도 하락(79%→63%)이 한 원인이지만, 유일한 원인은 아니다—0.6B 모델은 70.6% 정확도에서도 붕괴하는 반면 4B는 48.8%까지 견딘다. 이는 self-training의 다양성 손실(model collapse)이 근본 원인임을 시사한다. 또한 검증 가능한 정답이 있는 도메인에만 적용 가능하며, 개방형/주관적 과제로의 확장은 미해결이다.

Insights

주목할 점: 교육심리학 이론(ZPD)이 RL 보상 설계로 직접 연결된 드문 사례. r = 1 − 2|p̂ − 0.5|라는 단순한 수식이 이론적으로 탄탄한 커리큘럼을 자동 생성한다.
연결 고리: AlphaZero의 셀프플레이를 언어 모델 추론으로 확장한 구조. Semi-supervised learning의 self-training과 구조적으로 동형이며, Absolute Zero Reasoner(AZR)와는 코드 검증기 의존 여부에서 차별화된다.
시사점: 고품질 학습 데이터가 희소한 저자원 언어나 특수 도메인에서 제로 레이블 추론 모델 구축 경로를 제공한다.
비판적 코멘트: pseudo-label 품질 하락과 model collapse가 반복 후 성능 저하의 직접 원인이나, 논문에서 구체적 해결책을 제시하지 않는다. 후속 연구 R-Few에서 소량 인간 데이터 가이드로 이를 보완하려는 시도가 진행 중이다.

Discussion Points

논쟁점: “Zero data” 명칭의 정당성—베이스 모델의 수조 토큰 사전학습 지식에 전적으로 의존하므로, 진정한 데이터 희소 환경에서의 효용성은 미검증이다. Absolute Zero Reasoner도 유사한 명칭을 사용하지만 코드 실행기라는 외부 검증 도구에 의존한다.
검증 필요 가정: 검증 가능한 정답이 없는 개방형 추론(창의적 글쓰기, 대화)에서 불확실성 보상을 어떻게 재정의할 수 있는지 미검증이다.
후속 연구: (1) 신뢰도 가중 GRPO로 pseudo-label 하락 억제, (2) 단일 모델 self-play(Challenger/Solver 분리 제거), (3) R-Few 방식의 소량 인간 데이터 결합, (4) VLM 확장(Visplay).

메타데이터

항목	내용
제목	R-Zero: Self-Evolving Reasoning LLM from Zero Data
저자	Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu
소속	Washington University in St. Louis, Tencent AI Seattle Lab, University of Maryland, UT Dallas
연도	2025 (arXiv), ICLR 2026 Poster 채택
발표	arXiv:2508.05004
링크	arXiv, GitHub, Project Page
키워드	Self-Evolving, Self-Play, Zero-Data RL, Curriculum Learning, GRPO, Reasoning

왜 이 연구를 하는가?

핵심 질문

외부 학습 데이터 없이, 단일 베이스 LLM만으로 추론 능력을 자기진화시킬 수 있는가?

기존 접근법의 한계

한계	설명
데이터 의존성	DeepSeek-R1-Zero, STaR 등 기존 RLVR 연구는 사람이 큐레이션한 문제셋에 의존
확장성 제약	고품질 수학/추론 문제의 절대량이 부족하여 장기적 스케일링이 어려움
커리큘럼 부재	무작위 문제 제시는 학습 효율이 낮고, 적응적 난이도 조절이 없음
단일 역할	기존 self-play는 코드 생성(단위 테스트 검증 가능) 등 특정 도메인에 국한

핵심 통찰

Solver의 정답률이 50%인 문제는 보상 분산 p̂(1−p̂)를 최대화하여, 이론적으로 가장 효율적인 학습 신호를 제공한다(ZPD의 수학적 형식화).
문제 생성과 문제 풀이를 별도 모델(Challenger/Solver)로 분리하되 동일 베이스에서 초기화하면, 셀프플레이를 통해 두 능력이 공진화할 수 있다.

방법 (Method)

프레임워크 개요

graph TD
    A[단일 베이스 LLM] --> B[Challenger 초기화]
    A --> C[Solver 초기화]

    subgraph "반복 사이클 (Iteration)"
        B --> D["Challenger GRPO 학습<br/>불확실성 보상 + 반복 패널티 + 포맷 패널티"]
        D --> E["후보 문제 ~8,000개 생성"]
        E --> F["일관성 필터링<br/>majority-vote 정답률 0.25~0.75"]
        F --> G["고품질 문제 + Pseudo-label"]
        G --> H["Solver GRPO 학습<br/>이진 정답 보상"]
        H -->|"다음 반복"| D
    end

    H --> I["최종 Solver<br/>(추론 능력 향상)"]

    style A fill:#e0f2fe
    style D fill:#fef3c7
    style F fill:#fce7f3
    style I fill:#d1fae5

핵심 구성요소

1. 불확실성 보상 (Uncertainty Reward)

Solver의 경험적 정답률 p̂를 기반으로 Challenger를 훈련하는 보상 함수이다. Solver가 m=10개 샘플을 생성하여 majority-vote로 정답률을 추정하고, 이를 기반으로 불확실성 보상을 계산한다.

$r_{uncertainty} (x; ϕ) = 1 - 2∣ \overset{p}{^} (x; S_{ϕ}) - \frac{1}{2} ∣$

이 보상은 정답률 50%일 때 최대값 1을 가지며, 0%나 100%일 때 0이 된다. 이론적으로 이 목표는 보상 신호의 분산 p̂(1−p̂)를 최대화하며, 이는 최적 정책과의 KL 발산의 하한을 제공한다.

2. 반복 패널티 (Repetition Penalty)

BLEU 점수 기반 클러스터링(τ_BLEU=0.5)으로 유사 문제를 그룹화하고, 클러스터 크기에 비례하는 패널티를 부여한다.

$r_{rep} (x_{i}) = λ \frac{∣ C _{k} ∣}{B}$

여기서 λ=1, |C_k|는 클러스터 크기, B는 배치 크기이다.

3. 복합 보상 (Composite Reward)

$r_{i} = max (0, r_{uncertainty} (x_{i}; ϕ) - r_{rep} (x_{i}))$

포맷 위반(질문 태그 누락) 시 즉시 보상 0을 부여하는 포맷 패널티도 적용된다.

4. 일관성 필터링 (Consistency Filtering)

Solver가 majority-vote로 추정한 정답률이 [0.25, 0.75] 범위에 들어오는 문제만 선별한다. 이는 너무 쉽거나 어려운 문제를 배제하면서, pseudo-label의 품질도 암묵적으로 보장한다.

5. 하이퍼파라미터

구성요소	배치 크기	학습 스텝	롤아웃 수	학습률	KL 패널티
Challenger	128	5	4	1e-6	1e-2
Solver	128	15	5	1e-6	1e-2

발견 (Findings)

주요 결과

수학적 추론 (7개 벤치마크, Table 1)

모델	Base	R-Zero	Gain	AMC	MATH-500	GSM8K	Olympiad	AIME-24	AIME-25	Minerva
Qwen3-4B	42.57	49.93	+7.36	57.27	—	79.60	92.12	—	—	—
Qwen3-8B	48.64	53.72	+5.08	—	—	—	—	—	—	—
OctoThinker-3B	26.64	29.32	+2.68	—	—	—	—	—	—	—
OctoThinker-8B	36.41	38.52	+2.11	—	—	—	—	—	—	—

일반 도메인 추론 (Table 2)

모델	Base AVG	R-Zero AVG	Gain	MMLU-Pro	SuperGPQA
Qwen3-4B	26.34	31.15	+4.81	55.47	27.55
Qwen3-8B	31.98	34.50	+2.52	—	—

Ablation Study (Qwen3-4B, Table 3)

조건	Math AVG	General AVG
Full R-Zero	49.07	31.15
반복 패널티 제거	45.76 (−3.31)	28.73 (−2.42)
필터링 제거	47.35 (−1.72)	26.69 (−4.46)

핵심 발견

수학 문제로만 훈련했음에도 MMLU-Pro(+4.89), SuperGPQA(+6.67) 등 일반 추론 벤치마크에서 유의미한 전이가 관찰되었다. 이는 R-Zero가 특정 도메인 지식이 아닌 범용 추론 능력을 향상시킴을 시사한다. Ablation에서 필터링 제거가 일반 도메인 성능을 크게 떨어뜨리는 점(−4.46)은, 문제 품질 관리가 도메인 전이에 핵심적임을 보여준다.

R-Zero 후 지도학습을 순차 적용(sequential strategy)하면 지도학습 단독 대비 +2.35점 추가 향상을 달성하며, 두 데이터를 혼합(mixing)하는 것보다 우수하다(Figure 4).

성능 저하 패턴 (Figure 3)

모델 크기	최대 성능 도달 반복	이후 패턴
0.6B	1회	즉시 하락
1.7B	2회	점진 하락
4B	3회	3회 후 하락

Pseudo-label 정확도 변화 (Table 5)

GRPO Step	정확도
15	79.0%
30	69.0%
45	63.0%

이론적 의의

ZPD의 수학적 형식화

Vygotsky의 근접발달영역(ZPD) 이론에서, 학습자가 독립적으로는 풀 수 없지만 약간의 도움으로 풀 수 있는 과제에서 가장 효과적인 학습이 일어난다. R-Zero의 불확실성 보상은 이를 RL 보상으로 직접 구현한다. 정답률 50%는 “모델이 반쯤 풀 수 있는” 난이도이며, 이 지점에서 보상 분산이 최대화되어 정책 학습이 가장 효율적이다. 교육심리학 이론이 기계학습 보상 설계로 직접 연결된 드문 사례이다.

Self-Play의 언어 추론 확장

AlphaZero가 바둑에서 셀프플레이로 초인적 성능을 달성했듯이, R-Zero는 이를 언어 모델 추론으로 확장한다. 바둑의 승패와 달리 언어 추론에서는 문제의 정답 검증이 어렵다는 차이가 있으며, majority-vote pseudo-label로 이를 우회하지만 정확도 하락이라는 대가를 치른다.

데이터 프리 커리큘럼 학습

기존 커리큘럼 학습은 문제 난이도를 사람이 정의해야 했지만, R-Zero는 Solver의 현재 능력에 따라 Challenger가 자동으로 난이도를 조절한다. 이는 적응적 시험(adaptive testing)과 구조적으로 유사하며, 학습 효율의 이론적 상한에 접근한다.

재현성 및 신뢰도 평가

항목	등급	비고
코드 공개	✅	GitHub 공개, 학습/평가 코드 포함
데이터 공개	✅	프레임워크 자체가 데이터 생성이므로, 코드로 재현 가능
하이퍼파라미터	✅	Challenger/Solver 학습 설정 상세 보고 (Table 형태)
실험 환경	⚠️	GPU 종류/수, 학습 시간 등 인프라 정보 불충분
통계적 신뢰도	⚠️	다중 실행 결과 없음, 표준편차 미보고
종합 등급	B+	코드/설정 공개는 우수하나 통계적 신뢰도 보고 부족

주장별 신뢰도

#	주장	근거	신뢰도
1	수학 추론 +7.36점 향상	Table 1, 4개 백본 일관된 향상	🟢
2	일반 도메인 전이 효과	Table 2, 수학 훈련만으로 MMLU-Pro/SuperGPQA 향상	🟢
3	불확실성 보상이 KL 발산 하한	이론적 증명 제시, 실험적 검증은 간접적	🟡
4	모든 반복 패널티/필터링이 핵심	Table 3 ablation으로 검증	🟢
5	지도학습과의 시너지	Figure 4, 순차 전략 +2.35	🟡
6	”Zero data” 프레임워크	베이스 모델 사전학습에 의존, 명칭 과장 소지	🔴

읽기 난이도: ⭐⭐

RL(강화학습), GRPO, KL 발산 등 기본 개념에 대한 이해가 필요하지만, 프레임워크 자체는 직관적이다. ZPD 비유가 이해를 돕는다.

축	R-Zero	DeepSeek-R1-Zero	Absolute Zero Reasoner	SPIN
핵심 접근	Challenger-Solver 공진화, 불확실성 보상	순수 RL (GRPO) on 외부 문제셋	단일 모델 self-play + 코드 실행기 검증	Self-play 파인튜닝, 이전 버전과 대결
문제 정의	문제 생성 + 풀이 모두 자체	풀이만 자체, 문제는 외부	문제 생성 + 풀이 + 검증 모두 자체	SFT 데이터 기반 정제
데이터	Zero (베이스 모델 지식만)	외부 수학 문제셋 필요	Zero (코드 실행기 의존)	SFT 데이터 필요
검증 방법	Majority-vote pseudo-label	정답 매칭	코드 실행기 (unit test)	Human SFT 데이터 분포
핵심 메트릭	Qwen3-4B 수학 +7.36	AIME 71.0% (DeepSeek-R1)	수학+코드 SOTA (zero setting)	MT-Bench 향상
확장성	반복 후 collapse (3-4회)	대규모 모델에서 안정	코드 도메인에 특화	수렴 후 정체
한계	Pseudo-label 품질 하락, 도메인 제한	외부 데이터 의존	코드 실행기 필요, 비코드 도메인 제한	SFT 데이터 품질에 의존
코드 공개	✅	✅	✅	✅

원자적 인사이트 (Zettelkasten)

💡 불확실성 보상은 ZPD의 수학적 구현이다

출처: R-Zero - Self-Evolving Reasoning LLM from Zero Data (Huang et al., 2025)
유형: 이론적

r = 1 − 2|p̂ − 0.5|이라는 불확실성 보상은 Vygotsky의 근접발달영역(ZPD)을 RL 보상으로 직접 형식화한 것이다. 학습자의 정답률이 50%인 과제—즉 “반쯤 풀 수 있는” 난이도—에서 보상 신호의 분산 p̂(1−p̂)가 최대화되어 가장 효율적인 정책 학습이 일어난다. 이는 교육심리학의 핵심 이론이 기계학습 보상 설계로 직접 변환된 드문 사례이다.

핵심 조건/맥락: 검증 가능한 정답이 존재하는 도메인에서만 p̂를 정확히 추정할 수 있다. 개방형 과제에서는 불확실성 보상의 재정의가 필요하다.
연결: Curriculum Learning, Zone of Proximal Development, Active Learning
활용 가능성: 적응형 학습 시스템 설계, 능동 학습에서의 쿼리 난이도 선택 전략.

💡 Self-play는 언어 추론에서도 작동하지만 collapse가 구조적 한계이다

출처: R-Zero - Self-Evolving Reasoning LLM from Zero Data (Huang et al., 2025)
유형: 실험적

AlphaZero 스타일의 셀프플레이가 언어 모델 추론에서도 의미 있는 성능 향상(수학 +7.36, 일반 +4.81)을 달성했지만, 모든 모델이 일정 반복(0.6B: 1회, 4B: 3회) 후 성능이 저하된다. 이는 pseudo-label 정확도 하락(79%→63%)과 self-training의 다양성 손실이 복합적으로 작용한 결과이다. 더 큰 모델이 더 많은 반복을 견딘다는 패턴은, 모델 용량이 self-play collapse의 완충 역할을 함을 시사한다.

핵심 조건/맥락: 바둑과 달리 언어 추론에서는 완벽한 검증기가 없어 pseudo-label에 의존하며, 이것이 collapse의 근본 원인 중 하나이다.
연결: AlphaZero, Model Collapse, Self-Training
활용 가능성: Self-play 기반 LLM 학습에서 collapse 시점 예측 및 조기 종료 전략 설계.

💡 수학 추론 훈련이 일반 추론으로 전이된다