Introduction

ReAct 스타일 다단계 추론 에이전트 + ReST(Reinforced Self-Training) 반복 학습 결합
인간 레이블 없이 AI 피드백만으로 에이전트 자기 개선
PaLM 2 모델 계열(XS/S/L)에서 검증: 2회 반복만으로 소형 XS(65.9%)가 대형 L(70.3%)에 근접
BamTwoogle 벤치마크 공개 (100개 2~4-hop QA, 인간 평가와 Pearson r=0.98)

ReST (Gulcehre et al., 2023): 오프라인 반복 학습 — ReAct 에이전트에 최초 적용
ReAct (Yao et al., 2023): 추론-행동 루프 — ReST meets ReAct가 확장
Toolformer, WebGPT: 도구 사용 에이전트 학습
STaR, RAFT: 자기 개선 계열

Methods

Grow-Improve 반복 프레임워크

Grow 단계

현재 정책으로 2,000개 질문에 대해 5단계 추론 궤적 샘플링 (T=0.5, 최대 검색 10회)
5단계: 검색 결정 → 쿼리 생성 → 요약 → 답변 생성 → 자기 검증

Improve 단계

Instruction-tuned LLM을 보상 모델로 활용 (별도 훈련 없음)
궤적 랭킹·필터링 → 소형 모델 파인튜닝

방법론 다이어그램

graph TD
    A[PaLM 2-L 초기 프롬프팅] --> B[현재 정책으로 궤적 샘플링<br/>2000개 질문, T=0.5]
    B --> C[5단계 궤적 생성]
    C --> D[LLM 기반 AI 피드백으로<br/>궤적 랭킹·필터링]
    D --> E[소형 모델 파인튜닝<br/>PaLM 2-XS/S/L]
    E --> F{2회 반복 완료?}
    F -->|No| B
    F -->|Yes| G[최종 평가]

    style B fill:#e8f4f8
    style D fill:#fff3e0

Results

핵심 발견: 데이터 품질이 양보다 중요 — 2세대 데이터가 1세대 대비 +9%p
자기 검증 단계: 0.5~1.0% 소폭이지만 일관된 향상

실험 결과 상세

Bamboogle 자동 평가 (%)

Model	1st Gen	2nd Gen	vs. Pre-trained L
PaLM 2-L	74.0	76.1	+5.8%p
PaLM 2-S	61.9	69.7	-0.6%p
PaLM 2-XS	54.4	65.9	-4.4%p
L (Pre-trained)	—	70.3	baseline

데이터 품질 절제 (XS 모델)

Setting	Accuracy
1st Gen (1x)	54.4
2nd Gen (1x)	63.4 (+9.0%p)
2nd Gen (4x)	65.9

Discussion

자기 증류: 대형 모델의 합성 궤적으로 소형 모델 반복 파인튜닝 → 강력한 지식 증류
한계 1: Bamboogle(125문항), BamTwoogle(100문항) 규모 제한 → 통계적 신뢰성 낮음
한계 2: PaLM 2 단일 계열 — 일반화 불확실
인간 필터링 역설: 인간 필터링이 오히려 성능 저하 — 데이터 규모 효과와 혼재

Insights

주목할 점: “인간 레이블 없이 AI 피드백만으로 에이전트 자기 개선”이 단순하면서도 강력
연결 고리: SPIN, Self-Play FT의 선구적 사례. LLM 배포 비용 절감과 에지 디바이스 적용 가능성
질문: 반복 2회 이상에서 수렴 또는 퇴화(reward hacking) 발생 여부?
비판적 코멘트: 진정한 “자기 개선”인지 단순 대형→소형 증류인지 경계 불분명

Discussion Points

논쟁점: AI 피드백 기반 랭킹이 “자기 개선”인가 “증류”인가? 보상 모델 편향 증폭 가능성
검증 필요 가정: 자동 평가-인간 평가 상관(r=0.98)이 다양한 도메인에서 유지되는지
후속 연구: (1) 5~10회 반복 수렴 행동, (2) 멀티-툴 환경 확장, (3) 프로세스 보상 모델(PRM) 통합, (4) 완전 자율 자기 루프

Juhyeon's Blog

탐색기

ReST meets ReAct - Self-Improvement for Multi-Step Reasoning

Introduction

Methods

Grow-Improve 반복 프레임워크

Grow 단계

Improve 단계

방법론 다이어그램

Results

실험 결과 상세

Bamboogle 자동 평가 (%)

데이터 품질 절제 (XS 모델)

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크

ReST meets ReAct - Self-Improvement for Multi-Step Reasoning

Introduction

Related Papers

Methods

Grow-Improve 반복 프레임워크

Grow 단계

Improve 단계

방법론 다이어그램

Results

실험 결과 상세

Bamboogle 자동 평가 (%)

데이터 품질 절제 (XS 모델)

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크