ReST meets ReAct - Self-Improvement for Multi-Step Reasoning
4분 분량
Introduction
ReAct 스타일 다단계 추론 에이전트 + ReST(Reinforced Self-Training) 반복 학습 결합
인간 레이블 없이 AI 피드백만으로 에이전트 자기 개선
PaLM 2 모델 계열(XS/S/L)에서 검증: 2회 반복만으로 소형 XS(65.9%)가 대형 L(70.3%)에 근접
BamTwoogle 벤치마크 공개 (100개 2~4-hop QA, 인간 평가와 Pearson r=0.98)
Related Papers
ReST (Gulcehre et al., 2023): 오프라인 반복 학습 — ReAct 에이전트에 최초 적용
ReAct (Yao et al., 2023): 추론-행동 루프 — ReST meets ReAct가 확장
Toolformer, WebGPT: 도구 사용 에이전트 학습
STaR, RAFT: 자기 개선 계열
Methods
Grow-Improve 반복 프레임워크
Grow 단계
현재 정책으로 2,000개 질문에 대해 5단계 추론 궤적 샘플링 (T=0.5, 최대 검색 10회)
5단계: 검색 결정 → 쿼리 생성 → 요약 → 답변 생성 → 자기 검증
Improve 단계
Instruction-tuned LLM을 보상 모델로 활용 (별도 훈련 없음)
궤적 랭킹·필터링 → 소형 모델 파인튜닝
방법론 다이어그램
graph TD
A[PaLM 2-L 초기 프롬프팅] --> B[현재 정책으로 궤적 샘플링<br/>2000개 질문, T=0.5]
B --> C[5단계 궤적 생성]
C --> D[LLM 기반 AI 피드백으로<br/>궤적 랭킹·필터링]
D --> E[소형 모델 파인튜닝<br/>PaLM 2-XS/S/L]
E --> F{2회 반복 완료?}
F -->|No| B
F -->|Yes| G[최종 평가]
style B fill:#e8f4f8
style D fill:#fff3e0
Results
핵심 발견: 데이터 품질이 양보다 중요 — 2세대 데이터가 1세대 대비 +9%p
자기 검증 단계: 0.5~1.0% 소폭이지만 일관된 향상
실험 결과 상세
Bamboogle 자동 평가 (%)
Model
1st Gen
2nd Gen
vs. Pre-trained L
PaLM 2-L
74.0
76.1
+5.8%p
PaLM 2-S
61.9
69.7
-0.6%p
PaLM 2-XS
54.4
65.9
-4.4%p
L (Pre-trained)
—
70.3
baseline
데이터 품질 절제 (XS 모델)
Setting
Accuracy
1st Gen (1x)
54.4
2nd Gen (1x)
63.4 (+9.0%p)
2nd Gen (4x)
65.9
Discussion
자기 증류: 대형 모델의 합성 궤적으로 소형 모델 반복 파인튜닝 → 강력한 지식 증류
한계 1: Bamboogle(125문항), BamTwoogle(100문항) 규모 제한 → 통계적 신뢰성 낮음
한계 2: PaLM 2 단일 계열 — 일반화 불확실
인간 필터링 역설: 인간 필터링이 오히려 성능 저하 — 데이터 규모 효과와 혼재
Insights
주목할 점: “인간 레이블 없이 AI 피드백만으로 에이전트 자기 개선”이 단순하면서도 강력
연결 고리: SPIN, Self-Play FT의 선구적 사례. LLM 배포 비용 절감과 에지 디바이스 적용 가능성
질문: 반복 2회 이상에서 수렴 또는 퇴화(reward hacking) 발생 여부?
비판적 코멘트: 진정한 “자기 개선”인지 단순 대형→소형 증류인지 경계 불분명
Discussion Points
논쟁점: AI 피드백 기반 랭킹이 “자기 개선”인가 “증류”인가? 보상 모델 편향 증폭 가능성
검증 필요 가정: 자동 평가-인간 평가 상관(r=0.98)이 다양한 도메인에서 유지되는지
후속 연구: (1) 5~10회 반복 수렴 행동, (2) 멀티-툴 환경 확장, (3) 프로세스 보상 모델(PRM) 통합, (4) 완전 자율 자기 루프