Introduction


  • ReAct 스타일 다단계 추론 에이전트 + ReST(Reinforced Self-Training) 반복 학습 결합
  • 인간 레이블 없이 AI 피드백만으로 에이전트 자기 개선
  • PaLM 2 모델 계열(XS/S/L)에서 검증: 2회 반복만으로 소형 XS(65.9%)가 대형 L(70.3%)에 근접
  • BamTwoogle 벤치마크 공개 (100개 2~4-hop QA, 인간 평가와 Pearson r=0.98)

Related Papers


  • ReST (Gulcehre et al., 2023): 오프라인 반복 학습 — ReAct 에이전트에 최초 적용
  • ReAct (Yao et al., 2023): 추론-행동 루프 — ReST meets ReAct가 확장
  • Toolformer, WebGPT: 도구 사용 에이전트 학습
  • STaR, RAFT: 자기 개선 계열

Methods


Grow-Improve 반복 프레임워크

Grow 단계

  • 현재 정책으로 2,000개 질문에 대해 5단계 추론 궤적 샘플링 (T=0.5, 최대 검색 10회)
  • 5단계: 검색 결정 → 쿼리 생성 → 요약 → 답변 생성 → 자기 검증

Improve 단계

  • Instruction-tuned LLM을 보상 모델로 활용 (별도 훈련 없음)
  • 궤적 랭킹·필터링 → 소형 모델 파인튜닝

방법론 다이어그램

graph TD
    A[PaLM 2-L 초기 프롬프팅] --> B[현재 정책으로 궤적 샘플링<br/>2000개 질문, T=0.5]
    B --> C[5단계 궤적 생성]
    C --> D[LLM 기반 AI 피드백으로<br/>궤적 랭킹·필터링]
    D --> E[소형 모델 파인튜닝<br/>PaLM 2-XS/S/L]
    E --> F{2회 반복 완료?}
    F -->|No| B
    F -->|Yes| G[최종 평가]

    style B fill:#e8f4f8
    style D fill:#fff3e0

Results


  • 핵심 발견: 데이터 품질이 양보다 중요 — 2세대 데이터가 1세대 대비 +9%p
  • 자기 검증 단계: 0.5~1.0% 소폭이지만 일관된 향상

실험 결과 상세

Bamboogle 자동 평가 (%)

Model1st Gen2nd Genvs. Pre-trained L
PaLM 2-L74.076.1+5.8%p
PaLM 2-S61.969.7-0.6%p
PaLM 2-XS54.465.9-4.4%p
L (Pre-trained)70.3baseline

데이터 품질 절제 (XS 모델)

SettingAccuracy
1st Gen (1x)54.4
2nd Gen (1x)63.4 (+9.0%p)
2nd Gen (4x)65.9

Discussion


  • 자기 증류: 대형 모델의 합성 궤적으로 소형 모델 반복 파인튜닝 → 강력한 지식 증류
  • 한계 1: Bamboogle(125문항), BamTwoogle(100문항) 규모 제한 → 통계적 신뢰성 낮음
  • 한계 2: PaLM 2 단일 계열 — 일반화 불확실
  • 인간 필터링 역설: 인간 필터링이 오히려 성능 저하 — 데이터 규모 효과와 혼재

Insights


  • 주목할 점: “인간 레이블 없이 AI 피드백만으로 에이전트 자기 개선”이 단순하면서도 강력
  • 연결 고리: SPIN, Self-Play FT의 선구적 사례. LLM 배포 비용 절감과 에지 디바이스 적용 가능성
  • 질문: 반복 2회 이상에서 수렴 또는 퇴화(reward hacking) 발생 여부?
  • 비판적 코멘트: 진정한 “자기 개선”인지 단순 대형→소형 증류인지 경계 불분명

Discussion Points


  • 논쟁점: AI 피드백 기반 랭킹이 “자기 개선”인가 “증류”인가? 보상 모델 편향 증폭 가능성
  • 검증 필요 가정: 자동 평가-인간 평가 상관(r=0.98)이 다양한 도메인에서 유지되는지
  • 후속 연구: (1) 5~10회 반복 수렴 행동, (2) 멀티-툴 환경 확장, (3) 프로세스 보상 모델(PRM) 통합, (4) 완전 자율 자기 루프