Self-Refine - Iterative Refinement with Self-Feedback
5분 분량
Introduction
Self-Refine은 단일 LLM이 생성기·비평기·정제기 역할을 순차 수행하는 반복적 자기 개선 프레임워크
추가 학습, RL, 외부 감독자 없이 **추론 시간(test-time)**에만 작동하는 플러그-앤-플레이 방식
7가지 태스크에서 검증: 코드 최적화, 수학 추론, 대화 생성, 감성 전환, 에크로님 생성, 제약 조건 생성, 이야기 생성
핵심 발견: 동일 LLM의 단일 패스 대비 평균 절대 ~20% 개선; 2,892회 피인용
Related Papers
Reflexion (Shinn et al., 2023): 에피소딕 기억 + 자기 반성 — Self-Refine보다 복잡한 구조
CRITIC (Gou et al., 2023): 외부 도구 기반 자기 교정
Constitutional AI (Anthropic): 원칙 기반 자기 피드백
차별점: (1) 가장 단순한 구조(프롬프트만), (2) 7개 이질적 태스크에서 범용성 검증, (3) 추론 시간 컴퓨트 확장의 초기 선구 연구
Methods
반복 정제 루프
입력 x → 초기 생성 y₀ (p_gen 프롬프트)
y₀ → 피드백 생성 fb₀ (p_fb 프롬프트) — 자연어로 구체적 개선 방향 기술
(y₀, fb₀) → 출력 정제 y₁ (p_refine 프롬프트)
종료 조건 충족 또는 최대 4회까지 반복
피드백은 스칼라가 아닌 자연어 — 구체적 개선 방향 제공
각 단계는 few-shot 프롬프트로 제어
방법론 다이어그램
graph TD
A[입력 x] --> B[초기 생성<br/>y₀ = LLM gen]
B --> C[피드백 생성<br/>fb_t = LLM fb]
C --> D{충분히 개선?}
D -->|No| E[출력 정제<br/>y_t+1 = LLM refine]
E --> F{반복 ≥ 4?}
F -->|No| C
F -->|Yes| G[최종 출력]
D -->|Yes| G
style B fill:#e3f2fd
style C fill:#fff3e0
style E fill:#e8f5e9
Results
평가 모델: GPT-3.5, GPT-4, Codex
핵심 발견: 태스크별 편차 크지만 전반적으로 일관된 개선; 수학 추론에서는 자기 피드백만으로 제한적
실험 결과 상세
Task
Metric
Baseline
Self-Refine
Improvement
대화 응답
인간 선호도
25.4%
74.6%
+49.2%p
코드 최적화 (PIE)
속도 향상 점수
22.0
28.8
+6.8
감성 전환
전환 정확도
16.6%
44.8%
+28.2%p
수학 추론 (GSM8K)
자기 피드백
baseline
+0.2%p
소폭
수학 추론 (GSM8K)
오라클 피드백
baseline
+4.8%p
조건부
Discussion
피드백 품질이 핵심: 수학 추론에서 자기 피드백으로는 거의 개선 없으나 오라클 피드백에서는 +4.8%p → 피드백 정확도가 태스크 도메인에 강하게 의존
“확증 편향 루프” 위험: 모델이 자신의 오류를 감지 못하면 피드백도 오염
테스트 시간 컴퓨트의 선구: 이후 OpenAI o1 등 추론 시간 확장 패러다임의 토대
한계: 4회 반복 상한의 이론적 근거 부족; 수학/사실 추론에서 근본적 한계
Insights
주목할 점: “가장 강력한 모델도 첫 시도에서 최선이 아닐 수 있다” — GPT-4도 Self-Refine으로 추가 개선
연결 고리: Reflexion, CRITIC, Constitutional AI와 깊이 연결. 인간의 draft-review-revise 과정 모방
시사점: 모델 크기/사전학습 외에 “추론 시간 반복 개선”이 성능 향상의 독립적 축
비판적 코멘트: 피드백이 “새로운 정보”를 생성하는지 vs 억제된 정보를 재표면화하는지 불분명
Discussion Points
논쟁점: LLM이 자신의 출력을 진정으로 비판할 수 있는가? 앵커링 효과 vs 자기 인식 — 후속 연구(“GPT-4 Doesn’t Know It’s Wrong”)가 한계 지적
검증 필요 가정: 피드백이 양질이라는 암묵적 가정 — 잘못된 피드백은 성능 저하 유발
후속 연구: (1) 외부 도구 통합으로 수학/사실 한계 극복, (2) 피드백 생성/정제 분리 아키텍처, (3) 동적 반복 횟수 결정 메타-학습