InstructGPT: Training Language Models to Follow Instructions with Human Feedback
Digest: InstructGPT는 OpenAI가 제안한 RLHF(Reinforcement Learning from Human Feedback) 3단계 파이프라인(SFT → Reward Model → PPO)으로 GPT-3를 인간 지시에 맞게 정렬(align)한 모델이다. 핵심 발견은 1.3B InstructGPT가 175B GPT-3보다 인간 평가에서 선호되었다는 것으로, alignment이 단순 스케일링보다 효과적임을 증명했다. RLHF 적용 시 NLP 벤치마크 성능이 하락하는 “Alignment Tax”를 PPO-ptx(사전학습 gradient 혼합)로 완화했다. 이 연구는 ChatGPT, Claude, Gemini 등 후속 모든 대화형 AI의 학습 패러다임을 정립했다.
아키텍처 상세
모델 스펙
InstructGPT는 GPT-3 아키텍처를 기반으로 하며, 아키텍처 자체의 변경 없이 학습 방법론이 핵심 기여이다.
모델
Params
Layers
Heads
d_model
Context
기반
InstructGPT-1.3B
1.3B
24
16
2048
2048
GPT-3 (ada)
InstructGPT-6B
6B
32
32
4096
2048
GPT-3 (curie)
InstructGPT-175B
175B
96
96
12288
2048
GPT-3 (davinci)
구성요소
설명
Attention
Standard MHA (Multi-Head Attention)
FFN
GELU activation
Position Encoding
Learned Absolute Position Embedding
Normalization
Post-LayerNorm (GPT-3 표준)
Tokenizer
BPE, 50,257 vocab
RLHF 3단계 파이프라인
graph LR
subgraph Step1["Step 1: SFT"]
A["GPT-3"] --> B["데모 데이터<br/>(~13K prompts)<br/>라벨러 작성 응답"]
B --> C["SFT 모델"]
end
subgraph Step2["Step 2: Reward Model"]
C --> D["프롬프트 → K개 응답 생성"]
D --> E["라벨러 순위 매김<br/>(~33K prompts)"]
E --> F["Reward Model (6B)<br/>ranking loss 학습"]
end
subgraph Step3["Step 3: PPO"]
C --> G["PPO 정책 초기화"]
F --> H["RM으로 보상 스코어링"]
G --> H
H --> I["PPO 업데이트<br/>+ KL 페널티"]
I --> J["InstructGPT"]
end