InstructGPT: Training Language Models to Follow Instructions with Human Feedback

Digest: InstructGPT는 OpenAI가 제안한 RLHF(Reinforcement Learning from Human Feedback) 3단계 파이프라인(SFT → Reward Model → PPO)으로 GPT-3를 인간 지시에 맞게 정렬(align)한 모델이다. 핵심 발견은 1.3B InstructGPT가 175B GPT-3보다 인간 평가에서 선호되었다는 것으로, alignment이 단순 스케일링보다 효과적임을 증명했다. RLHF 적용 시 NLP 벤치마크 성능이 하락하는 “Alignment Tax”를 PPO-ptx(사전학습 gradient 혼합)로 완화했다. 이 연구는 ChatGPT, Claude, Gemini 등 후속 모든 대화형 AI의 학습 패러다임을 정립했다.


아키텍처 상세

모델 스펙

InstructGPT는 GPT-3 아키텍처를 기반으로 하며, 아키텍처 자체의 변경 없이 학습 방법론이 핵심 기여이다.

모델ParamsLayersHeadsd_modelContext기반
InstructGPT-1.3B1.3B241620482048GPT-3 (ada)
InstructGPT-6B6B323240962048GPT-3 (curie)
InstructGPT-175B175B9696122882048GPT-3 (davinci)
구성요소설명
AttentionStandard MHA (Multi-Head Attention)
FFNGELU activation
Position EncodingLearned Absolute Position Embedding
NormalizationPost-LayerNorm (GPT-3 표준)
TokenizerBPE, 50,257 vocab

RLHF 3단계 파이프라인

graph LR
    subgraph Step1["Step 1: SFT"]
        A["GPT-3"] --> B["데모 데이터<br/>(~13K prompts)<br/>라벨러 작성 응답"]
        B --> C["SFT 모델"]
    end

    subgraph Step2["Step 2: Reward Model"]
        C --> D["프롬프트 → K개 응답 생성"]
        D --> E["라벨러 순위 매김<br/>(~33K prompts)"]
        E --> F["Reward Model (6B)<br/>ranking loss 학습"]
    end

    subgraph Step3["Step 3: PPO"]
        C --> G["PPO 정책 초기화"]
        F --> H["RM으로 보상 스코어링"]
        G --> H
        H --> I["PPO 업데이트<br/>+ KL 페널티"]
        I --> J["InstructGPT"]
    end

Step 1: Supervised Fine-Tuning (SFT)

항목
데이터~13,000 프롬프트, 라벨러 40명이 응답 작성
Epochs16
Learning Rate2×10⁻⁵ (cosine decay)
Batch Size32
Residual Dropout0.2
선택 기준RM 점수 기준으로 최적 체크포인트 선택

Step 2: Reward Model (RM) 학습

항목
데이터33,000 프롬프트, 각 49개 응답에 라벨러 순위 매김
모델 크기6B (175B RM은 학습 불안정)
LossPairwise ranking loss:
K4~9 (한 프롬프트당 응답 수, 비교 쌍 생성)
Learning Rate9×10⁻⁶
핵심: RM 크기를 6B로 제한 — 175B RM은 학습 불안정 발생

Step 3: PPO (Proximal Policy Optimization)

항목
초기화SFT 모델
보상 함수RM score − β·KL(π_RL ∥ π_SFT)
KL 계수 β동적 조정
PPO-ptx 목적 함수
γ (pretraining mix)PPO-ptx에서 사전학습 gradient를 혼합하여 alignment tax 완화
학습 프롬프트~31,000 (API 수집, 라벨러 작성 없음)

데이터 구성

프롬프트 소스

소스프롬프트 수용도
API Playground~13K (SFT)InstructGPT 초기 사용자 프롬프트
API Production~31K (PPO)실사용자 요청 (opt-in)
Labeler-written~13K (SFT)라벨러가 직접 작성한 지시-응답 쌍

프롬프트 카테고리 분포

  • Generation: 45.6%
  • Open QA: 12.4%
  • Brainstorming: 11.2%
  • Rewrite: 6.6%
  • Chat: 8.4%
  • 기타: 15.8%

벤치마크 및 평가

인간 평가 (핵심 결과)

비교선호율 (InstructGPT)
1.3B InstructGPT vs 175B GPT-3InstructGPT 선호 (labeler win rate)
175B InstructGPT vs 175B GPT-385% ± 3% InstructGPT 선호
175B PPO-ptx vs 175B SFTPPO-ptx 선호

NLP 벤치마크 (Alignment Tax)

벤치마크GPT-3 (175B)SFT (175B)PPO (175B)PPO-ptx (175B)
HellaSwag78.978.9↓ 하락≈ 유지
WinoGrande70.2↓ 하락≈ 유지
DROP (F1)↓ 큰 하락≈ 유지
SQuAD (F1)↓ 큰 하락≈ 유지

Alignment Tax: 순수 PPO는 NLP 벤치마크 성능 하락 → PPO-ptx로 사전학습 분포 유지하여 완화

독성 및 편향

지표GPT-3InstructGPT
TruthfulQA (truthful + informative)22%38%
RealToxicityPrompts (toxicity ↓)높음25% 감소
편향 (BBQ)미미한 변화

핵심 통찰 및 한계

핵심 통찰

  1. 크기 < 정렬: 1.3B aligned 모델이 175B unaligned 모델보다 우수
  2. PPO-ptx: alignment tax를 사전학습 목적함수 혼합으로 해결
  3. RM 크기 제한: 175B RM은 불안정 → 6B RM으로 충분
  4. 라벨러 합의: 라벨러 간 합의율 ~73% (주관적 태스크의 한계)

한계

  • 라벨러 편향: 주로 미국/영어권 라벨러 → 문화적 편향 가능
  • Overoptimization: RM에 대한 과적합 위험 (“Goodhart’s Law”)
  • Hallucination: 사실성이 개선되었으나 근본적 해결은 아님
  • 벤치마크 한계: 인간 평가와 자동 벤치마크 간 괴리

동시대 비교 매트릭스

특성InstructGPT (2022.03)GPT-3 (2020.05)FLAN (2021.09)T0 (2021.10)
정렬 방법RLHF (SFT+RM+PPO)없음Instruction TuningPrompt Tuning
인간 선호✅ 최적화
학습 데이터인간 피드백비지도 사전학습멀티태스크멀티태스크
Alignment Tax 해결PPO-ptxN/AN/AN/A
후속 영향ChatGPT, Claude, GeminiInstructGPT, CodexPaLM-Flan