InstructGPT: Training Language Models to Follow Instructions with Human Feedback

Digest: 대규모 언어 모델(LLM)의 규모를 키우는 것만으로는 사용자 의도에 맞는 출력을 보장하지 못한다는 정렬(alignment, 모델 행동을 인간 의도에 일치시키는 것) 문제가 핵심 배경이다. 기존 연구들이 특정 태스크에서의 선호 학습에 집중했다면, 이 논문은 그 통찰—인간 피드백이 모델 행동을 교정한다—을 실사용자의 광범위한 프롬프트로 확장했다는 점에서 차별화된다. 해결책은 SFT(지도 미세조정) → RM(보상 모델 학습) → PPO-ptx(사전학습 혼합을 포함한 강화학습) 3단계 파이프라인이며, 각 단계가 다음 단계의 품질을 순차적으로 결정한다. 결과적으로 1.3B InstructGPT가 175B GPT-3보다 인간에게 선호되었고(§4.1), 환각(hallucination, 모델이 사실이 아닌 내용을 생성하는 현상)은 41% → 21%로 감소했으며(§1, §4.2), TruthfulQA 정확도는 약 2배 향상되었다(§4.2). 그러나 편향 개선은 유의미하지 않았고, 정렬세(alignment tax, 정렬 학습으로 인한 기존 성능 저하) 가 DROP/WMT 등 일부 벤치마크에서 잔존한다. 열린 질문은 “누구의 가치에 정렬할 것인가”—40명의 라벨러가 글로벌 모델의 행동을 결정하는 구조의 대표성 문제—와 RM 과최적화(reward hacking)를 실시간으로 방지하는 방법이다.

섹션별 요약

Abstract

대규모 언어 모델은 규모를 키우는 것만으로는 사용자 의도에 부합하지 않으며, 비진실적이거나 유해한 출력을 생성하는 정렬(alignment) 문제를 지닌다. 본 논문은 인간 피드백을 활용한 파인튜닝(fine-tuning with human feedback)을 통해 다양한 태스크에서 언어 모델을 사용자 의도에 정렬하는 방법을 제시한다. 구체적으로, 레이블러가 작성한 시연 데이터로 GPT-3를 지도 학습 방식으로 파인튜닝한 뒤, 모델 출력에 대한 순위 데이터를 수집하여 RLHF(reinforcement learning from human feedback)로 추가 학습하는 방식으로 InstructGPT를 구축하였다. 인간 평가 실험에서, 파라미터 수가 100배 적은 1.3B InstructGPT 모델의 출력이 175B GPT-3 출력보다 선호되었으며, 진실성 향상과 유해 출력 감소 효과도 확인되었다. 이 결과는 인간 피드백 기반 파인튜닝이 언어 모델의 정렬을 위한 유망한 방향임을 보여준다.

저자 contribution

레이블러 시연 데이터와 RLHF를 결합한 InstructGPT 학습 파이프라인을 제안하여, 언어 모델을 사용자 의도에 정렬하는 실용적 방법론을 제시한다.
파라미터 수가 100배 적은 1.3B InstructGPT 모델이 인간 평가에서 175B GPT-3보다 선호됨을 실증하여, 모델 규모보다 정렬 방법의 중요성을 입증한다.
공개 NLP 벤치마크에서의 성능 회귀를 최소화하면서 진실성 향상과 유해 출력 감소를 동시에 달성함을 보인다.

왜 이 연구를 하는가?

핵심 질문: 언어 모델의 규모를 키우는 것만으로는 사용자 의도와의 정렬(alignment) 문제를 해결할 수 없다면, 어떻게 LM이 helpful·honest·harmless하게 행동하도록 만들 수 있는가?

기존 접근법의 한계

한계	설명
모델 규모 확장의 한계	GPT-3처럼 파라미터 수를 늘려도 “다음 토큰 예측” 목적 함수는 그대로이므로 사실 날조, 편향 생성, 유해 출력 등 misalignment 문제가 해소되지 않는다.
프롬프트 엔지니어링의 불충분성	few-shot 프롬프트를 추가해 GPT-3의 지시 이행 능력을 높이더라도, InstructGPT 1.3B 모델보다 낮은 선호율을 기록하며 근본적 한계를 넘지 못한다.
공개 NLP 데이터셋 기반 fine-tuning의 부적합성	FLAN·T0 등 공개 NLP 태스크 컬렉션으로 fine-tuning한 모델은 실제 API 사용자 프롬프트 분포에서 SFT 기준 모델보다 낮은 선호율(26.8±2%, 29.8±2%)을 보여, 벤치마크가 실제 사용 패턴을 대표하지 못함을 시사한다.

핵심 통찰

언어 모델의 훈련 목적 함수(next-token prediction)와 배포 목표(사용자 지시 이행) 사이의 불일치가 유해 행동의 근본 원인이며, 이는 규모 확장이 아닌 목적 함수 자체의 재정렬을 통해 해결해야 한다.
인간 선호 데이터를 보상 신호로 삼는 RLHF — SFT → RM 훈련 → PPO fine-tuning의 3단계 파이프라인 — 가 misalignment를 줄이는 실질적 해법이며, 파라미터 수 100배 이상 차이를 선호도 기준으로 역전시킬 만큼 강력하다.

Introduction

대규모 언어 모델(LM)은 프롬프트를 통해 다양한 자연어 처리 작업을 수행할 수 있지만, 사실을 지어내거나 편향적·유해한 텍스트를 생성하거나 사용자 지시를 따르지 않는 등의 의도치 않은 행동을 자주 나타낸다. 이는 근본적으로 “다음 토큰 예측”이라는 언어 모델링 목적 함수가 “사용자 지시를 유용하고 안전하게 따른다”는 실제 목표와 어긋나기 때문이다(misalignment). 저자들은 이 간극을 줄이기 위해 사용자 의도에 부합하도록 모델을 훈련하는 alignment 접근법을 제안하며, 목표를 helpful(유용성), honest(정직성), harmless(무해성) 세 가지 기준으로 정의한다.

구체적 방법론으로, GPT-3를 기반으로 인간 피드백 기반 강화학습(RLHF)을 적용한다. 40명의 레이블러가 작성한 시연 데이터로 supervised fine-tuning(SFT) 기준 모델을 먼저 구축하고, 이후 모델 출력 쌍에 대한 인간 선호 비교 데이터로 reward model(RM)을 훈련한 뒤, PPO 알고리즘으로 RM 보상을 최대화하도록 정책을 fine-tuning한다. 이 세 단계 파이프라인의 결과물이 InstructGPT다.

주요 발견은 다음과 같다. 레이블러들은 175B GPT-3보다 1.3B InstructGPT 출력을 선호했으며(100배 이상 작은 모델), 175B InstructGPT는 175B GPT-3 대비 85±3% 선호율을 기록했다. TruthfulQA 벤치마크에서 InstructGPT는 GPT-3보다 약 2배 더 높은 비율로 사실적이고 정보가 담긴 답변을 생성했으며, 환각(hallucination) 비율도 41%에서 21%로 낮아졌다. 독성 출력은 존중 요청 조건에서 GPT-3 대비 약 25% 감소했으나 bias 벤치마크(Winogender, CrowS-Pairs)에서는 유의미한 개선이 없었다. RLHF fine-tuning 과정에서 SQuAD, DROP 등 일부 공개 NLP 데이터셋에서 성능 저하(“alignment tax”)가 발생했으나, PPO 업데이트에 사전학습 로그 우도 업데이트를 혼합하는 PPO-ptx 방식으로 이를 크게 완화할 수 있었다. 또한 InstructGPT는 fine-tuning 분포 밖의 지시(코드 요약, 비영어 지시 등)에도 어느 정도 일반화 능력을 보였으며, 훈련에 참여하지 않은 held-out 레이블러들도 InstructGPT를 유사한 비율로 선호했다.

Methods

프레임워크 개요

InstructGPT는 사전학습된 GPT-3을 기반으로 SFT(Supervised Fine-Tuning) → RM(Reward Modeling) → PPO(Reinforcement Learning) 세 단계의 파이프라인을 순차 적용하여 인간의 의도에 부합하는 출력을 생성하도록 학습된다.

핵심 구성요소

SFT (Step 1 — 지도 미세조정): 라벨러가 직접 작성한 시범 응답(demonstration) 데이터를 이용해 GPT-3을 지도학습으로 미세조정한다. 총 16 epoch 학습하며, cosine learning rate decay와 residual dropout 0.2를 적용한다. 최종 체크포인트는 검증 세트의 RM 점수를 기준으로 선택하며, 검증 손실은 1 epoch 이후부터 과적합되지만 더 많은 epoch 학습이 RM 점수와 인간 선호도 평가 모두를 향상시키는 것으로 확인되었다.
RM (Step 2 — 보상 모델링): SFT 모델에서 마지막 unembedding 레이어를 제거하고, prompt와 completion을 입력받아 스칼라 보상 값을 출력하도록 학습시킨다. 모델 크기는 6B 파라미터로 고정하며(175B RM은 학습 불안정으로 RL value function으로 부적합), 라벨러에게 동일 입력에 대해 K = 4~9개의 응답을 제시하여 순위를 매기게 한다. 이를 통해 프롬프트 1개당 $(2 K)$ 개의 비교 쌍을 확보하며, 과적합 방지를 위해 동일 프롬프트의 모든 비교 쌍을 단일 배치 원소로 묶어 학습한다. RM 손실 함수는 다음과 같다:

$loss (θ) = - \frac{1}{( 2 K )} E_{(x, y_{w}, y_{l}) \sim D} [lo g σ (r_{θ} (x, y_{w}) - r_{θ} (x, y_{l}))]$

여기서 $r_{θ} (x, y)$ 는 prompt $x$ 와 completion $y$ 에 대한 보상 모델의 스칼라 출력, $y_{w}$ 는 선호되는 응답, $y_{l}$ 은 비선호 응답, $D$ 는 인간 비교 데이터셋이다. 보상 모델은 RL 전에 라벨러 시범 응답의 평균 점수가 0이 되도록 bias로 정규화한다.

PPO (Step 3 — 강화학습 미세조정): SFT 모델을 초기값으로 하여 PPO 알고리즘(Schulman et al., 2017)으로 정책을 최적화한다. 환경은 bandit 구조로, 랜덤 고객 prompt를 제시하고 응답에 대해 RM이 산출한 스칼라 보상을 부여한다. RM 과최적화를 방지하기 위해 토큰 단위 KL 페널티( $β$ )를 SFT 모델 대비로 부과한다. 추가로 공개 NLP 데이터셋에서의 성능 저하를 막기 위해 사전학습 그래디언트를 PPO 그래디언트에 혼합하는 PPO-ptx 변형을 도입한다. 학습 목적 함수는 다음과 같다:

$objective (ϕ) = E_{(x, y) \sim D_{π_{ϕ}^{R L}}} [r_{θ} (x, y) - β lo g (π_{ϕ}^{R L} (y ∣ x) / π^{SFT} (y ∣ x))] + γ E_{x \sim D_{pretrain}} [lo g (π_{ϕ}^{R L} (x))]$

여기서 $β$ 는 KL 페널티 강도 계수, $γ$ 는 사전학습 손실 혼합 계수이며, 순수 PPO 모델에서는 $γ = 0$ 으로 설정한다. 본 논문에서 “InstructGPT”는 별도 언급이 없는 한 PPO-ptx 모델을 가리킨다.

입력 → 출력 흐름

입력: OpenAI API에서 수집된 실사용자 prompt 또는 라벨러 작성 prompt.
SFT 단계: prompt → 라벨러 시범 응답 쌍으로 GPT-3 미세조정 → SFT 정책 출력.
RM 단계: (prompt, 응답들) → 라벨러 K개 순위 → 비교 쌍 $(2 K)$ 개 → 스칼라 보상 모델 학습.
PPO 단계: SFT 정책 초기화 → RM 보상 + KL 페널티 + 사전학습 혼합 목적함수 최적화 → 최종 aligned 정책.
출력: 사용자 의도에 부합하는 자연어 completion.

Steps 2와 3은 반복 가능하며, 현재 최선 정책에서 추가 비교 데이터를 수집해 RM과 정책을 순차적으로 갱신할 수 있다.

기존 방법과의 차별점

Stiennon et al. (2020)은 RLHF를 요약(summarization) 단일 task에 적용한 반면, InstructGPT는 생성, QA, 대화, 요약, 추출 등 광범위하고 다양한 task로 동일 방법론을 확장하였다. 또한 라벨러 작성 프롬프트뿐 아니라 실제 OpenAI API 사용자(Playground)의 실사용 prompt를 학습 데이터로 활용함으로써, 실제 배포 환경에서의 사용자 의도를 더 충실하게 반영한다. 인간 라벨러 간 일치도는 훈련 라벨러 기준 72.6 ± 1.5%, held-out 라벨러 기준 77.3 ± 1.3%로, Stiennon et al. (2020)의 연구자 간 일치도 73 ± 4%와 유사한 수준이다.

모델 스펙 (GPT-3 backbone, 아키텍처 변경 없음)

모델	Params	Layers	Heads	d_model	Context	기반
InstructGPT-1.3B	1.3B	24	16	2048	2048	GPT-3 (ada)
InstructGPT-6B	6B	32	32	4096	2048	GPT-3 (curie)
InstructGPT-175B	175B	96	96	12288	2048	GPT-3 (davinci)

구성요소	설명
Attention	Standard MHA (Multi-Head Attention)
FFN	GELU activation
Position Encoding	Learned Absolute Position Embedding
Normalization	Post-LayerNorm (GPT-3 표준)
Tokenizer	BPE, 50,257 vocab

Step별 학습 설정 (요약 표)

Step 1: Supervised Fine-Tuning (SFT)

항목	값
데이터	~13,000 프롬프트, 라벨러 40명이 응답 작성
Epochs	16
Learning Rate	cosine decay
Residual Dropout	0.2
선택 기준	RM 점수 기준으로 최적 체크포인트 선택

Step 2: Reward Model (RM) 학습

항목	값
데이터	~~33,000 프롬프트, 각 4~~9개 응답에 라벨러 순위 매김
모델 크기	6B (175B RM은 학습 불안정)
K	4~9 (한 프롬프트당 응답 수, $(2 K)$ 비교 쌍 생성)
정규화	RL 전 라벨러 demo 평균 점수 0이 되도록 bias 보정

Step 3: PPO (Proximal Policy Optimization)

항목	값
초기화	SFT 모델
보상 함수	RM score − β·KL(π_RL ∥ π_SFT)
KL 계수 β	동적 조정
γ (pretraining mix)	PPO-ptx에서 사전학습 gradient를 혼합하여 alignment tax 완화 (PPO에서는 γ=0)
학습 프롬프트	~31,000 (API 수집, 라벨러 작성 없음)

데이터 구성

소스	프롬프트 수	용도
API Playground	~13K (SFT)	InstructGPT 초기 사용자 프롬프트
API Production	~31K (PPO)	실사용자 요청 (opt-in)
Labeler-written	~13K (SFT)	라벨러가 직접 작성한 지시-응답 쌍

프롬프트 카테고리 분포: Generation 45.6%, Open QA 12.4%, Brainstorming 11.2%, Chat 8.4%, Rewrite 6.6%, 기타 15.8%.

발견 (Findings)

F1: Alignment이 Scale을 대체한다: 175B InstructGPT가 175B GPT-3 대비 85 ± 3%의 선호율을 기록하고, 파라미터가 100배 적은 1.3B InstructGPT가 175B GPT-3를 능가한다는 사실은(§4.1), 모델 크기 확장보다 RLHF 기반 alignment가 실제 사용자 의도 충족에 더 결정적인 요인임을 보여준다.
F2: Scaling과 Alignment의 관계 — 공개 NLP 벤치마크는 실제 사용을 반영하지 못한다: FLAN·T0 등 대규모 공개 데이터셋 기반 모델도 InstructGPT 대비 head-to-head에서 각각 26.8 ± 2%, 29.8 ± 2%의 승률에 머문 반면(§4.1), InstructGPT는 분류·QA 중심(약 18%)이 아닌 개방형 생성·브레인스토밍(약 57%) 위주 실제 API 사용 패턴에서 강점을 발휘했다. 이는 벤치마크 성능과 실제 사용자 선호 간의 구조적 괴리를 드러낸다.
F3: Alignment Tax의 본질 — 과제 분포 전환 비용: RLHF fine-tuning은 HellaSwag, SQuADv2, DROP, WMT 등 공개 NLP 과제에서 성능 회귀를 유발하며(§4.2), 이는 API 배포 분포로의 과제 전환이 공개 벤치마크 역량을 희생시키는 trade-off임을 시사한다. PPO-ptx로 완화 가능하나 완전 해소는 이루어지지 않았다.
F4: Generalization의 시사점 — 직접 감독 없이도 alignment 전이 가능: 비영어 지시 및 코드 과제가 fine-tuning 데이터의 극소수를 차지함에도 불구하고 InstructGPT가 해당 도메인에 일반화된 결과는(§4.3), alignment 방법이 인간이 직접 감독하지 않은 입력에 대해서도 원하는 행동을 유도할 수 있음을 시사하며, 향후 alignment 연구의 범위 확장 가능성을 보여준다.

Results

§4.1 API 배포 분포 결과

인간 라벨러 평가에서 InstructGPT는 GPT-3 대비 전 모델 크기에 걸쳐 일관되게 선호됐다. 175B InstructGPT 출력은 175B GPT-3 출력에 비해 85 ± 3%의 선호율을 기록했으며, few-shot GPT-3 대비로도 **71 ± 4%**의 선호율을 보였다 (§4.1, Fig. 1). 주목할 점은 파라미터 수가 100배 적은 1.3B InstructGPT가 175B GPT-3를 능가했다는 사실로, 모델 크기보다 alignment 방식이 결정적 요인임을 보여준다 (§4.1, Fig. 3).

공개 NLP 데이터셋 기반 fine-tuning 모델과의 비교에서, InstructGPT 175B는 FLAN에 대해 78 ± 4%, T0에 대해 **79 ± 4%**의 head-to-head 선호율을 기록했다 (§4.1, Fig. 5). FLAN과 T0는 GPT-3 default보다는 우수하지만 SFT 베이스라인에는 미치지 못했으며, 이는 공개 NLP 데이터셋이 실제 API 사용 패턴(개방형 생성·브레인스토밍 약 57%)을 충분히 포괄하지 못하기 때문으로 분석된다 (§4.1, Table 1).

훈련에 참여하지 않은 held-out 라벨러 대상 평가에서도 결과는 일관되었다. Reward Model의 5-fold 교차 검증 결과, held-out 그룹 선호 예측 정확도는 **69.6 ± 0.9%**였으며, 이는 훈련 그룹 정확도 **72.4 ± 0.4%**와 소폭의 차이만 보여 훈련 라벨러 과적합이 아님을 확인했다 (§4.1, Fig. 3).

§4.2 공개 NLP 데이터셋 결과

진실성(truthfulness) 측면에서, TruthfulQA 데이터셋 인간 평가 기준 PPO 모델은 GPT-3 대비 유의미한 개선을 보였으며 절대값으로 약 22% 수준에서 38% 수준으로 향상된 것으로 나타났다 (§4.2, Fig. 6). 다만 1.3B PPO-ptx 모델은 같은 크기의 GPT-3보다 소폭 낮은 성능을 기록하는 예외가 존재한다 (§4.2).

독성(toxicity) 측면에서, “respectful” 프롬프트 조건에서 InstructGPT는 GPT-3 대비 약 25% 적은 독성 출력을 생성했다 (§4.2, Fig. 7, RealToxicityPrompts). 단, 프롬프트가 없는 조건(“no prompt”)에서는 GPT-3와 유사한 수준을 보였으며, 명시적으로 독성 출력을 유도하는 프롬프트 하에서는 InstructGPT가 GPT-3보다 오히려 더 높은 독성을 보였다 (§4.2, Fig. 39). 편향(bias) 평가에서는 Winogender 및 CrowS-Pairs 데이터셋 결과, GPT-3 대비 유의미한 개선이 없었으며, “respectful” 지시 조건에서 PPO-ptx 모델은 오히려 더 낮은 엔트로피, 즉 더 높은 편향을 나타냈다 (§4.2).

Closed-domain 작업에서 hallucination 비율은 GPT-3의 약 41%에서 InstructGPT의 약 21%로 감소했다 (§4.2, Fig. 4).

Alignment Tax와 관련하여, 기본 PPO 학습은 HellaSwag, SQuADv2, DROP, WMT 등 여러 공개 NLP 데이터셋에서 성능 하락을 초래했다. PPO-ptx(사전 학습 업데이트 혼합) 방식으로 이 회귀를 완화할 수 있었으며, HellaSwag에서는 GPT-3를 초과하는 성능을 달성했으나 DROP, SQuADv2, 번역 과제에서는 여전히 GPT-3에 뒤처졌다 (§4.2, Fig. 29). KL 계수 증가 방식은 검증 보상의 큰 감소를 초래하여 PPO-ptx보다 열등한 대안임이 확인됐다 (§4.2, Fig. 33-34).

§4.3 정성적 결과

InstructGPT는 RLHF fine-tuning 분포 외부 지시에 대해서도 일반화 능력을 보였다. 비영어 언어(프랑스어 등) 지시 따르기와 코드 요약·질의응답이 가능했으며, 이는 fine-tuning 데이터의 극히 일부만이 해당 도메인임에도 불구하고 나타난 결과다 (§4.3, Fig. 8). 단, 다른 언어로 지시해도 영어로 응답하는 경향이 관찰됐다. 반면 InstructGPT는 거짓 전제를 포함한 지시를 그대로 수용하거나, 명확한 단일 답변이 존재하는 질문에도 과도하게 hedging하거나, 다중 제약 조건 지시에서 성능이 저하되는 단순 오류도 여전히 범했다 (§4.3, Fig. 9).

Ablation / 부정 결과 / 제한된 케이스

비편향(bias) 개선 없음: Winogender, CrowS-Pairs 기준 GPT-3 대비 유의미한 개선 부재 (§4.2).
“No prompt” 독성 조건: InstructGPT와 GPT-3 간 독성 차이 소멸 (§4.2, Fig. 7).
명시적 독성 유도 조건: InstructGPT가 GPT-3보다 더 높은 독성 출력 생성 (§4.2, Fig. 39).
1.3B PPO-ptx 모델: TruthfulQA에서 동일 크기 GPT-3 모델보다 소폭 낮은 성능 (§4.2).
Alignment Tax 완전 해소 불가: PPO-ptx로도 DROP, SQuADv2, 번역에서 GPT-3 미달 (§4.2, Fig. 29).
거짓 전제 일반화 실패: 훈련 세트에 거짓 전제 포함 프롬프트가 희소하여 해당 케이스에서 일반화 부진 (§4.3).

Discussion

§5.1에서 저자들은 RLHF 기반 정렬이 사전학습 비용 대비 현저히 저렴함을 강조한다. 175B PPO-ptx 모델 학습에 약 60 petaflops/s-days가 소요된 반면, GPT-3 사전학습은 3,640 petaflops/s-days였다. 즉 동일 규모 모델을 100배 키우는 것보다 RLHF 정렬이 더 비용 효율적으로 사용자 경험을 향상시킬 수 있다는 것이다. 나아가 InstructGPT는 비영어권 언어 과제나 코드 관련 과제처럼 직접 감독하지 않은 영역으로 ‘지시 따르기’가 일반화되는 증거를 보였으며, pretraining 데이터를 RLHF 파인튜닝에 혼합하는 PPO-ptx 방식으로 alignment tax(정렬 비용)를 상당 부분 완화했다. 또한 이 연구는 실제 API 배포 환경에서 정렬 기법을 검증한 점에서 선행 추상적·합성적 정렬 연구와 구별된다.

§5.2에서는 “누구에게 align하는가”라는 근본 질문을 제기한다. 정렬 대상은 약 40명의 라벨러(주로 영어권, 미국 및 동남아시아 거주, Upwork·Scale AI 채용)와 OpenAI 연구자, 그리고 API 고객이다. 라벨러 간 합의율은 약 73%에 불과하며, OpenAI 고객은 실제 언어 모델 전체 사용자층을 대표하지 않는다. 고객의 이익과 최종 사용자의 이익이 충돌할 수 있고, 대기자 명단 초기 시드가 OpenAI 직원들이었다는 점에서 편향이 이미 내재되어 있다.

§5.3에서 저자들이 인정한 주요 한계는 다음과 같다. 첫째, 라벨러 집단이 영어 중심·미국 편향으로 다양성이 결여되어 있으며, 대부분의 비교 데이터가 비용 이유로 단 1명의 라벨러에 의해 레이블링되었다. 둘째, 모델은 사용자가 편향적 출력을 명시적으로 요청할 경우 동등 크기의 GPT-3보다 더 toxic한 출력을 생성한다. 셋째, 사실 조작(hallucination) 문제는 부분 완화에 그쳤으며 근본적으로 해결되지 않았다. 넷째, alignment tax 완화를 위한 pretraining 데이터 혼합이 오히려 일부 과제에서 바람직하지 않은 행동을 강화할 위험이 있다. 다섯째, RM(reward model) 과최적화(Goodhart’s law)의 위험은 여전히 열린 문제다.

§5.5에서 저자들은 정렬 기법이 안전 문제의 만능 해결책이 아님을 명시한다. 모델이 사용자 의도를 더 잘 따를수록 설득력 있는 허위 정보나 혐오 콘텐츠 생성에 악용되기도 더 쉬워진다. 고위험 도메인(의료 진단, 신용·고용 결정, 정치 광고, 법 집행 등)에서의 배포는 별도 규제와 safety ecosystem이 필요하며, API 형태의 중앙화된 배포는 오남용 모니터링을 가능하게 하지만 투명성 저하와 권력 집중의 trade-off를 수반한다.

이론적 의의

정렬-스케일링 trade-off의 재정의: 이 연구는 모델 크기를 100배 늘리는 것보다 RLHF 정렬(60 petaflops/s-days)이 사용자 선호도 측면에서 더 효과적일 수 있음을 실증함으로써, “더 크면 더 낫다”는 스케일링 법칙의 단순한 연장선에 의문을 제기한다. alignment 투자의 한계효용이 규모 확장 투자보다 클 수 있다는 이론적 함의를 제공한다.
RLHF의 감독 외 일반화 가능성: InstructGPT가 직접 감독하지 않은 비영어권·코드 과제로 ‘지시 따르기’를 일반화한 증거는, RLHF가 단순 행동 복제를 넘어 일종의 메타 능력(meta-skill)을 유발할 수 있음을 시사한다. 이는 초인간 AI 정렬 제안들(scalable oversight 등)의 이론적 기반을 실세계 데이터로 부분 지지한다.
“누구에 align하는가”의 정치적·윤리적 차원: 정렬 대상이 단일한 “인류”가 아니라 특정 집단(라벨러, 연구자, API 고객)임을 명시적으로 인정한 것은, alignment 연구를 가치 중립적 기술 문제가 아닌 정치적·대표성 문제로 재규정하는 이론적 전환점이다. Gabriel(2020)의 원칙 기반 정렬 논의와 맞닿아 있으며, 단일 정렬 모델의 불가능성을 공식화한다.
후속 연구 생태계에 미친 영향: InstructGPT의 방법론과 한계 분석은 이후 Constitutional AI(Anthropic), RLAIF, DPO(Direct Preference Optimization) 등 RLHF 대안 연구의 실질적 출발점이 되었다. 특히 alignment tax 완화와 RM 과최적화 문제는 후속 보상 모델 설계 연구의 핵심 동인이 되었다.

Discussion Points

검증 안 된 가정

RLHF 정렬이 더 강력한 미래 모델에서도 동일하게 저렴한 비용으로 효과적일 것이라는 가정: 현재는 175B 규모에서 확인되었으나, 훨씬 대규모 또는 멀티모달 모델에서 alignment tax와 일반화 효과가 동일하게 유지될지는 검증되지 않았다.
라벨러 선발 기준(민감 프롬프트 식별 능력, 연구자와의 합의율)이 “좋은 판단”의 충분한 대리 지표라는 가정: 스크리닝 테스트 통과가 실제 문화적·가치적 다양성 대표성을 보장한다는 증거는 없다.
단일 reward model로 라벨러 선호도를 충분히 근사할 수 있다는 가정: 73% 합의율 환경에서 단일 RM이 소수 집단 선호를 평균화한다는 Goodhart’s law 문제를 완전히 해결하지 못했다.

논쟁점

“사용자 지시를 따르는 것”과 “사용자에게 실제로 유익한 것”의 긴장: 명시적으로 편향 출력을 요청받을 때 더 toxic해지는 결과는, helpfulness 최대화와 harmlessness 유지가 근본적으로 상충할 수 있음을 보여준다. 어느 수준에서 어떻게 결정해야 하는지에 대한 합의가 없다.
API 중앙화 배포 vs. 오픈소스의 이분법: 저자들이 제시한 API 기반 안전 프로토콜은 투명성 저하와 권력 집중을 수반하며, 오픈소스 배포는 오남용 통제 불가 문제를 야기한다. 어느 쪽도 지배적 해법으로 검증되지 않았다.
40명의 라벨러가 글로벌 언어 모델의 행동 규범을 사실상 결정한다는 구조적 문제: 이것이 “AI 정렬”인지 “특정 집단의 선호 강화”인지에 대한 정의 논쟁이 이어지고 있다.

가능한 후속 연구

집단별 조건부 선호 모델링: 특정 문화권·언어 집단의 선호를 조건부로 반영하는 모델 구조 탐색. §5.2에서 저자들이 제안한 방향으로, 단일 정렬 모델의 대안 제시 가능.
RM 과최적화(Goodhart’s law) 완화 기법: reward hacking을 탐지·억제하는 regularization 또는 앙상블 RM 방법론 개발. §5.4의 RM 과최적화 한계에 직접 대응.
Adversarial red-teaming 자동화: 라벨러가 수동으로 최악 행동을 탐색하는 대신 모델 기반 자동 red-teaming으로 toxic 출력 식별 범위 확대. §5.4에서 Dinan et al.(2019b) 방식의 확장.
정렬 과정의 민주적 참여 설계: 기술적 문제를 넘어 다양한 이해관계자(소수 집단 포함)가 선호 데이터 수집 과정에 실질적으로 참여하는 거버넌스 프레임워크 연구.

실험 결과 상세 (Model × Dataset × Metric)

Model/Method	Labeler Win-Rate vs SFT 175B (Instruct dist.)	vs GPT-3 (직접 선호)	TruthfulQA (truthful+informative)	Hallucination Rate (closed-domain)	RealToxicityPrompts	HellaSwag	SQuAD/DROP	RM Held-out Acc
GPT-3 (175B)	약 0.25 (Fig. 3)	baseline	≈ 22% (Fig. 6)	≈ 41% (§1, Fig. 4)	reference (Fig. 7)	reference	reference	N/R
GPT-3 prompted (175B)	GPT-3와 SFT 사이 (Fig. 3)	InstructGPT 71 ± 4% 우위 (§4.1)	N/R	N/R	N/R	N/R	N/R	N/R
SFT (175B)	0.50 (정의상 baseline)	N/R	N/R	N/R	모델 중 최저 (§4.2)	N/R	N/R	N/R
PPO (175B)	SFT 상회 (Fig. 3)	N/R	GPT-3 대비 개선 (Fig. 6)	GPT-3 미만 (Fig. 4)	“no prompt” 시 GPT-3 유사 (§4.2)	하락 (Fig. 29)	하락 (Fig. 29)	N/R
PPO-ptx (175B)	SFT 상회, 최고치 (Fig. 3)	85 ± 3% (§4.1)	≈ 38% (Fig. 6)	≈ 21% (§1, Fig. 4)	respectful 시 25% 감소 (§4.2)	GPT-3 초과 (§4.2)	여전히 lag (§4.2)	N/R
PPO-ptx (1.3B)	SFT 미만, 175B GPT-3 능가 (§abstract)	175B GPT-3보다 선호 (§4.1)	동일 크기 GPT-3보다 소폭 낮음 (§4.2)	N/R	N/R	N/R	N/R	N/R
PPO-ptx (6B)	1.3B와 175B 중간 (Fig. 3)	N/R	N/R	N/R	N/R	N/R	N/R	N/R
FLAN (175B)	SFT 미만, GPT-3 prompted 수준 (§4.1)	InstructGPT 78 ± 4% 우위 (§4.1)	N/R	N/R	N/R	N/R	N/R	N/R
T0 (175B)	SFT 미만, GPT-3 prompted 수준 (§4.1)	InstructGPT 79 ± 4% 우위 (§4.1)	N/R	N/R	N/R	N/R	N/R	N/R
RM 일반화	—	—	—	—	—	—	—	Held-out 69.6 ± 0.9% / Train 72.4 ± 0.4% (§4.1)

Footnotes

모든 win-rate는 175B SFT 모델을 baseline (§3.6).
N/R = 본문 텍스트에 정확한 수치 없음 (figure로만 제시).
Compute: 175B SFT = 4.9 PFLOP/s-days, 175B PPO-ptx = 60 PFLOP/s-days, GPT-3 사전학습 = 3,640 PFLOP/s-days (§5.1).

프레임워크 다이어그램

graph LR
    subgraph Step1["Step 1: SFT"]
        A["GPT-3"] --> B["데모 데이터<br/>(~13K prompts)<br/>라벨러 작성 응답"]
        B --> C["SFT 모델"]
    end

    subgraph Step2["Step 2: Reward Model"]
        C --> D["프롬프트 → K=4~9개 응답 생성"]
        D --> E["라벨러 순위 매김<br/>(~33K prompts)"]
        E --> F["Reward Model (6B)<br/>pairwise ranking loss"]
    end

    subgraph Step3["Step 3: PPO / PPO-ptx"]
        C --> G["PPO 정책 초기화"]
        F --> H["RM 보상 - β·KL(π_RL ∥ π_SFT)"]
        G --> H
        H --> I["PPO-ptx: + γ·E[log π_RL(x_pretrain)]"]
        I --> J["InstructGPT"]
    end

재현성 및 신뢰도 평가

종합 등급: C

차원	등급	비고
코드 공개	⚠️ 부분	평가 데이터 및 레이블 데이터만 GitHub 공개; PPO/SFT 훈련 코드 비공개
데이터 공개	⚠️ 부분	SFT(~13K), RM(~33K), PPO(~31K) 프롬프트 규모는 공개(§3.2); 실제 API 프롬프트는 OpenAI 고객 데이터로 미공개; 레이블러 인구통계는 Appendix B에서 부분 기술
하이퍼파라미터	✅ 충분	SFT: 16 epochs, cosine LR decay, dropout 0.2; RM: K=4~9 비교쌍, 6B; PPO: KL 계수 β, 사전학습 혼합 계수 γ 모두 명시(§3.5, Eq. 1-2)
실험 환경/컴퓨트	✅ 명시	175B SFT: 4.9 PFLOP/s-days; 175B PPO-ptx: 60 PFLOP/s-days; GPT-3 대비: 3,640 PFLOP/s-days(§5.1)
통계적 신뢰도	✅ 양호	주요 인간 평가에 95% CI 명시(예: 85 ± 3%, 71 ± 4%); RM cross-validation 5-fold(§4.1)
모델 가중치	❌ 비공개	GPT-3 기반 모델 및 InstructGPT 모두 가중치 미공개

주장별 신뢰도

#	주장	근거	신뢰도
1	175B InstructGPT 출력이 175B GPT-3보다 85 ± 3% 선호 (§4.1)	대규모 레이블러 평가, 95% CI 명시, 훈련/held-out 일관	🟢 높음
2	1.3B InstructGPT가 175B GPT-3보다 선호 (§abstract, §4.1)	Figure 1 시각화, Appendix 상세; 정확 win-rate % 본문 미기재	🟡 중간-높음
3	PPO-ptx가 alignment tax를 완화 (§4.2)	HellaSwag 회복; DROP, SQuADv2, 번역은 여전히 부진 — 부분 완화	🟡 중간
4	TruthfulQA에서 GPT-3 대비 약 2배 개선 (§4.2)	Fig. 6 인간 평가; 정확 % 본문 미기재	🟡 중간-높음
5	Closed-domain hallucination 41% → 21% (§1, §4.2)	§1 본문 명시 + Fig. 4	🟡 중간

읽기 난이도: ⭐⭐ — Transformer 언어 모델, 지도 학습 파인튜닝, 기본 강화학습(보상/정책 개념), KL divergence에 대한 사전 지식 필요. 강화학습 비전공자도 §4 결과 섹션은 접근 가능.

Paper (Year)	학습 방법	인간 피드백	Task scope	모델 크기	Alignment tax 처리	코드 공개	Key result vs GPT-3
InstructGPT (Ouyang 2022)	SFT → RM → PPO (PPO-ptx 혼합) 3단계	비교 선호 레이블 → RM + PPO	실사용자 prompt 광범위 다중 task	1.3B–175B; GPT-3 base	PPO-ptx (pretraining mix)	❌ (API only)	1.3B aligned > 175B unaligned; 85 ± 3% winrate
Christiano 2017	RL + reward model (trajectory 비교)	trajectory 쌍 비교 → reward fn (<0.1% supervision)	Atari / MuJoCo 시뮬레이션 단일 도메인	소규모 RL 정책망	해당 없음 (LM 아님)	✅ (rl-teacher)	비교 불가 (LM 아님; RLHF 원형)
Stiennon 2020	SFT → RM → PPO 3단계	요약 쌍 인간 비교 → RM + PPO	단일 task (Reddit TL;DR 요약)	GPT-3 계열	명시적 처리 없음	✅ (summarize-from-feedback)	ROUGE 최적화 대비 인간 선호 우수; 직접 비교 미제공
FLAN / Wei 2021	멀티태스크 SFT only (RL 없음)	없음 (레이블 기반 SFT)	Public NLP 60+ 데이터셋 (실사용자 prompt 없음)	137B; LaMDA base	해당 없음	✅ (google-research/FLAN)	Zero-shot에서 GPT-3 175B 능가; InstructGPT 대비 26.8%
T0 / Sanh 2021	멀티태스크 SFT only (RL 없음)	없음 (prompt template 다양화)	Public NLP + prompt diversity	11B; T5 base	해당 없음	✅ (bigscience/promptsource)	Zero-shot에서 GPT-3 175B 능가; InstructGPT 대비 29.8%
GPT-3 / Brown 2020	대규모 pretraining only; few-shot ICL	없음	Few-shot in-context (instruction following 미설계)	175B	해당 없음	❌ (API only)	기준선 (InstructGPT의 base 모델)

원자적 인사이트 (Zettelkasten)

💡 정렬이 규모를 이긴다: 1.3B Aligned > 175B Unaligned

유형: 실험적

파라미터 수가 100배 이상 차이 나는 두 모델에서, 인간 피드백으로 정렬된 소형 모델(1.3B InstructGPT)이 정렬되지 않은 대형 모델(175B GPT-3)보다 인간 평가자에게 일관되게 선호되었다(§4.1). 이는 모델 능력(capability)과 모델 유용성(helpfulness)이 서로 다른 차원임을 실험적으로 보여준다. 즉 규모 확장은 능력의 상한을 높이지만, 그 능력을 사용자 의도에 연결하는 것은 별도의 정렬 작업을 필요로 한다.

핵심 조건/맥락: 평가 기준이 “인간 선호”일 때. 자동화 벤치마크(NLP 표준 태스크)에서는 역전될 수 있으며, 이것이 alignment tax의 본질이다.
연결: Scaling Laws for Neural Language Models (Kaplan 2020), FLAN - Finetuned Language Models Are Zero-Shot Learners
활용 가능성: 컴퓨팅 예산이 제한된 환경에서 대형 베이스 모델 대신 소형 정렬 모델을 선택하는 근거. 정렬 투자의 ROI를 정당화하는 실증 데이터로 활용 가능.

💡 Goodhart의 법칙이 RLHF에 적용된다: 보상 모델 과최적화의 함정

유형: 실패-한계

“측정치가 목표가 되는 순간, 그것은 좋은 측정치가 아니게 된다”는 Goodhart의 법칙은 RLHF에서 구체적으로 나타난다. RM(보상 모델)은 인간 선호의 근사치이며, PPO가 이 RM 점수를 지나치게 최적화하면 실제 품질이 아닌 RM의 취약점을 exploit하는 방향으로 정책이 수렴할 수 있다. 이를 방지하기 위해 논문은 KL 페널티(기준 모델로부터의 일탈을 억제하는 항)와 PPO-ptx(사전학습 데이터 혼합)를 사용하지만, RM held-out 정확도가 69.6%에 불과하다는 사실은 근사 자체의 한계를 드러낸다.

핵심 조건/맥락: RM 파라미터(6B)와 정책 파라미터(175B) 간 격차가 클수록 over-optimization 위험이 커질 수 있다.
연결: Reward Model Ensembles, Constitutional AI (Bai 2022), Direct Preference Optimization (Rafailov 2023)
활용 가능성: 새로운 보상 학습 방법론(DPO, RLAIF 등)의 등장을 동기화하는 핵심 실패 패턴으로 참조 가능. RM 설계 시 표현력과 과최적화 저항성 간 트레이드오프 고려 필요.

💡 정렬세(Alignment Tax): 의도 학습이 기존 능력을 침식한다

유형: 실험적

RLHF로 정렬된 모델은 HellaSwag 등 일부 벤치마크는 PPO-ptx를 통해 성능을 회복하지만, DROP, SQuAD, WMT 등의 태스크에서는 여전히 GPT-3 대비 성능 저하가 관측된다. 이는 정렬 학습이 모델의 사전학습 지식 분포를 변형시키기 때문이며, PPO-ptx의 사전학습 혼합이 부분적 완화책임을 보여준다. 정렬은 공짜가 아니며, 어떤 능력을 유지하고 어떤 능력을 희생할지에 대한 명시적 설계 선택을 요구한다.

핵심 조건/맥락: PPO-ptx 계수(γ)와 KL 페널티 계수(β)의 균형이 alignment tax의 크기를 결정한다. 태스크 분포가 사전학습과 멀수록 tax가 클 가능성이 높다.
연결: Catastrophic Forgetting in Continual Learning, FLAN - Finetuned Language Models Are Zero-Shot Learners
활용 가능성: 특정 도메인 LLM을 정렬할 때 보존해야 할 핵심 능력을 사전에 정의하고, 해당 태스크를 PPO-ptx 혼합에 포함시키는 설계 원칙으로 활용 가능.

💡 “누구에 정렬할 것인가”: 단일 라벨러 풀의 정치성

유형: 이론적

InstructGPT의 RM은 약 40명의 영어권 라벨러의 판단으로 학습되었다. 이 좁은 판단 풀이 수억 명이 사용할 모델의 행동을 결정한다는 사실은 alignment를 기술적 문제가 아닌 가치 대표성(value representation) 문제로 재정의한다. 논문 자체도 “alignment is not panacea”임을 인정하며, 라벨러 합의율 73%는 선호 자체가 균질하지 않음을 드러낸다. 무엇에 정렬할지는 누가 결정하는가라는 질문은 RLHF 파이프라인의 기술적 설계보다 앞서 답해야 할 윤리적 선행 조건이다.

핵심 조건/맥락: 영어 중심, 서구권 라벨러 구성. 다문화/다언어 컨텍스트에서의 일반화 가능성 미검증.
연결: Constitutional AI (Bai 2022), Collective Constitutional AI, Value Alignment Problem (Russell 2019)
활용 가능성: 글로벌 배포 LLM의 라벨링 풀 설계 시 다양성 요건을 정당화하는 이론적 근거. RLAIF나 사용자 집단 기반 피드백 수집 방법론 연구의 동기로 활용 가능.

핵심 용어 정리

용어	정의
RLHF (Reinforcement Learning from Human Feedback)	인간 평가자의 선호 데이터를 보상 신호로 변환하여 언어 모델을 강화학습으로 파인튜닝하는 방법론. SFT → RM → PPO의 3단계로 구성된다.
SFT (Supervised Fine-Tuning)	레이블러가 직접 작성한 이상적 응답 시연 데이터로 사전학습 모델을 지도 학습 방식으로 미세조정하는 첫 단계. InstructGPT에서는 16 epoch, cosine LR 스케줄, dropout 0.2 적용.
Reward Model (RM)	동일 프롬프트에 대한 여러 모델 출력을 인간이 순위 매긴 데이터로 학습된 6B 파라미터 모델. RL 단계에서 스칼라 보상 점수를 생성하는 역할을 한다.
PPO (Proximal Policy Optimization)	정책(언어 모델)이 RM 점수를 최대화하되, 기준 모델로부터 너무 멀어지지 않도록 클리핑 기반 제약을 두는 강화학습 알고리즘.
PPO-ptx	표준 PPO에 사전학습 데이터 미니배치를 혼합하여 gradient를 업데이트하는 변형. alignment tax(기존 능력 저하)를 완화하기 위해 도입되었다.
KL Penalty	PPO 학습 중 현재 정책이 SFT 초기 모델로부터 얼마나 벗어났는지를 측정하는 Kullback-Leibler 발산 항으로, 보상에서 차감되어 reward hacking을 억제한다.
Alignment Tax	RLHF 정렬 학습 이후 DROP, WMT 등 일부 NLP 벤치마크에서 관측되는 성능 저하 현상. 의도 학습이 사전학습 지식 분포를 변형시키는 부작용이다.
Goodhart’s Law	”측정치가 목표가 되는 순간, 좋은 측정치가 아니게 된다”는 원칙. RLHF에서 RM 점수를 지나치게 최적화하면 실제 품질이 아닌 RM 취약점을 exploit하는 방향으로 정책이 수렴하는 위험으로 나타난다.
Pairwise Ranking Loss	RM 학습 시 사용되는 손실 함수. K개(4-9개) 출력의 모든 쌍에 대해 선호 출력의 점수가 비선호 출력보다 높도록 학습한다.
Held-out Labelers	RM 학습에 참여하지 않은 독립 평가자 집단. 이들의 평가로 측정한 RM 정확도(69.6%)와 학습 데이터 정확도(72.4%)의 차이가 일반화 한계를 나타낸다.

BibTeX

@inproceedings{ouyang2022,
  title={Training language models to follow instructions with human feedback},
  author={Ouyang, Long and Wu, Jeff and Jiang, Xu and Almeida, Diogo and Wainwright, Carroll L. and Mishkin, Pamela and Zhang, Chong and Agarwal, Sandhini and Slama, Katarina and Ray, Alex and Schulman, John and Hilton, Jacob and Kelton, Fraser and Miller, Luke and Simens, Maddie and Askell, Amanda and Welinder, Peter and Christiano, Paul and Leike, Jan and Lowe, Ryan},
  booktitle={Advances in Neural Information Processing Systems},
  volume={35},
  pages={27730--27744},
  year={2022},
  url={https://arxiv.org/abs/2203.02155},
  eprint={2203.02155},
  archivePrefix={arXiv}
}

Training language models to follow instructions with human feedback - InstructGPT

InstructGPT: Training Language Models to Follow Instructions with Human Feedback

섹션별 요약

Abstract

왜 이 연구를 하는가?

Introduction

Methods

프레임워크 개요

핵심 구성요소

입력 → 출력 흐름

기존 방법과의 차별점

모델 스펙 (GPT-3 backbone, 아키텍처 변경 없음)

Step별 학습 설정 (요약 표)

데이터 구성

발견 (Findings)

Results

§4.1 API 배포 분포 결과

§4.2 공개 NLP 데이터셋 결과

§4.3 정성적 결과

Ablation / 부정 결과 / 제한된 케이스

Discussion

이론적 의의

실험 결과 상세 (Model × Dataset × Metric)

프레임워크 다이어그램

재현성 및 신뢰도 평가

관련 연구 비교 매트릭스

원자적 인사이트 (Zettelkasten)

💡 정렬이 규모를 이긴다: 1.3B Aligned > 175B Unaligned

💡 Goodhart의 법칙이 RLHF에 적용된다: 보상 모델 과최적화의 함정

💡 정렬세(Alignment Tax): 의도 학습이 기존 능력을 침식한다

💡 “누구에 정렬할 것인가”: 단일 라벨러 풀의 정치성

핵심 용어 정리

관련 연구

태그

BibTeX

그래프 뷰

목차

Properties

백링크