ORPO: Monolithic Preference Optimization without Reference Model

Digest (CISELQ)

Context: RLHF와 DPO 등 기존 preference alignment 파이프라인은 SFT → reward modeling → RL 혹은 SFT → DPO의 2단계 구조를 취하며, 대부분 reference 모델을 유지해야 해 메모리와 학습 비용이 크다.
Issue: SFT 단계가 chosen 응답의 likelihood를 높이면서 rejected 응답의 likelihood도 동시에 상승시키는 현상이 있어, 별도의 alignment 단계 없이 preference를 억제하기 어렵다.
Solution: SFT의 negative log-likelihood(NLL) 손실에 chosen과 rejected 응답의 odds ratio에 대한 log-sigmoid 페널티를 가중합한 단일 손실 ORPO를 제안한다. Reference 모델이 필요 없고, 단계가 하나로 합쳐진다.
Evidence: OPT(125M–1.3B), Phi-2(2.7B), Llama-2(7B), Mistral(7B)에서 UltraFeedback 기반 학습으로 AlpacaEval 2.0, MT-Bench, IFEval에서 동급 크기의 RLHF/DPO 모델을 상회한다.
Limitation: Odds-ratio 가중치 λ에 민감하며, preference pair 품질에 그대로 의존한다. On-policy 탐색이 없다.
Question: Odds-ratio penalty가 KL 제약 없는 상황에서 어떻게 distribution drift를 암묵적으로 억제하는가, 그리고 더 큰 스케일에서의 안정성은?

섹션별 요약

Introduction

기존 alignment 파이프라인의 비용(ref model + 2-stage)을 지적하고, SFT 자체가 preference 왜곡의 원인임을 분석.
Monolithic한 preference-aware SFT 패러다임을 주장.

Methods

Odds: $odds_{θ} (y ∣ x) = \frac{P _{θ} ( y ∣ x )}{1 - P _{θ} ( y ∣ x )}$
Odds Ratio: $OR (y_{w}, y_{l}) = \frac{odds _{θ} ( y _{w} ∣ x )}{odds _{θ} ( y _{l} ∣ x )}$
손실: $L_{ORPO} = L_{SFT} + λ \cdot L_{OR}$ , $L_{OR} = - lo g σ (lo g OR (y_{w}, y_{l}))$
Sigmoid와 log-odds를 사용함으로써 KL/ref-model 없이 rejected response를 약하게 억제.

Results

Model	AlpacaEval 2.0	MT-Bench	IFEval(Loose, Inst)
Phi-2 + ORPO (2.7B)	6.35%	-	-
Llama-2 + ORPO (7B)	10.xx%	7.23	-
Mistral-ORPO-α (7B)	11.33%	7.23	61.63%
Mistral-ORPO-β (7B)	12.20%	7.32	66.19%

동급 혹은 더 큰 DPO/RLHF 모델보다 높은 instruction-following 성능.

Discussion

NLL 손실이 chosen probability를 끌어올리는 동안, log-odds 페널티는 rejected probability 증가를 제한.
Reference model 제거 → 메모리 절반, 학습 스텝 절반.

Insights

“SFT는 사실상 weak preference training이다”라는 해석을 통해 alignment 단계를 통합.
Odds(비율)와 확률(차이)의 차이: odds-based는 확률이 이미 높을 때에도 기울기 신호가 유지되어 sparse gradient 문제를 완화.

Discussion Points

λ 선택이 성능-안전성 트레이드오프에 민감.
Multi-turn / on-policy 세팅에서의 일반화는 추가 검증 필요.

메타데이터

Key	Value
Authors	Jiwoo Hong, Noah Lee, James Thorne
Venue	EMNLP 2024 Main
arXiv	2403.07691
Category	Training / Preference Optimization
Code	github.com/xfactlab/orpo

왜 이 연구를 하는가?

RLHF는 reward 모델과 PPO를 요구해 복잡하고 비용이 크며, DPO는 이를 단순화했으나 여전히 frozen reference policy를 메모리에 올려야 하고 SFT 단계가 선행된다. 저자들은 SFT가 단순히 chosen 응답의 우도를 높이는 것만으로는 rejected 스타일을 충분히 억제하지 못한다는 점, 그리고 이미 SFT 내부에서 chosen과 rejected 응답의 likelihood gap을 직접 키울 수 있다는 점을 근거로, 단일 손실·단일 단계·reference-free의 ORPO를 제안한다. 이를 통해 학습 파이프라인을 극적으로 단순화하면서도 alignment 품질을 유지·향상시키는 것이 목적이다.

방법 (Method)

ORPO의 학습 손실은 NLL과 odds-ratio 페널티의 합이다. Odds-ratio는 chosen $y_{w}$ 가 rejected $y_{l}$ 보다 상대적으로 얼마나 선호되는지를 확률의 odds로 표현하며, log-sigmoid를 통해 BCE 형태로 최적화된다. 이 때문에 별도의 reference 분포가 필요 없고, 동일 배치의 쌍을 그대로 이용한다.

flowchart LR
    A[Preference Pair x, y_w, y_l] --> B[Policy forward]
    B --> C1[logP y_w]
    B --> C2[logP y_l]
    C1 --> D[NLL Loss on y_w]
    C1 --> E[Odds y_w]
    C2 --> F[Odds y_l]
    E --> G[log Odds Ratio]
    F --> G
    G --> H[L_OR]
    D --> I[L_ORPO]
    H --> I
    I --> J[Backprop no reference]

Odds-ratio term: chosen의 odds를 키우고 rejected의 odds를 줄이도록 gradient를 인가.
SFT term: chosen 응답의 기본 언어모델 품질을 유지.
하이퍼파라미터: $λ \in [0.1, 1.0]$ 권장, 실험에서 0.1~0.5 사용.

발견

발견	설명
Monolithic alignment 성립	SFT + odds-ratio 1-stage로 DPO/RLHF 동급 이상 성능
Reference-free 가능	Frozen policy 없이도 안정적 학습
Rejected likelihood 억제	학습 로그에서 rejected log-prob 감소, 순수 SFT는 오히려 증가
스케일 견고성	125M–7B 전 범위에서 일관된 개선
Instruction-following 강화	IFEval에서 특히 큰 이득(Mistral-β 66.19%)

이론적 의의

ORPO는 “SFT는 약한 preference learner”라는 관점을 수식적으로 형식화한다. BCE on log-odds-ratio는 logistic regression 형태로, preference를 이진 분류 문제로 다루는 DPO와 개념은 닮았지만, 확률 차이가 아니라 odds 차이를 사용해 확률이 포화된 영역에서도 gradient가 살아있다. 또한 reference 모델이 제공하던 암묵적 KL 제약 없이도, NLL이 chosen 분포의 앵커 역할을 수행함으로써 distributional drift를 억제한다는 새로운 정당화를 제시한다.

재현성 및 신뢰도 평가

항목	평가	근거
Code 공개	A	github.com/xfactlab/orpo 공개, HuggingFace TRL 통합
Checkpoint	A	Mistral-ORPO-α/β 공개
Dataset	A	UltraFeedback, HH-RLHF 공개 데이터
하이퍼파라미터 명시	A	λ, lr, batch size 모두 기재
독립 재현	A	TRL·axolotl 등에서 재현 보고 다수
통계적 유의성	B	평균값 위주, 표준편차 일부 누락

원자적 인사이트

Odds는 확률 포화 영역에서 gradient를 살린다. 확률이 1에 가까워지면 probability margin은 사라지지만 odds는 폭발적으로 증가하므로, chosen이 이미 높은 우도를 가진 경우에도 rejected 억제 신호가 유지된다.
SFT의 NLL이 KL 제약을 대체할 수 있다. Chosen 분포에 대한 강한 MLE anchor가 존재할 때, 별도의 reference KL 없이도 정책의 과도한 이동을 막을 수 있다. 이는 reference-free 선호 학습의 설계 원리를 제공한다.
Preference alignment는 독립 단계일 필요가 없다. SFT 손실에 약한 preference 신호를 주입하는 것만으로 instruction-following, helpfulness를 동시에 끌어올릴 수 있다.

핵심 용어 정리

Odds: 사건 확률 대비 여사건 확률의 비, $p / (1 - p)$ .
Odds Ratio (OR): 두 사건의 odds 비율. 여기서는 chosen vs rejected 응답의 likelihood odds 비.
Reference-free alignment: frozen reference policy 없이 수행되는 preference 최적화.
Monolithic Training: SFT와 preference optimization을 단일 손실로 결합한 1-stage 학습.
UltraFeedback: GPT-4 기반 대규모 preference dataset.
IFEval: instruction-following을 strict/loose prompt·instruction 수준으로 측정하는 벤치마크.

Juhyeon's Blog

탐색기

Odds-Ratio Preference Optimization(ORPO)