Odds-Ratio Preference Optimization(ORPO)

Summary

DPO에서 loss는 아래와 같이 정의되는데,
$L_{D PO} = - lo g σ (β lo g \frac{π _{θ} ( y _{w} ∣ x )}{π _{re f} ( y _{w} ∣ x )} - β lo g \frac{π _{θ} ( y _{l} ∣ x )}{π _{re f} ( y _{l} ∣ x )})$

$π_{θ}$ : 지금 학습 중인 모델 (Actor)

$π_{re f}$ : 학습 전의 초기 모델 (Reference Model)

reference-free하게 해보자.
→ 그냥 reference model term을 빼면, Language model으로써 성능이 떨어질 수 있으니, SFT 단계에서 같이 alilgnment도 진행하여 SFT task에게 일종의 LM task에 대한 성능유지(regularization)기능을 일임하자.

Juhyeon's Blog

탐색기

Odds-Ratio Preference Optimization(ORPO)

그래프 뷰

Properties

백링크