Summary
DPO에서 loss는 아래와 같이 정의되는데,
- : 지금 학습 중인 모델 (Actor)
- : 학습 전의 초기 모델 (Reference Model)
reference-free하게 해보자.
→ 그냥 reference model term을 빼면, Language model으로써 성능이 떨어질 수 있으니, SFT 단계에서 같이 alilgnment도 진행하여 SFT task에게 일종의 LM task에 대한 성능유지(regularization)기능을 일임하자.