Summary

DPO에서 loss는 아래와 같이 정의되는데,

  • : 지금 학습 중인 모델 (Actor)
  • : 학습 전의 초기 모델 (Reference Model)

reference-free하게 해보자.
그냥 reference model term을 빼면, Language model으로써 성능이 떨어질 수 있으니, SFT 단계에서 같이 alilgnment도 진행하여 SFT task에게 일종의 LM task에 대한 성능유지(regularization)기능을 일임하자.