Nesterov Momentum?

SGD with Momentum 에서 “look ahead”.

기존 Momentum과 비교.


기존에는 현재 포인트에서 gradient를 계산했지만,
nesterov는 velocity 방향으로 먼저 가고, 거기서 gradient 계산.

Check

  • The anticipatory update increases responsiveness
  • damping 더 빨라짐.
  • RNN 계열에서 다양한 task에 significant한 성능 향상.