Nesterov Momentum?
SGD with Momentum 에서 “look ahead”.
기존 Momentum과 비교.
기존에는 현재 포인트에서 gradient를 계산했지만,
nesterov는 velocity 방향으로 먼저 가고, 거기서 gradient 계산.
Check
- The anticipatory update increases responsiveness
- damping 더 빨라짐.
- RNN 계열에서 다양한 task에 significant한 성능 향상.


