Summary

Learning Rate는 fixed 되어야 하는가? → Nope!
loss가 평탄치 않고 매으 복잡하니, lr 역시 adaptive하면 좋기도 하다.

Linear Decay


Cosine Annealing


Inverse sqrt


Linear-WarmUp