Summary Learning Rate는 fixed 되어야 하는가? → Nope! loss가 평탄치 않고 매으 복잡하니, lr 역시 adaptive하면 좋기도 하다. Linear Decay Cosine Annealing Inverse sqrt Linear-WarmUp