SGD with Momentum

Why Momentum?

Stochastic Gradient Descent(SGD) 에 momentum 개념이 추가됨.

Momentum 적용 전.

기존 SGD는 gradient가 차원별로 scale의 차이가 크면, jittering하는 문제가 있는데, 이러한 것을 완화하기 위해 “속도” 개념을 들고 옴.

TODO:

$w_{2}$ 방향으로 damping 필요.(그림에서는 불필요한 움직임이 많으니,)

$w_{1}$ 축 방향으로는 가속해야 함.(현재는 너무 느리니)

Summary

Idea of momentum: update weights with exponential moving average of gradients
moving average: 대충 추세선 정도로 생각하면 됨.

Moving average?

SGD with Momentum

Momentum 적용 후.

$m^{t + 1} = β_{1} m^{t} - η \nabla_{w} L_{B} (w^{t})$
$w^{t + 1} = w^{t} + m^{t + 1}$
with velocity $m$ and momentum $β_{1} = 0.9$ (typically)

확실히 $w_{2}$ axis 방향의 damping이 잘 됨.

Important

Attention

Notation은 다음과 같이 2가지로 사용된다.

lr을 어디 term에서 보여줄지가 차이.

Exponential Moving Average

위에서 다시 momentum 수식을 보면, momentum 식 계산할 때, $V_{t + 1}$ 를 구할 때에는 $V_{t + 1}$ 에 $β$ 만큼의 decay가 일어나고, 한 타임 더 전을 생각해보면, $β^{2}$ 만큼의 decay가 일어난다. 즉, decay가 exponential하게 일어남.
→ momentum은 exponential moving average!
아래 그림처럼 잘 damping해줌.

Juhyeon's Blog

탐색기

SGD with Momentum

그래프 뷰

Properties

백링크