Gradient Descent(GD)

Gradient Descent

Gradient를 이용해서 loss landscape의 minima point 를 찾아가는 기술.

Vanilla GD

$w^{0} = w^{init}$
$w^{t + 1} = w^{t} - η \nabla_{w} L (w^{t})$

while True:
	weights_grad = evalutae_gradient(loss_func, data, weights)
	weights += - step_size * weights_grad # perform parameter update

Algorithm

Intialize $w^{0}$ , pick the lr $η$

모든 데이터 포인트 $i / in 1, 2, \dots, N$ 에 대해, do:

Forward-pass $x_{i}$ and, get the $\overset{y}{^}_{i}$

Backward-pass, to get gradient $\nabla_{w} L (\overset{y}{^}_{i}, y_{i}, w^{t})$

Update gradients: $w^{t + 1} = w^{t} - η \frac{1}{N} \sum_{i} \nabla_{w} L (w^{t})$

Validation Error가 커지면, step2로 가져 again. otherwise stop.

Remark

일반적으로, 모델 파라미터 수는 Million 단위. 요즘은 Billion, Trillion 까지도 가지만,

또한 데이터 포인트 수 역시, Million 단위, 마찬가지로 더 크기도 하다.

때문에 computing power가 많이 요구됨.

Choosing a lr(Learning Rate)

Multi column

small lr

slow progress

large lr divergence

Gradient Clipping
Steep Cliff: how?

이러한 경우처럼, loss curvature 혹은 landscape이 steep 하면, GD는 튕겨버릴(catapult) 수 있는데,

이럴 때 Gradient clipping을 사용한다. (a common heuristics)

Gradient Clipping

easy하다. 그냥 일정 threshold 잡고 max 사용하면 된다.
Gradient exploding을 막아주는 역할.
$gradient = max (θ, \nabla L (w))$

원본 링크

Juhyeon's Blog

탐색기

Gradient Descent(GD)

Choosing a lr(Learning Rate)

Gradient Clipping

Steep Cliff: how?

그래프 뷰

Properties

백링크