AdamW?

Adam 변종.
기존에 사용하던 weight-decay(optimizer에 옵션 걸고 사용하던 그것.)을 개선할 version

Key Contibution

SGD 같은 알고리즘에는 기존에 L2 regularization을 위해서 weight-decay 옵션을 활용했는데, 그 이유는 두 개념이 수식적으로 결과가 동일했기 때문.

Loss에 L2 regularization 적용.

치환하면,

weight-decaying로 볼 수 있었음.

그러나, Adam 같이 update가 per-parameter 단으로 scaling이 되어 버리면, weight-decay를 해버리면 parameter별 regularization 정도가 다름. 따라서 AdamW에서는 parameter별 equally regularization 적용하기 위해 weight-decay과정을 분리해버림.

  • 즉 추론해볼 수 있는 건, 기존에 weight-decay를 적용하면 loss function 계산 시에 반영되도록 구성이 되었다는 걸 유추해볼 수 있음. EMA upate 형태로.