Introduction


Summary

ReLU, ELU 와 같은 deterministic한 activation에 dropout과 같은 확률적 정규화 방법을 합침.
formula :

Idea : input 에 mask 을 곱하자.

  • where
    • : 의 CDF(Cumulative Density Function)

연산 속도를 위해 다음과 같은 근사식을 사용하기도 함.

하나 더!

위처럼, Normal distribution이 아니라, logistic function의 CDF를 사용하면, SiLU라고 함.

Discussion


  • Momentum을 사용하는 optimizer와 추천.
    • GELU가 non-convex하고, non-monotonic하니, momentum을 사용하는 optimizer를 사용해서 gradient가 더 빈번히 변하는 걸 control.