Summary
Layer Normalization 같은 경우는 token-wise한 연산을 하다보니, Batch Normalization보다는 연산량이 많이 필요하다. 따라서 이를 좀 줄이고자 하는게 RMSNorm.
결과적으로 실해시간이 7%~64%까지도 줄였다고 함.
Important
논문에서 주장하는 건, LN이나 BN에서 평균값을 구해서 분포의 중심을 0으로 이동하는 re-centering은 중요치 않다고 함.
중요한 건, data-scale token-level embedding으로 치면, 토큰 별 의 크기가 어느 정도 비슷해야 빠르고 안정적인 수렴이 일어난다고 한다.아이디어는 RMS 사용해서 단위 벡터로 만드는 것이랑 동일
→ 즉, RMSProp에서 사용한 아이디어랑 동일.