Root Mean Square 레이어 정규화 (RMSNorm)

Digest: 이 논문은 LayerNorm의 성공 요인이 평균 빼기(re-centering)가 아니라 분산으로 나누기(re-scaling) 불변성에 있다는 가설 하에, 평균 계산을 제거하고 오직 Root Mean Square(RMS)로만 정규화하는 RMSNorm을 제안한다. RMSNorm은 입력 $a_{i}$ 에 대해 $\overset{a}{ˉ}_{i} = a_{i} / RMS (a) \cdot g_{i}$ 형태로 계산되며, LayerNorm 대비 연산량을 크게 줄이면서도 비교 가능한 성능을 유지한다. 저자들은 RNNSearch 기계 번역, Transformer 기계 번역, Tied LSTM 언어 모델, 이미지-캡션 검색(order-embedding), CNN/DailyMail 요약(ConvS2S), MNIST 분류 등 6가지 과제에서 실험하였고, 모델과 과제에 따라 7%~64%의 런타임 단축을 보이면서 번역 BLEU 스코어와 perplexity가 LayerNorm과 통계적으로 유의한 차이 없이 유지됨을 보였다. 추가로 제안한 pRMSNorm은 전체 차원 중 $p %$ (예: 6.25%)의 부분집합만으로 RMS를 추정하여 이론적 불변성을 유지한 채 더 빠르게 근사한다.

섹션별 요약

Introduction

LayerNorm(Ba et al., 2016)은 BatchNorm의 배치 크기 의존성을 해소하여 RNN, Transformer, 강화학습 등에서 표준 구성요소가 되었다. 그러나 LayerNorm은 평균과 분산 두 가지 통계량을 매 뉴런 집합마다 계산해야 하므로 추가 연산 비용을 유발한다. 저자들은 LayerNorm의 re-centering이 분포 shift에 대한 불변성을 주지만 실제로는 중요하지 않을 수 있다고 가정하고, re-scaling 불변성만으로도 충분한 정규화 효과와 암묵적 학습률 적응(implicit learning rate adaptation)을 얻을 수 있다고 주장한다.

Methods

RMSNorm은 레이어의 각 뉴런의 출력 $a_{i}$ 를 RMS로 나누어 정규화한다:

$RMS (a) = \frac{1}{n} \sum_{i = 1}^{n} a_{i}^{2}, \overset{a}{ˉ}_{i} = \frac{a _{i}}{RMS ( a )} g_{i}$

여기서 $g_{i}$ 는 학습 가능한 gain 파라미터이다. 바이어스 $b_{i}$ 는 선택적이다. pRMSNorm은 처음 $k = ⌈ n \cdot p ⌉$ 개 요소만 사용해 RMS를 추정한다. 이론적으로 RMSNorm은 가중치 행렬과 입력에 대해 re-scaling 불변성을 가지며, 출력 재척도화(re-scaling)를 통해 암묵적 학습률 적응을 유지한다.

Results (실험 결과)

모델/과제	데이터셋	지표	LayerNorm	RMSNorm	속도 향상
RNNSearch NMT	WMT14 En-De	BLEU	24.37	24.51	~50%
Transformer NMT	WMT14 En-De	BLEU	27.3 (LN)	27.3 (RMS)	~7-9%
Tied LSTM LM	PTB/WikiText-2	PPL	93.76 / 99.65	93.54 / 99.71	~14-27%
Order-embedding	MS-COCO	R@1	52.0	53.0	~37-48%
ConvS2S 요약	CNN/DailyMail	ROUGE	비슷	비슷	~12-64%
CNN 분류	MNIST	Acc	99.17	99.24	~27%

Discussion

RMSNorm은 LayerNorm의 핵심 이점(안정적 학습, 배치 독립성)을 유지한 채 평균 계산과 평균 빼기 두 단계를 제거한다. 저자들은 pRMSNorm이 부분 요약(partial summation)을 사용해도 성능이 거의 저하되지 않음을 보이며, RMS 추정의 견고성을 보여준다. 속도 향상은 모델에서 정규화가 차지하는 비중에 따라 달라지며, LSTM 기반 작은 모델과 반복 호출이 많은 구조에서 더 크게 나타난다.

Insights

LayerNorm의 효과는 **분산 정규화(re-scaling invariance)**에 의해 주도되며, 평균 중심화는 부수적이다.
학습률 적응은 출력 벡터의 노름 변화에 의해 암묵적으로 이루어진다.
RMS 통계량은 평균 통계량보다 계산 측면에서 더 저렴한 대리 지표이다.

Discussion Points

극단적으로 긴 시퀀스나 강한 outlier가 있는 입력 분포에서 RMSNorm이 견고한가? (후속 연구인 Pre-LN, DeepNorm 등과의 상호작용)
$g_{i}$ gain 파라미터 없이 순수 RMS만으로도 충분한가?
LLM 규모(수십억 파라미터)에서의 수치 안정성 — 이 부분은 후속 연구(LLaMA, T5 등이 RMSNorm을 채택한 사례)로 실증된다.

메타데이터

항목	내용
저자	Biao Zhang, Rico Sennrich
소속	University of Edinburgh, University of Zurich
학회	NeurIPS 2019
arXiv	1910.07467
코드	https://github.com/bzhangGo/rmsnorm
분야	딥러닝 최적화, 정규화 기법

왜 이 연구를 하는가?

핵심 질문

LayerNorm의 성공은 re-centering 때문인가, 아니면 re-scaling 때문인가? 만약 후자라면, 평균 계산을 완전히 제거해 더 저렴한 정규화를 만들 수 있는가?

기존 한계

기법	한계
BatchNorm	작은 배치/가변 시퀀스에서 불안정, 배치 크기 의존성
LayerNorm	평균과 분산 두 통계량을 매번 계산해 추가 연산 비용 발생
WeightNorm	활성화 분포 전체를 제어하지 못함

핵심 통찰

LayerNorm의 불변성 분석을 분해하면 re-scaling 불변성과 암묵적 학습률 적응이 결정적 역할을 한다.
따라서 평균 빼기를 제거해도 학습 동역학이 유지되어야 한다.

방법 (Method)

프레임워크 개요

flowchart LR
    A["입력 a = Wx"] --> B["RMS 계산: sqrt(mean(a^2))"]
    B --> C["정규화: a / RMS(a)"]
    C --> D["게인 곱: * g"]
    D --> E["(선택) 바이어스 + b"]
    E --> F["활성함수 f(.)"]
    B1["pRMSNorm: 앞쪽 p% 요소만 사용"] --> B

핵심 구성요소

RMS 통계: 평균 계산을 제거하고 $\frac{1}{n} \sum a_{i}^{2}$ 만 계산.
Gain 벡터 $g$ : LayerNorm과 동일하게 차원별 학습 가능한 스케일.
pRMSNorm: $k = ⌈ n p ⌉$ 개 요소만으로 RMS를 추정. $p = 6.25%$ 에서도 성능 유지.
이론적 분석: weight/input re-scaling 불변성과 implicit learning rate adaptation을 증명.

발견 (Findings)

주요 결과

실험	데이터셋	성능 변화	속도
RNNSearch	WMT14 En-De/En-Fr	+0.1~+0.3 BLEU	약 1.5배 빠름
Transformer	WMT14 En-De	동등 (27.3)	7~9% 단축
Tied-LSTM LM	PTB / WikiText-2	동등 PPL	27%까지 단축
Order-embed	MS-COCO (caption)	R@1 +1.0	37~48% 단축
ConvS2S	CNN/DailyMail	동등 ROUGE	최대 64% 단축
CNN	MNIST	99.17→99.24	27% 단축

핵심 발견

모든 6개 과제에서 RMSNorm은 LayerNorm과 통계적으로 유사한 정확도를 달성했다.
평균적으로 런타임이 약 7–64% 감소했으며, 반복 호출이 많은 RNN 계열에서 더 큰 이득.
pRMSNorm은 극소량의 부분집합(예: 6.25%)만 사용해도 전체 RMSNorm과 유사한 성능을 보였다.

이론적 의의

RMSNorm은 정규화의 본질이 평균 정렬이 아니라 노름 통제라는 점을 실증적으로 밝혔다. 이는 후속 대규모 언어모델(LLaMA, PaLM, T5, Chinchilla 등)이 RMSNorm을 기본 정규화로 채택한 이론적 근거가 되었다. 또한 “암묵적 학습률 적응”이라는 관점을 제공함으로써 정규화 기법과 옵티마이저의 관계를 재해석하게 했다.

재현성 및 신뢰도 평가

항목	평가	근거
코드 공개	A	공식 GitHub 저장소 제공 (bzhangGo/rmsnorm)
실험 범위	A	6개 이상의 이질적 과제에서 검증
베이스라인 공정성	A	동일 하이퍼파라미터로 LayerNorm과 직접 비교
수치 안정성	B	$ϵ$ 추가가 필요할 수 있으나 소규모 실험에서는 명시 제한적
통계적 보고	B	복수 시드 평균이 주 결과지만 표준편차 보고는 부분적

원자적 인사이트 (Zettelkasten)

정규화의 핵심은 스케일 통제다. LayerNorm에서 re-centering을 제거해도 성능이 유지된다는 사실은 정규화의 본질이 벡터 노름 제어에 있음을 시사한다.
계산량 감소가 곧 대규모 학습의 실용성이다. 정규화는 모든 레이어/스텝에서 호출되므로, 10~60% 속도 향상은 LLM 규모에서 수천 시간의 GPU 시간을 절약한다.
부분 통계량도 충분히 견고하다. pRMSNorm이 6.25% 부분집합으로도 작동한다는 것은 RMS 추정이 low-variance임을 의미하며, 분산 학습 환경에서 통신 비용 절감의 가능성을 연다.
불변성 분석은 정규화 설계의 나침반이다. 어떤 변환에 대한 불변성을 원하는지 명시하는 방식으로 정규화 기법을 설계/분해할 수 있다.

핵심 용어 정리

용어	정의
LayerNorm	층 내 뉴런의 평균과 분산으로 정규화하는 기법
RMSNorm	Root Mean Square로만 정규화, 평균 빼기 제거
pRMSNorm	입력의 일부(p%) 요소만 사용하여 RMS를 근사
Re-centering invariance	입력/가중치의 평균 shift에 대한 불변성
Re-scaling invariance	입력/가중치의 스케일 변화에 대한 불변성
Implicit learning rate adaptation	정규화가 출력 노름을 고정함으로써 효과적 학습률을 자동 조정하는 현상
Gain (g)	차원별 학습 가능한 스케일 파라미터

Juhyeon's Blog

탐색기

Root Mean Square Layer Normalization