GLU Variants Improve Transformer (SwiGLU)

Digest: 이 논문은 Transformer의 FFN(Feed-Forward Network) 레이어에 GLU(Gated Linear Unit) 변형을 적용하여 일관된 성능 향상을 달성함을 보인다. 핵심 제안인 SwiGLU 으로, 기존 ReLU나 GELU 기반 FFN보다 perplexity가 일관되게 낮다. 파라미터 수를 동일하게 맞추기 위해 FFN 차원을 2/3로 줄이되(3개 행렬 사용), 게이팅 메커니즘의 이점이 이를 보상한다. 이후 LLaMA, PaLM, Mistral, Qwen, DeepSeek 등 현대 거의 모든 주요 LLM의 FFN 표준이 되었다.


핵심 개념

기존 FFN vs GLU 변형

기존 Transformer FFN

  • 2개 행렬 (, )
  • 파라미터:

GLU (Gated Linear Unit)

  • Dauphin et al. (2017) 제안
  • : sigmoid (원본), 이후 다양한 활성 함수로 변형

SwiGLU

  • (β=1이 일반적)
  • 3개 행렬 사용 → 파라미터 균형을 위해 FFN dim을 로 축소

GLU 변형 종류

변형게이트 활성 함수수식
GLUSigmoid
ReGLUReLU
GEGLUGELU
SwiGLUSwish
graph TD
    A["입력 x (d차원)"] --> B["xW₁ → 게이트 값<br/>(Swish 활성화)"]
    A --> C["xW₂ → 값"]
    B --> D["Element-wise 곱<br/>Swish(xW₁) ⊗ xW₂"]
    C --> D
    D --> E["W₃ → 출력 (d차원)"]

    style D fill:#f9f,stroke:#333

파라미터 균형

문제: 3개 행렬 → 파라미터 증가

FFN 유형행렬 수기본 FFN dim파라미터
ReLU/GELU FFN24d
SwiGLU3

→ FFN dim을 로 줄여 총 파라미터 수를 동일하게 유지

실제 LLM에서의 FFN dim

모델d_modelFFN dimFFN/d 비율활성 함수
GPT-3 (175B)12288491524.0×GELU
LLaMA-7B4096110082.69×SwiGLU
LLaMA-65B8192220162.69×SwiGLU
Mistral 7B4096143363.50×SwiGLU
Qwen3-8BSwiGLU
PaLM-540B18432737284.0×SwiGLU

실험 결과

T5 기반 비교 (동일 파라미터)

활성 함수Test Perplexity (C4)
ReLU기준
GELUReLU보다 약간 우수
SwishGELU와 유사
GEGLUReLU/GELU보다 우수
SwiGLU최고 (GEGLU와 거의 동등, 약간 우수)
ReGLUGEGLU/SwiGLU와 유사

핵심 발견

  1. GLU 변형이 일관되게 우수: ReLU/GELU/Swish 단독보다 GLU(게이팅) 버전이 항상 우수
  2. SwiGLU ≈ GEGLU > ReGLU: 세 GLU 변형 간 차이는 작으나 SwiGLU가 미세하게 최고
  3. 게이팅의 힘: 추가 파라미터를 게이팅에 사용하는 것이 단순 FFN dim 확대보다 효과적
  4. 이론적 설명 부재: 왜 게이팅이 효과적인지 명확한 이론적 설명 없음 (“divine benevolence”)

채택 현황

모델 패밀리FFN 유형비고
LLaMA 1/2/3SwiGLU✅ 모든 버전
Mistral / MixtralSwiGLU
Qwen 2/2.5/3SwiGLU
PaLM / PaLM-2SwiGLU
DeepSeek V2/V3SwiGLU✅ (전문가 내)
YiSwiGLU
Gemma 1/2/3GeGLUGEGLU 변형
Phi-3SwiGLU (mini/medium), gegelu (small)혼용
GPT-3/4GELU❌ (비-GLU)
BERTGELU❌ (비-GLU)
원본 TransformerReLU❌ (비-GLU)

2023년 이후 새로운 LLM에서 SwiGLU/GeGLU가 사실상 표준


왜 SwiGLU가 효과적인가? (가설)

  1. 정보 선택: 게이트가 관련 정보를 선택적으로 통과 → attention과 유사한 선택 메커니즘
  2. 그래디언트 흐름: Swish의 부드러운 게이팅이 ReLU의 dead neuron 문제 완화
  3. 표현력: 2개 선형 변환의 element-wise 곱이 더 풍부한 비선형 변환 표현
  4. 저자의 견해: “We offer no explanation as to why these architectures seem to work; we attribute their success to divine benevolence.”

동시대 비교

활성 함수제안 시기게이팅채택도성능
ReLU2010초기 모델기준
GELU2016GPT, BERTReLU+
Swish2017일부GELU≈
GLU2017제한적우수
SwiGLU2020거의 모든 현대 LLM최고
GeGLU2020GemmaSwiGLU≈
Squared ReLU2022일부 실험우수