RetNet — Transformer를 잇는 Retentive Network

Digest: 기존 시퀀스 모델은 학습 병렬성(training parallelism), 저비용 추론(O(1) inference), 강력한 성능(strong performance) 이 세 축을 동시에 만족하지 못하는 “불가능 삼각형(impossible triangle)” 문제를 가졌다 — Transformer는 병렬 학습·강한 성능을 얻지만 추론 시 KV-cache로 인해 메모리/지연이 시퀀스 길이에 선형 증가하고, Linear Attention·RNN 계열은 추론은 싸지만 성능 또는 병렬성이 떨어진다. RetNet의 통찰은 “softmax를 버리고 복소수 회전 위치 인코딩(xPos) + 지수 감쇠(exponential decay)로 근사하면, 동일한 연산을 병렬 형식과 순환 형식 두 가지로 정확히 같게 표현할 수 있다”는 점이다. 이로부터 Retention 연산을 세 등가 형태(Parallel: 학습용, Recurrent: O(1) 추론용, Chunkwise Recurrent: 긴 시퀀스 학습용)로 유도하고, 헤드마다 다른 감쇠율 γ를 쓰는 Multi-Scale Retention(MSR) 로 다층 구조를 구성한다. 6.7B 규모 실험에서 perplexity는 Transformer에 근접하거나 우수하고, 추론 지연은 시퀀스 길이에 대해 거의 일정(~8.4x 빠름, Fig. 6), 메모리는 KV-cache 대신 고정 크기 상태 S_n으로 3.4x 절감(Table 4) 되어 3요소를 모두 달성한다. 한계는 softmax 제거로 인해 매우 긴 의존성에서 표현력이 제약될 수 있고, 비교 대상이 FlashAttention 등 최적화된 Transformer 추론 스택과 완전 동일 조건이 아니며, 스케일업이 제한적이라는 점이다. 미해결 질문: xPos 감쇠 스케줄의 이론적 최적성, MoE·멀티모달 확장에서의 안정성, Mamba·RWKV 같은 후속 선형 시퀀스 모델 대비 장문 추론 품질의 실질 차이.


섹션별 요약

Introduction

  • 배경: Transformer는 사실상의 백본이지만 O(N²) 학습 및 추론 시 KV-cache가 메모리 병목이 된다.
  • Motivation: Linear Transformer, Recurrent NN, S4 계열 등 여러 대안이 등장했지만 “학습 병렬성 + O(1) 추론 + 강성능”을 동시에 만족시키지 못하는 불가능 삼각형이 존재.
  • 기여: ① Retention 메커니즘과 세 등가 형태의 수식적 정립, ② Multi-Scale Retention으로 다중 head 간 다양한 시간 척도 확보, ③ 2.7B/6.7B 규모에서 Transformer 대비 경쟁적 성능과 획기적 추론 효율 검증.

Methods

  • Retention 핵심 식: 순환 형태 , 출력 .
  • Parallel form: — 여기서 (i≥j), 0 (i<j). softmax 대신 원소별 감쇠 마스크.
  • Recurrent form: 위 순환식. 추론 시 상태 크기 로 고정 → O(1) 스텝.
  • Chunkwise Recurrent: 시퀀스를 청크로 나눠 청크 내부는 병렬, 청크 간은 순환으로 상태 전달 → 긴 컨텍스트 학습 효율화.
  • Multi-Scale Retention (MSR): 헤드 h에 형태로 다른 감쇠율 할당. 서로 다른 시간 스케일 포착.
  • 블록 구조: MSR → GroupNorm → FFN (SwiGLU), xPos 위치 인코딩을 Q,K에 적용.

Results

  • 언어모델링 perplexity: 6.7B 파라미터 RetNet이 Transformer baseline과 유사하거나 낮음 (Table 2).
  • Zero/few-shot 다운스트림 벤치마크에서 동급 Transformer에 대체로 매치.
  • 추론 효율 (시퀀스 8k, 배치 8 기준 근사):
항목Transformer (KV-cache)RetNet개선
디코딩 지연증가 (O(N))거의 일정~8.4x 빠름 (Fig. 6)
GPU 메모리KV-cache 누적고정 상태~3.4x 절감 (Table 4)
학습 throughput1.0x유사/우위FlashAttention 미적용 기준

Discussion

  • 한계: softmax 제거로 드물지만 날카로운 패턴(needle-in-haystack류) 포착이 약할 수 있음. 비교 baseline이 FlashAttention·PagedAttention 최신 스택과 완전 동일 조건은 아님.
  • 향후: MoE 결합, 멀티모달 확장, 더 큰 스케일(>13B)에서의 검증.

Insights

  • 주목할 점: 동일 연산을 병렬·순환 두 형태로 정확히 표현 가능하게 만든 수학적 재구성 — softmax 제거가 핵심 트릭.
  • 연결 고리: Linear Attention(Katharopoulos 2020)의 분해, xPos(Sun 2022)의 상대적 위치 인코딩, S4/Mamba의 state-space recurrence 관점과 연결.
  • 시사점: “Transformer의 성능 + RNN의 추론 비용” 조합은 softmax 없는 kernel form으로 달성 가능.
  • 비판적 코멘트: 성능이 Transformer와 “동급” 수준이지 압도는 아니며, decay γ 스케줄이 해석적으로 정당화되진 않음.

Discussion Points

  • 논쟁점: RetNet과 Mamba, RWKV 중 장문 의존성에서 누가 실제로 우수한가.
  • 검증 필요 가정: Multi-scale γ의 고정 스케줄이 다양한 도메인에서 최적인가.
  • 후속 연구: RetNet + MoE, 음성/비전 확장, in-context learning 품질 분석.

메타데이터

항목내용
제목Retentive Network: A Successor to Transformer for Large Language Models
저자Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, Jilong Xue, Jianyong Wang, Furu Wei
소속Microsoft Research Asia, Tsinghua University
연도2023
발표arXiv:2307.08621
링크arXiv, GitHub
키워드Retention, Linear Attention, Efficient LLM, xPos, Chunkwise Recurrent

왜 이 연구를 하는가?

핵심 질문

시퀀스 모델에서 학습 병렬성, O(1) 추론, Transformer 급 성능을 동시에 달성할 수 있는가?

기존 접근법의 한계

한계설명
Transformer학습 병렬/성능은 좋지만 추론 시 KV-cache가 O(N) 메모리, 지연도 증가
Linear Attention추론 O(1) 가능하지만 softmax 근사 손실로 성능 저하
Recurrent Models(RNN/LSTM)추론 O(1)이지만 학습 시 병렬화 불가, 장의존성 취약
S4/SSM효율적이나 LLM 스케일 언어모델링에서 경쟁력 증명 초기 단계

핵심 통찰

  • softmax를 제거하고 지수 감쇠 마스크 + 회전 위치 인코딩(xPos) 으로 대체하면 동일 연산이 병렬 행렬식 ↔ 순환식 양방향으로 수학적으로 등가 변환된다.
  • 이 등가성 덕분에 “학습은 병렬, 추론은 순환” 을 코드적으로 전환만 하면 된다 — 모델은 하나이지만 실행 모드는 세 가지.

방법 (Method)

프레임워크 개요

graph LR
    X[입력 X] --> MSR[Multi-Scale Retention]
    MSR -->|학습 시| PAR[Parallel Form<br/>QK⊤⊙D · V]
    MSR -->|추론 시| REC[Recurrent Form<br/>S_n = γ·S_{n-1} + K_n⊤V_n]
    MSR -->|긴 시퀀스 학습| CHK[Chunkwise Recurrent<br/>청크내 병렬 + 청크간 순환]
    PAR -.수학적 등가.-> REC
    REC -.수학적 등가.-> CHK
    CHK -.수학적 등가.-> PAR
    PAR --> GN[GroupNorm]
    REC --> GN
    CHK --> GN
    GN --> FFN[SwiGLU FFN]
    FFN --> Y[출력]

핵심 구성요소

  1. Retention 연산

    • 순환:
    • 병렬: ,
    • 청크: 청크 내부는 parallel, 청크 사이에는 누적 상태
  2. Multi-Scale Retention: head별 로 다양한 시간 스케일 확보.

  3. xPos 위치 인코딩: 복소수 회전 인코딩으로 에 상대적 위치 정보 주입.

  4. 블록: Retention → GroupNorm(swish gating) → SwiGLU FFN → Residual.


Key Equations (세 가지 등가 형태)

Recurrent Form (추론)

Parallel Form (학습)

Chunkwise Recurrent (긴 시퀀스 학습)

세 형태는 수학적으로 완전히 동등한 출력을 낸다.


발견 (Findings)

주요 결과

모델파라미터Val PPL ↓추론 지연 (8k) ↓GPU Mem ↓
Transformer6.7Bbaseline1.0x1.0x
RetNet6.7B≈ or ↓ (Table 2)~8.4x 빠름 (Fig. 6)~3.4x 절감 (Table 4)

핵심 발견

  • 파라미터 3B 이상에서 RetNet이 Transformer 대비 perplexity 스케일링 곡선에서 교차·역전 지점 관찰.
  • 추론 시 시퀀스 길이 증가에도 latency가 거의 평평 — KV-cache가 없기 때문.
  • 학습 시에도 chunkwise 덕분에 long-context에서 메모리 절감.

이론적 의의

Parallel-Recurrent Duality의 일반화

Retention은 “선형 재귀 + 감쇠 마스크” 구조를 일반 딥러닝 시퀀스 모델의 설계 원리로 승격시켰다. 이는 이후 Mamba의 selective SSM, GLA(Gated Linear Attention) 같은 모델이 공유하는 프레임의 선구적 정리에 해당한다.

불가능 삼각형의 반증 시도

“셋 중 둘만 가능” 이라는 암묵적 통념을 수식적으로 무너뜨린 사례로, 효율-성능 트레이드오프를 재설계할 여지를 보여준다.


재현성 및 신뢰도 평가

항목등급비고
코드 공개microsoft/torchscale 공개
데이터 공개⚠️학습 데이터는 사내 corpus 포함 가능성
하이퍼파라미터주요 설정 부록에 기재
실험 환경⚠️FlashAttention 대조 조건 불명확
통계적 신뢰도⚠️단일 run 위주, seed 분산 부족
종합 등급B핵심 수식·코드는 재현 가능, baseline 최적화 조건은 약함

주장별 신뢰도

#주장근거신뢰도
1세 형태가 수학적으로 등가논문 Sec. 2.3 유도🟢
26.7B에서 Transformer 동급 성능Table 2🟡 (baseline 조건 논란)
3추론 ~8.4x 빠르고 메모리 3.4x 절감Fig. 6, Table 4🟡 (FlashAttention 대조 부재)
4Multi-scale γ가 성능 기여Ablation Table 5🟢

읽기 난이도: ⭐⭐

선형 대수, softmax/attention, 복소수 회전 위치 인코딩(xPos), SSM 개념을 안다면 수월. Retention 수식 유도의 세 형태 등가 증명이 약간 조밀하다.


관련 연구 비교 매트릭스

RetNetLinear Transformer (Katharopoulos 2020)RWKV (Peng 2023)Mamba (Gu & Dao 2023)
핵심 접근감쇠 마스크 + xPos, 3-form 등가커널 로 softmax 근사Time-mix + channel-mix RNNSelective SSM (input-dependent)
문제 정의불가능 삼각형 동시 해결softmax 비용 제거Transformer-quality RNN긴 컨텍스트 선형 시간
데이터언어(수백B tokens)이미지·번역언어(대규모 코퍼스)언어/오디오/DNA
핵심 메트릭6.7B LM PPL + 추론 8.4x번역 BLEULM PPL 경쟁력LM PPL 우위, throughput
확장성6.7B 확인중간 규모14B까지2.8B+ 확인
한계softmax 표현력 손실성능 하락수렴/안정성 튜닝 필요병렬 학습에 복잡 scan 필요
코드 공개

관련 연구


원자적 인사이트 (Zettelkasten)

💡 Parallel-Recurrent Duality는 softmax 제거로부터 온다

출처: RetNet - Retentive Network - A Successor to Transformer for LLMs (Sun et al., 2023)
유형: 이론적

Attention의 softmax는 토큰 간 정규화를 강제해 연산을 “배치 내 전체” 형태로 묶어 놓는다. 이를 원소별 감쇠 마스크 로 교체하면, 같은 행렬식이 누적 상태 의 순환 전개와 엄밀히 같아진다. 즉 “정규화를 버리면 재귀 표현이 복원된다”.

핵심 조건/맥락: 인과 마스킹 + 시간 감쇠가 단조(monotone)여야 등가성이 유지됨.
연결: Mamba - Linear-Time Sequence Modeling with Selective State Spaces의 selective scan, Linear Attention의 kernel trick.
활용 가능성: 새로운 아키텍처 설계 시 “학습 병렬 ↔ 추론 순환” 이중 표현이 가능한지 먼저 점검하는 체크포인트가 된다.

💡 Multi-Scale Decay는 Multi-Head의 본래 의도를 시간축으로 확장한다

출처: RetNet - Retentive Network - A Successor to Transformer for LLMs (Sun et al., 2023)
유형: 방법론적

Transformer의 multi-head는 공간(특징)축에서 다양한 투영을 학습한다. RetNet의 MSR은 head마다 서로 다른 를 부여해 시간 척도의 다양성을 아키텍처에 내장한다. 짧은 의존성 head와 긴 의존성 head가 분리되어 해석 가능성과 안정성을 동시에 얻는다.

핵심 조건/맥락: γ 스케줄이 같이 광범위(broad)하게 분포할 때 효과적.
연결: Hyena의 implicit long-conv, S4의 HiPPO 초기화(시간 상수 분산).
활용 가능성: SSM/RNN 확장 시 head별 시간 상수를 스펙트럼으로 설계하는 원리로 재사용.

💡 Chunkwise Form은 “메모리 ↔ 병렬화” 트레이드오프의 손잡이다

출처: RetNet - Retentive Network - A Successor to Transformer for LLMs (Sun et al., 2023)
유형: 방법론적

Parallel form은 메모리 O(N²), Recurrent form은 병렬성 0. Chunkwise는 청크 길이 C를 손잡이로 두어 O(N·C) 메모리와 N/C 배 병렬성을 연속적으로 조절한다. 하드웨어 제약에 따라 같은 모델을 다른 실행 전략으로 배치할 수 있다는 점이 실무적 가치다.

핵심 조건/맥락: 청크 경계에서 상태를 정확히 전달해야 등가성 유지.
연결: FlashAttention의 tile 기반 재계산, Mamba의 parallel scan tiling.
활용 가능성: 커스텀 가속기·양자화 환경에서 C를 튜닝해 throughput 최적점 탐색.

💡 “불가능 삼각형”은 제약이 아니라 설계 프레이밍이다

출처: RetNet - Retentive Network - A Successor to Transformer for LLMs (Sun et al., 2023)
유형: 연결

“병렬·O(1)추론·성능 셋 중 둘” 이라는 관찰은 정리(theorem)가 아니라 경험적 관찰이다. RetNet은 softmax 제거라는 단일 가정 완화로 세 축을 동시에 건드릴 수 있음을 보인 사례로, 장차 제약을 재정의할 때 “어떤 암묵적 가정이 삼각형을 만들고 있는가?” 를 먼저 묻는 사고틀을 제공한다.

핵심 조건/맥락: softmax가 강한 구별력을 주던 문제에서는 여전히 성능 손실 가능.
연결: S4/Mamba, RWKV의 유사한 가정 완화.
활용 가능성: 새로운 효율화 제안 시 “암묵 가정 제거 → 제약 이완” 논증 패턴으로 재사용.


핵심 용어 정리

용어정의
Retentionsoftmax 없이 지수 감쇠 로 과거를 가중합하는 시퀀스 연산. 본 논문 핵심 연산
Parallel Form 형태의 행렬식 — 학습 시 GPU 병렬 처리에 적합
Recurrent Form 형태 — 추론 시 스텝 당 O(1)
Chunkwise Recurrent청크 내부는 parallel, 청크 사이는 recurrent — 긴 시퀀스 학습용 하이브리드
Multi-Scale Retention (MSR)head마다 다른 를 사용해 시간 척도를 다양화한 multi-head retention
Decay γ0<γ<1 의 시간 감쇠율, 과거 정보의 지수적 망각 속도
xPos복소수 회전에 감쇠를 결합한 상대적 위치 인코딩 (Sun et al. 2022)
Impossible Triangle학습 병렬성·O(1) 추론·강성능 3축을 동시에 만족하기 어렵다는 관찰적 제약
KV-cacheTransformer 추론 시 과거 Key/Value를 저장하는 캐시, 메모리 O(N) 병목의 원인
SSM (State-Space Model)상태 방정식 기반 시퀀스 모델(S4, Mamba 등), Retention과 구조적으로 친척

태그

paper #2023 attention retention retnet linear-attention efficient-llm sequence-model