RetNet — Transformer를 잇는 Retentive Network

Digest: 기존 시퀀스 모델은 학습 병렬성(training parallelism), 저비용 추론(O(1) inference), 강력한 성능(strong performance) 이 세 축을 동시에 만족하지 못하는 “불가능 삼각형(impossible triangle)” 문제를 가졌다 — Transformer는 병렬 학습·강한 성능을 얻지만 추론 시 KV-cache로 인해 메모리/지연이 시퀀스 길이에 선형 증가하고, Linear Attention·RNN 계열은 추론은 싸지만 성능 또는 병렬성이 떨어진다. RetNet의 통찰은 “softmax를 버리고 복소수 회전 위치 인코딩(xPos) + 지수 감쇠(exponential decay)로 근사하면, 동일한 연산을 병렬 형식과 순환 형식 두 가지로 정확히 같게 표현할 수 있다”는 점이다. 이로부터 Retention 연산을 세 등가 형태(Parallel: 학습용, Recurrent: O(1) 추론용, Chunkwise Recurrent: 긴 시퀀스 학습용)로 유도하고, 헤드마다 다른 감쇠율 γ를 쓰는 Multi-Scale Retention(MSR) 로 다층 구조를 구성한다. 6.7B 규모 실험에서 perplexity는 Transformer에 근접하거나 우수하고, 추론 지연은 시퀀스 길이에 대해 거의 일정(~8.4x 빠름, Fig. 6), 메모리는 KV-cache 대신 고정 크기 상태 S_n으로 3.4x 절감(Table 4) 되어 3요소를 모두 달성한다. 한계는 softmax 제거로 인해 매우 긴 의존성에서 표현력이 제약될 수 있고, 비교 대상이 FlashAttention 등 최적화된 Transformer 추론 스택과 완전 동일 조건이 아니며, 스케일업이 제한적이라는 점이다. 미해결 질문: xPos 감쇠 스케줄의 이론적 최적성, MoE·멀티모달 확장에서의 안정성, Mamba·RWKV 같은 후속 선형 시퀀스 모델 대비 장문 추론 품질의 실질 차이.

섹션별 요약

Introduction

배경: Transformer는 사실상의 백본이지만 O(N²) 학습 및 추론 시 KV-cache가 메모리 병목이 된다.
Motivation: Linear Transformer, Recurrent NN, S4 계열 등 여러 대안이 등장했지만 “학습 병렬성 + O(1) 추론 + 강성능”을 동시에 만족시키지 못하는 불가능 삼각형이 존재.
기여: ① Retention 메커니즘과 세 등가 형태의 수식적 정립, ② Multi-Scale Retention으로 다중 head 간 다양한 시간 척도 확보, ③ 2.7B/6.7B 규모에서 Transformer 대비 경쟁적 성능과 획기적 추론 효율 검증.

Methods

Retention 핵심 식: 순환 형태 $S_{n} = γ \cdot S_{n - 1} + K_{n}^{⊤} V_{n}$ , 출력 $o_{n} = Q_{n} S_{n}$ .
Parallel form: $Retention (X) = (Q K^{⊤} ⊙ D) V$ — 여기서 $D_{ij} = γ^{i - j}$ (i≥j), 0 (i<j). softmax 대신 원소별 감쇠 마스크.
Recurrent form: 위 순환식. 추론 시 상태 크기 $d \times d$ 로 고정 → O(1) 스텝.
Chunkwise Recurrent: 시퀀스를 청크로 나눠 청크 내부는 병렬, 청크 간은 순환으로 상태 전달 → 긴 컨텍스트 학습 효율화.
Multi-Scale Retention (MSR): 헤드 h에 $γ_{h} = 1 - 2^{- 5 - h}$ 형태로 다른 감쇠율 할당. 서로 다른 시간 스케일 포착.
블록 구조: MSR → GroupNorm → FFN (SwiGLU), xPos 위치 인코딩을 Q,K에 적용.

Results

언어모델링 perplexity: 6.7B 파라미터 RetNet이 Transformer baseline과 유사하거나 낮음 (Table 2).
Zero/few-shot 다운스트림 벤치마크에서 동급 Transformer에 대체로 매치.
추론 효율 (시퀀스 8k, 배치 8 기준 근사):

항목	Transformer (KV-cache)	RetNet	개선
디코딩 지연	증가 (O(N))	거의 일정	~8.4x 빠름 (Fig. 6)
GPU 메모리	KV-cache 누적	고정 상태	~3.4x 절감 (Table 4)
학습 throughput	1.0x	유사/우위	FlashAttention 미적용 기준

Discussion

한계: softmax 제거로 드물지만 날카로운 패턴(needle-in-haystack류) 포착이 약할 수 있음. 비교 baseline이 FlashAttention·PagedAttention 최신 스택과 완전 동일 조건은 아님.
향후: MoE 결합, 멀티모달 확장, 더 큰 스케일(>13B)에서의 검증.

Insights

주목할 점: 동일 연산을 병렬·순환 두 형태로 정확히 표현 가능하게 만든 수학적 재구성 — softmax 제거가 핵심 트릭.
연결 고리: Linear Attention(Katharopoulos 2020)의 $ϕ (Q) ϕ (K)^{⊤} V$ 분해, xPos(Sun 2022)의 상대적 위치 인코딩, S4/Mamba의 state-space recurrence 관점과 연결.
시사점: “Transformer의 성능 + RNN의 추론 비용” 조합은 softmax 없는 kernel form으로 달성 가능.
비판적 코멘트: 성능이 Transformer와 “동급” 수준이지 압도는 아니며, decay γ 스케줄이 해석적으로 정당화되진 않음.

Discussion Points

논쟁점: RetNet과 Mamba, RWKV 중 장문 의존성에서 누가 실제로 우수한가.
검증 필요 가정: Multi-scale γ의 고정 스케줄이 다양한 도메인에서 최적인가.
후속 연구: RetNet + MoE, 음성/비전 확장, in-context learning 품질 분석.

메타데이터

항목	내용
제목	Retentive Network: A Successor to Transformer for Large Language Models
저자	Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, Jilong Xue, Jianyong Wang, Furu Wei
소속	Microsoft Research Asia, Tsinghua University
연도	2023
발표	arXiv:2307.08621
링크	arXiv, GitHub
키워드	Retention, Linear Attention, Efficient LLM, xPos, Chunkwise Recurrent

왜 이 연구를 하는가?

핵심 질문

시퀀스 모델에서 학습 병렬성, O(1) 추론, Transformer 급 성능을 동시에 달성할 수 있는가?

기존 접근법의 한계

한계	설명
Transformer	학습 병렬/성능은 좋지만 추론 시 KV-cache가 O(N) 메모리, 지연도 증가
Linear Attention	추론 O(1) 가능하지만 softmax 근사 손실로 성능 저하
Recurrent Models(RNN/LSTM)	추론 O(1)이지만 학습 시 병렬화 불가, 장의존성 취약
S4/SSM	효율적이나 LLM 스케일 언어모델링에서 경쟁력 증명 초기 단계

핵심 통찰

softmax를 제거하고 지수 감쇠 마스크 + 회전 위치 인코딩(xPos) 으로 대체하면 동일 연산이 병렬 행렬식 ↔ 순환식 양방향으로 수학적으로 등가 변환된다.
이 등가성 덕분에 “학습은 병렬, 추론은 순환” 을 코드적으로 전환만 하면 된다 — 모델은 하나이지만 실행 모드는 세 가지.

방법 (Method)

프레임워크 개요

graph LR
    X[입력 X] --> MSR[Multi-Scale Retention]
    MSR -->|학습 시| PAR[Parallel Form<br/>QK⊤⊙D · V]
    MSR -->|추론 시| REC[Recurrent Form<br/>S_n = γ·S_{n-1} + K_n⊤V_n]
    MSR -->|긴 시퀀스 학습| CHK[Chunkwise Recurrent<br/>청크내 병렬 + 청크간 순환]
    PAR -.수학적 등가.-> REC
    REC -.수학적 등가.-> CHK
    CHK -.수학적 등가.-> PAR
    PAR --> GN[GroupNorm]
    REC --> GN
    CHK --> GN
    GN --> FFN[SwiGLU FFN]
    FFN --> Y[출력]

핵심 구성요소

Retention 연산
- 순환: $S_{n} = γ S_{n - 1} + K_{n}^{⊤} V_{n}, o_{n} = Q_{n} S_{n}$
- 병렬: $Retention (X) = (Q K^{⊤} ⊙ D) V$ , $D_{ij} = γ^{i - j} (i \geq j)$
- 청크: 청크 내부는 parallel, 청크 사이에는 누적 상태 $R_{i} = K_{i}^{⊤} V_{i} + γ^{chunk} R_{i - 1}$
Multi-Scale Retention: head별 $γ_{h} = 1 - 2^{- 5 - h}$ 로 다양한 시간 스케일 확보.
xPos 위치 인코딩: 복소수 회전 인코딩으로 $Q, K$ 에 상대적 위치 정보 주입.
블록: Retention → GroupNorm(swish gating) → SwiGLU FFN → Residual.

Key Equations (세 가지 등가 형태)

Recurrent Form (추론)
$S_{n} = γ \cdot S_{n - 1} + K_{n}^{⊤} V_{n}, o_{n} = Q_{n} S_{n}$

Parallel Form (학습)
$Retention (X) = (Q K^{⊤} ⊙ D) V, D_{ij} = {γ^{i - j} 0 i \geq j i < j$

Chunkwise Recurrent (긴 시퀀스 학습)
$inner: parallel (Q_{[i]} K_{[i]}^{⊤} ⊙ D) V_{[i]} + cross-chunk: recurrent (Q_{[i]} ⊙ ξ) R_{i - 1}$

세 형태는 수학적으로 완전히 동등한 출력을 낸다.

발견 (Findings)

주요 결과

모델	파라미터	Val PPL ↓	추론 지연 (8k) ↓	GPU Mem ↓
Transformer	6.7B	baseline	1.0x	1.0x
RetNet	6.7B	≈ or ↓ (Table 2)	~8.4x 빠름 (Fig. 6)	~3.4x 절감 (Table 4)

핵심 발견

파라미터 3B 이상에서 RetNet이 Transformer 대비 perplexity 스케일링 곡선에서 교차·역전 지점 관찰.
추론 시 시퀀스 길이 증가에도 latency가 거의 평평 — KV-cache가 없기 때문.
학습 시에도 chunkwise 덕분에 long-context에서 메모리 절감.

이론적 의의

Parallel-Recurrent Duality의 일반화

Retention은 “선형 재귀 + 감쇠 마스크” 구조를 일반 딥러닝 시퀀스 모델의 설계 원리로 승격시켰다. 이는 이후 Mamba의 selective SSM, GLA(Gated Linear Attention) 같은 모델이 공유하는 프레임의 선구적 정리에 해당한다.

불가능 삼각형의 반증 시도

“셋 중 둘만 가능” 이라는 암묵적 통념을 수식적으로 무너뜨린 사례로, 효율-성능 트레이드오프를 재설계할 여지를 보여준다.

재현성 및 신뢰도 평가

항목	등급	비고
코드 공개	✅	microsoft/torchscale 공개
데이터 공개	⚠️	학습 데이터는 사내 corpus 포함 가능성
하이퍼파라미터	✅	주요 설정 부록에 기재
실험 환경	⚠️	FlashAttention 대조 조건 불명확
통계적 신뢰도	⚠️	단일 run 위주, seed 분산 부족
종합 등급	B	핵심 수식·코드는 재현 가능, baseline 최적화 조건은 약함

주장별 신뢰도

#	주장	근거	신뢰도
1	세 형태가 수학적으로 등가	논문 Sec. 2.3 유도	🟢
2	6.7B에서 Transformer 동급 성능	Table 2	🟡 (baseline 조건 논란)
3	추론 ~8.4x 빠르고 메모리 3.4x 절감	Fig. 6, Table 4	🟡 (FlashAttention 대조 부재)
4	Multi-scale γ가 성능 기여	Ablation Table 5	🟢

읽기 난이도: ⭐⭐

선형 대수, softmax/attention, 복소수 회전 위치 인코딩(xPos), SSM 개념을 안다면 수월. Retention 수식 유도의 세 형태 등가 증명이 약간 조밀하다.

축	RetNet	Linear Transformer (Katharopoulos 2020)	RWKV (Peng 2023)	Mamba (Gu & Dao 2023)
핵심 접근	감쇠 마스크 + xPos, 3-form 등가	커널 $ϕ$ 로 softmax 근사	Time-mix + channel-mix RNN	Selective SSM (input-dependent)
문제 정의	불가능 삼각형 동시 해결	softmax 비용 제거	Transformer-quality RNN	긴 컨텍스트 선형 시간
데이터	언어(수백B tokens)	이미지·번역	언어(대규모 코퍼스)	언어/오디오/DNA
핵심 메트릭	6.7B LM PPL + 추론 8.4x	번역 BLEU	LM PPL 경쟁력	LM PPL 우위, throughput
확장성	6.7B 확인	중간 규모	14B까지	2.8B+ 확인
한계	softmax 표현력 손실	성능 하락	수렴/안정성 튜닝 필요	병렬 학습에 복잡 scan 필요
코드 공개	✅	✅	✅	✅

원자적 인사이트 (Zettelkasten)

💡 Parallel-Recurrent Duality는 softmax 제거로부터 온다

출처: RetNet - Retentive Network - A Successor to Transformer for LLMs (Sun et al., 2023)
유형: 이론적

Attention의 softmax는 토큰 간 정규화를 강제해 연산을 “배치 내 전체” 형태로 묶어 놓는다. 이를 원소별 감쇠 마스크 $D_{ij} = γ^{i - j}$ 로 교체하면, 같은 행렬식이 누적 상태 $S_{n} = γ S_{n - 1} + K_{n}^{⊤} V_{n}$ 의 순환 전개와 엄밀히 같아진다. 즉 “정규화를 버리면 재귀 표현이 복원된다”.

핵심 조건/맥락: 인과 마스킹 + 시간 감쇠가 단조(monotone)여야 등가성이 유지됨.
연결: Mamba - Linear-Time Sequence Modeling with Selective State Spaces의 selective scan, Linear Attention의 kernel trick.
활용 가능성: 새로운 아키텍처 설계 시 “학습 병렬 ↔ 추론 순환” 이중 표현이 가능한지 먼저 점검하는 체크포인트가 된다.

💡 Multi-Scale Decay는 Multi-Head의 본래 의도를 시간축으로 확장한다

출처: RetNet - Retentive Network - A Successor to Transformer for LLMs (Sun et al., 2023)
유형: 방법론적

Transformer의 multi-head는 공간(특징)축에서 다양한 투영을 학습한다. RetNet의 MSR은 head마다 서로 다른 $γ_{h}$ 를 부여해 시간 척도의 다양성을 아키텍처에 내장한다. 짧은 의존성 head와 긴 의존성 head가 분리되어 해석 가능성과 안정성을 동시에 얻는다.

핵심 조건/맥락: γ 스케줄이 $1 - 2^{- 5 - h}$ 같이 광범위(broad)하게 분포할 때 효과적.
연결: Hyena의 implicit long-conv, S4의 HiPPO 초기화(시간 상수 분산).
활용 가능성: SSM/RNN 확장 시 head별 시간 상수를 스펙트럼으로 설계하는 원리로 재사용.

💡 Chunkwise Form은 “메모리 ↔ 병렬화” 트레이드오프의 손잡이다

출처: RetNet - Retentive Network - A Successor to Transformer for LLMs (Sun et al., 2023)
유형: 방법론적

Parallel form은 메모리 O(N²), Recurrent form은 병렬성 0. Chunkwise는 청크 길이 C를 손잡이로 두어 O(N·C) 메모리와 N/C 배 병렬성을 연속적으로 조절한다. 하드웨어 제약에 따라 같은 모델을 다른 실행 전략으로 배치할 수 있다는 점이 실무적 가치다.

핵심 조건/맥락: 청크 경계에서 상태를 정확히 전달해야 등가성 유지.
연결: FlashAttention의 tile 기반 재계산, Mamba의 parallel scan tiling.
활용 가능성: 커스텀 가속기·양자화 환경에서 C를 튜닝해 throughput 최적점 탐색.

💡 “불가능 삼각형”은 제약이 아니라 설계 프레이밍이다

출처: RetNet - Retentive Network - A Successor to Transformer for LLMs (Sun et al., 2023)
유형: 연결

“병렬·O(1)추론·성능 셋 중 둘” 이라는 관찰은 정리(theorem)가 아니라 경험적 관찰이다. RetNet은 softmax 제거라는 단일 가정 완화로 세 축을 동시에 건드릴 수 있음을 보인 사례로, 장차 제약을 재정의할 때 “어떤 암묵적 가정이 삼각형을 만들고 있는가?” 를 먼저 묻는 사고틀을 제공한다.

핵심 조건/맥락: softmax가 강한 구별력을 주던 문제에서는 여전히 성능 손실 가능.
연결: S4/Mamba, RWKV의 유사한 가정 완화.
활용 가능성: 새로운 효율화 제안 시 “암묵 가정 제거 → 제약 이완” 논증 패턴으로 재사용.

핵심 용어 정리

용어	정의
Retention	softmax 없이 지수 감쇠 $γ^{i - j}$ 로 과거를 가중합하는 시퀀스 연산. 본 논문 핵심 연산
Parallel Form	$(Q K^{⊤} ⊙ D) V$ 형태의 행렬식 — 학습 시 GPU 병렬 처리에 적합
Recurrent Form	$S_{n} = γ S_{n - 1} + K_{n}^{⊤} V_{n}$ 형태 — 추론 시 스텝 당 O(1)
Chunkwise Recurrent	청크 내부는 parallel, 청크 사이는 recurrent — 긴 시퀀스 학습용 하이브리드
Multi-Scale Retention (MSR)	head마다 다른 $γ_{h}$ 를 사용해 시간 척도를 다양화한 multi-head retention
Decay γ	0<γ<1 의 시간 감쇠율, 과거 정보의 지수적 망각 속도
xPos	복소수 회전에 감쇠를 결합한 상대적 위치 인코딩 (Sun et al. 2022)
Impossible Triangle	학습 병렬성·O(1) 추론·강성능 3축을 동시에 만족하기 어렵다는 관찰적 제약
KV-cache	Transformer 추론 시 과거 Key/Value를 저장하는 캐시, 메모리 O(N) 병목의 원인
SSM (State-Space Model)	상태 방정식 기반 시퀀스 모델(S4, Mamba 등), Retention과 구조적으로 친척

RetNet - Retentive Network - A Successor to Transformer for LLMs

RetNet — Transformer를 잇는 Retentive Network

섹션별 요약

Introduction

Methods

Results

Discussion

Insights

Discussion Points

메타데이터

왜 이 연구를 하는가?

핵심 질문

기존 접근법의 한계

핵심 통찰

방법 (Method)

프레임워크 개요

핵심 구성요소

Key Equations (세 가지 등가 형태)

발견 (Findings)

주요 결과

핵심 발견

이론적 의의

Parallel-Recurrent Duality의 일반화

불가능 삼각형의 반증 시도

재현성 및 신뢰도 평가

주장별 신뢰도

읽기 난이도: ⭐⭐

관련 연구 비교 매트릭스

관련 연구

원자적 인사이트 (Zettelkasten)

💡 Parallel-Recurrent Duality는 softmax 제거로부터 온다

💡 Multi-Scale Decay는 Multi-Head의 본래 의도를 시간축으로 확장한다

💡 Chunkwise Form은 “메모리 ↔ 병렬화” 트레이드오프의 손잡이다

💡 “불가능 삼각형”은 제약이 아니라 설계 프레이밍이다

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크