RetNet — Transformer를 잇는 Retentive Network
Digest: 기존 시퀀스 모델은 학습 병렬성(training parallelism), 저비용 추론(O(1) inference), 강력한 성능(strong performance) 이 세 축을 동시에 만족하지 못하는 “불가능 삼각형(impossible triangle)” 문제를 가졌다 — Transformer는 병렬 학습·강한 성능을 얻지만 추론 시 KV-cache로 인해 메모리/지연이 시퀀스 길이에 선형 증가하고, Linear Attention·RNN 계열은 추론은 싸지만 성능 또는 병렬성이 떨어진다. RetNet의 통찰은 “softmax를 버리고 복소수 회전 위치 인코딩(xPos) + 지수 감쇠(exponential decay)로 근사하면, 동일한 연산을 병렬 형식과 순환 형식 두 가지로 정확히 같게 표현할 수 있다”는 점이다. 이로부터 Retention 연산을 세 등가 형태(Parallel: 학습용, Recurrent: O(1) 추론용, Chunkwise Recurrent: 긴 시퀀스 학습용)로 유도하고, 헤드마다 다른 감쇠율 γ를 쓰는 Multi-Scale Retention(MSR) 로 다층 구조를 구성한다. 6.7B 규모 실험에서 perplexity는 Transformer에 근접하거나 우수하고, 추론 지연은 시퀀스 길이에 대해 거의 일정(~8.4x 빠름, Fig. 6), 메모리는 KV-cache 대신 고정 크기 상태 S_n으로 3.4x 절감(Table 4) 되어 3요소를 모두 달성한다. 한계는 softmax 제거로 인해 매우 긴 의존성에서 표현력이 제약될 수 있고, 비교 대상이 FlashAttention 등 최적화된 Transformer 추론 스택과 완전 동일 조건이 아니며, 스케일업이 제한적이라는 점이다. 미해결 질문: xPos 감쇠 스케줄의 이론적 최적성, MoE·멀티모달 확장에서의 안정성, Mamba·RWKV 같은 후속 선형 시퀀스 모델 대비 장문 추론 품질의 실질 차이.
섹션별 요약
Introduction
- 배경: Transformer는 사실상의 백본이지만 O(N²) 학습 및 추론 시 KV-cache가 메모리 병목이 된다.
- Motivation: Linear Transformer, Recurrent NN, S4 계열 등 여러 대안이 등장했지만 “학습 병렬성 + O(1) 추론 + 강성능”을 동시에 만족시키지 못하는 불가능 삼각형이 존재.
- 기여: ① Retention 메커니즘과 세 등가 형태의 수식적 정립, ② Multi-Scale Retention으로 다중 head 간 다양한 시간 척도 확보, ③ 2.7B/6.7B 규모에서 Transformer 대비 경쟁적 성능과 획기적 추론 효율 검증.
Methods
- Retention 핵심 식: 순환 형태 , 출력 .
- Parallel form: — 여기서 (i≥j), 0 (i<j). softmax 대신 원소별 감쇠 마스크.
- Recurrent form: 위 순환식. 추론 시 상태 크기 로 고정 → O(1) 스텝.
- Chunkwise Recurrent: 시퀀스를 청크로 나눠 청크 내부는 병렬, 청크 간은 순환으로 상태 전달 → 긴 컨텍스트 학습 효율화.
- Multi-Scale Retention (MSR): 헤드 h에 형태로 다른 감쇠율 할당. 서로 다른 시간 스케일 포착.
- 블록 구조: MSR → GroupNorm → FFN (SwiGLU), xPos 위치 인코딩을 Q,K에 적용.
Results
- 언어모델링 perplexity: 6.7B 파라미터 RetNet이 Transformer baseline과 유사하거나 낮음 (Table 2).
- Zero/few-shot 다운스트림 벤치마크에서 동급 Transformer에 대체로 매치.
- 추론 효율 (시퀀스 8k, 배치 8 기준 근사):
| 항목 | Transformer (KV-cache) | RetNet | 개선 |
|---|---|---|---|
| 디코딩 지연 | 증가 (O(N)) | 거의 일정 | ~8.4x 빠름 (Fig. 6) |
| GPU 메모리 | KV-cache 누적 | 고정 상태 | ~3.4x 절감 (Table 4) |
| 학습 throughput | 1.0x | 유사/우위 | FlashAttention 미적용 기준 |
Discussion
- 한계: softmax 제거로 드물지만 날카로운 패턴(needle-in-haystack류) 포착이 약할 수 있음. 비교 baseline이 FlashAttention·PagedAttention 최신 스택과 완전 동일 조건은 아님.
- 향후: MoE 결합, 멀티모달 확장, 더 큰 스케일(>13B)에서의 검증.
Insights
- 주목할 점: 동일 연산을 병렬·순환 두 형태로 정확히 표현 가능하게 만든 수학적 재구성 — softmax 제거가 핵심 트릭.
- 연결 고리: Linear Attention(Katharopoulos 2020)의 분해, xPos(Sun 2022)의 상대적 위치 인코딩, S4/Mamba의 state-space recurrence 관점과 연결.
- 시사점: “Transformer의 성능 + RNN의 추론 비용” 조합은 softmax 없는 kernel form으로 달성 가능.
- 비판적 코멘트: 성능이 Transformer와 “동급” 수준이지 압도는 아니며, decay γ 스케줄이 해석적으로 정당화되진 않음.
Discussion Points
- 논쟁점: RetNet과 Mamba, RWKV 중 장문 의존성에서 누가 실제로 우수한가.
- 검증 필요 가정: Multi-scale γ의 고정 스케줄이 다양한 도메인에서 최적인가.
- 후속 연구: RetNet + MoE, 음성/비전 확장, in-context learning 품질 분석.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | Retentive Network: A Successor to Transformer for Large Language Models |
| 저자 | Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, Jilong Xue, Jianyong Wang, Furu Wei |
| 소속 | Microsoft Research Asia, Tsinghua University |
| 연도 | 2023 |
| 발표 | arXiv:2307.08621 |
| 링크 | arXiv, GitHub |
| 키워드 | Retention, Linear Attention, Efficient LLM, xPos, Chunkwise Recurrent |
왜 이 연구를 하는가?
핵심 질문
시퀀스 모델에서 학습 병렬성, O(1) 추론, Transformer 급 성능을 동시에 달성할 수 있는가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| Transformer | 학습 병렬/성능은 좋지만 추론 시 KV-cache가 O(N) 메모리, 지연도 증가 |
| Linear Attention | 추론 O(1) 가능하지만 softmax 근사 손실로 성능 저하 |
| Recurrent Models(RNN/LSTM) | 추론 O(1)이지만 학습 시 병렬화 불가, 장의존성 취약 |
| S4/SSM | 효율적이나 LLM 스케일 언어모델링에서 경쟁력 증명 초기 단계 |
핵심 통찰
- softmax를 제거하고 지수 감쇠 마스크 + 회전 위치 인코딩(xPos) 으로 대체하면 동일 연산이 병렬 행렬식 ↔ 순환식 양방향으로 수학적으로 등가 변환된다.
- 이 등가성 덕분에 “학습은 병렬, 추론은 순환” 을 코드적으로 전환만 하면 된다 — 모델은 하나이지만 실행 모드는 세 가지.
방법 (Method)
프레임워크 개요
graph LR X[입력 X] --> MSR[Multi-Scale Retention] MSR -->|학습 시| PAR[Parallel Form<br/>QK⊤⊙D · V] MSR -->|추론 시| REC[Recurrent Form<br/>S_n = γ·S_{n-1} + K_n⊤V_n] MSR -->|긴 시퀀스 학습| CHK[Chunkwise Recurrent<br/>청크내 병렬 + 청크간 순환] PAR -.수학적 등가.-> REC REC -.수학적 등가.-> CHK CHK -.수학적 등가.-> PAR PAR --> GN[GroupNorm] REC --> GN CHK --> GN GN --> FFN[SwiGLU FFN] FFN --> Y[출력]
핵심 구성요소
-
Retention 연산
- 순환:
- 병렬: ,
- 청크: 청크 내부는 parallel, 청크 사이에는 누적 상태
-
Multi-Scale Retention: head별 로 다양한 시간 스케일 확보.
-
xPos 위치 인코딩: 복소수 회전 인코딩으로 에 상대적 위치 정보 주입.
-
블록: Retention → GroupNorm(swish gating) → SwiGLU FFN → Residual.
Key Equations (세 가지 등가 형태)
Recurrent Form (추론)
Parallel Form (학습)
Chunkwise Recurrent (긴 시퀀스 학습)
세 형태는 수학적으로 완전히 동등한 출력을 낸다.
발견 (Findings)
주요 결과
| 모델 | 파라미터 | Val PPL ↓ | 추론 지연 (8k) ↓ | GPU Mem ↓ |
|---|---|---|---|---|
| Transformer | 6.7B | baseline | 1.0x | 1.0x |
| RetNet | 6.7B | ≈ or ↓ (Table 2) | ~8.4x 빠름 (Fig. 6) | ~3.4x 절감 (Table 4) |
핵심 발견
- 파라미터 3B 이상에서 RetNet이 Transformer 대비 perplexity 스케일링 곡선에서 교차·역전 지점 관찰.
- 추론 시 시퀀스 길이 증가에도 latency가 거의 평평 — KV-cache가 없기 때문.
- 학습 시에도 chunkwise 덕분에 long-context에서 메모리 절감.
이론적 의의
Parallel-Recurrent Duality의 일반화
Retention은 “선형 재귀 + 감쇠 마스크” 구조를 일반 딥러닝 시퀀스 모델의 설계 원리로 승격시켰다. 이는 이후 Mamba의 selective SSM, GLA(Gated Linear Attention) 같은 모델이 공유하는 프레임의 선구적 정리에 해당한다.
불가능 삼각형의 반증 시도
“셋 중 둘만 가능” 이라는 암묵적 통념을 수식적으로 무너뜨린 사례로, 효율-성능 트레이드오프를 재설계할 여지를 보여준다.
재현성 및 신뢰도 평가
| 항목 | 등급 | 비고 |
|---|---|---|
| 코드 공개 | ✅ | microsoft/torchscale 공개 |
| 데이터 공개 | ⚠️ | 학습 데이터는 사내 corpus 포함 가능성 |
| 하이퍼파라미터 | ✅ | 주요 설정 부록에 기재 |
| 실험 환경 | ⚠️ | FlashAttention 대조 조건 불명확 |
| 통계적 신뢰도 | ⚠️ | 단일 run 위주, seed 분산 부족 |
| 종합 등급 | B | 핵심 수식·코드는 재현 가능, baseline 최적화 조건은 약함 |
주장별 신뢰도
| # | 주장 | 근거 | 신뢰도 |
|---|---|---|---|
| 1 | 세 형태가 수학적으로 등가 | 논문 Sec. 2.3 유도 | 🟢 |
| 2 | 6.7B에서 Transformer 동급 성능 | Table 2 | 🟡 (baseline 조건 논란) |
| 3 | 추론 ~8.4x 빠르고 메모리 3.4x 절감 | Fig. 6, Table 4 | 🟡 (FlashAttention 대조 부재) |
| 4 | Multi-scale γ가 성능 기여 | Ablation Table 5 | 🟢 |
읽기 난이도: ⭐⭐
선형 대수, softmax/attention, 복소수 회전 위치 인코딩(xPos), SSM 개념을 안다면 수월. Retention 수식 유도의 세 형태 등가 증명이 약간 조밀하다.
관련 연구 비교 매트릭스
| 축 | RetNet | Linear Transformer (Katharopoulos 2020) | RWKV (Peng 2023) | Mamba (Gu & Dao 2023) |
|---|---|---|---|---|
| 핵심 접근 | 감쇠 마스크 + xPos, 3-form 등가 | 커널 로 softmax 근사 | Time-mix + channel-mix RNN | Selective SSM (input-dependent) |
| 문제 정의 | 불가능 삼각형 동시 해결 | softmax 비용 제거 | Transformer-quality RNN | 긴 컨텍스트 선형 시간 |
| 데이터 | 언어(수백B tokens) | 이미지·번역 | 언어(대규모 코퍼스) | 언어/오디오/DNA |
| 핵심 메트릭 | 6.7B LM PPL + 추론 8.4x | 번역 BLEU | LM PPL 경쟁력 | LM PPL 우위, throughput |
| 확장성 | 6.7B 확인 | 중간 규모 | 14B까지 | 2.8B+ 확인 |
| 한계 | softmax 표현력 손실 | 성능 하락 | 수렴/안정성 튜닝 필요 | 병렬 학습에 복잡 scan 필요 |
| 코드 공개 | ✅ | ✅ | ✅ | ✅ |
관련 연구
- Mamba - Linear-Time Sequence Modeling with Selective State Spaces — 동일한 “선형 재귀 + 학습 병렬화” 패러다임을 selective SSM으로 확장
- Attention Methods — Attention 계열 전반의 개요 허브
- GQA - Training Generalized Multi-Query Transformer Models — Transformer 측 추론 효율 개선 접근(같은 문제를 다른 방식으로)
원자적 인사이트 (Zettelkasten)
💡 Parallel-Recurrent Duality는 softmax 제거로부터 온다
출처: RetNet - Retentive Network - A Successor to Transformer for LLMs (Sun et al., 2023)
유형: 이론적
Attention의 softmax는 토큰 간 정규화를 강제해 연산을 “배치 내 전체” 형태로 묶어 놓는다. 이를 원소별 감쇠 마스크 로 교체하면, 같은 행렬식이 누적 상태 의 순환 전개와 엄밀히 같아진다. 즉 “정규화를 버리면 재귀 표현이 복원된다”.
핵심 조건/맥락: 인과 마스킹 + 시간 감쇠가 단조(monotone)여야 등가성이 유지됨.
연결: Mamba - Linear-Time Sequence Modeling with Selective State Spaces의 selective scan, Linear Attention의 kernel trick.
활용 가능성: 새로운 아키텍처 설계 시 “학습 병렬 ↔ 추론 순환” 이중 표현이 가능한지 먼저 점검하는 체크포인트가 된다.
💡 Multi-Scale Decay는 Multi-Head의 본래 의도를 시간축으로 확장한다
출처: RetNet - Retentive Network - A Successor to Transformer for LLMs (Sun et al., 2023)
유형: 방법론적
Transformer의 multi-head는 공간(특징)축에서 다양한 투영을 학습한다. RetNet의 MSR은 head마다 서로 다른 를 부여해 시간 척도의 다양성을 아키텍처에 내장한다. 짧은 의존성 head와 긴 의존성 head가 분리되어 해석 가능성과 안정성을 동시에 얻는다.
핵심 조건/맥락: γ 스케줄이 같이 광범위(broad)하게 분포할 때 효과적.
연결: Hyena의 implicit long-conv, S4의 HiPPO 초기화(시간 상수 분산).
활용 가능성: SSM/RNN 확장 시 head별 시간 상수를 스펙트럼으로 설계하는 원리로 재사용.
💡 Chunkwise Form은 “메모리 ↔ 병렬화” 트레이드오프의 손잡이다
출처: RetNet - Retentive Network - A Successor to Transformer for LLMs (Sun et al., 2023)
유형: 방법론적
Parallel form은 메모리 O(N²), Recurrent form은 병렬성 0. Chunkwise는 청크 길이 C를 손잡이로 두어 O(N·C) 메모리와 N/C 배 병렬성을 연속적으로 조절한다. 하드웨어 제약에 따라 같은 모델을 다른 실행 전략으로 배치할 수 있다는 점이 실무적 가치다.
핵심 조건/맥락: 청크 경계에서 상태를 정확히 전달해야 등가성 유지.
연결: FlashAttention의 tile 기반 재계산, Mamba의 parallel scan tiling.
활용 가능성: 커스텀 가속기·양자화 환경에서 C를 튜닝해 throughput 최적점 탐색.
💡 “불가능 삼각형”은 제약이 아니라 설계 프레이밍이다
출처: RetNet - Retentive Network - A Successor to Transformer for LLMs (Sun et al., 2023)
유형: 연결
“병렬·O(1)추론·성능 셋 중 둘” 이라는 관찰은 정리(theorem)가 아니라 경험적 관찰이다. RetNet은 softmax 제거라는 단일 가정 완화로 세 축을 동시에 건드릴 수 있음을 보인 사례로, 장차 제약을 재정의할 때 “어떤 암묵적 가정이 삼각형을 만들고 있는가?” 를 먼저 묻는 사고틀을 제공한다.
핵심 조건/맥락: softmax가 강한 구별력을 주던 문제에서는 여전히 성능 손실 가능.
연결: S4/Mamba, RWKV의 유사한 가정 완화.
활용 가능성: 새로운 효율화 제안 시 “암묵 가정 제거 → 제약 이완” 논증 패턴으로 재사용.
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| Retention | softmax 없이 지수 감쇠 로 과거를 가중합하는 시퀀스 연산. 본 논문 핵심 연산 |
| Parallel Form | 형태의 행렬식 — 학습 시 GPU 병렬 처리에 적합 |
| Recurrent Form | 형태 — 추론 시 스텝 당 O(1) |
| Chunkwise Recurrent | 청크 내부는 parallel, 청크 사이는 recurrent — 긴 시퀀스 학습용 하이브리드 |
| Multi-Scale Retention (MSR) | head마다 다른 를 사용해 시간 척도를 다양화한 multi-head retention |
| Decay γ | 0<γ<1 의 시간 감쇠율, 과거 정보의 지수적 망각 속도 |
| xPos | 복소수 회전에 감쇠를 결합한 상대적 위치 인코딩 (Sun et al. 2022) |
| Impossible Triangle | 학습 병렬성·O(1) 추론·강성능 3축을 동시에 만족하기 어렵다는 관찰적 제약 |
| KV-cache | Transformer 추론 시 과거 Key/Value를 저장하는 캐시, 메모리 O(N) 병목의 원인 |
| SSM (State-Space Model) | 상태 방정식 기반 시퀀스 모델(S4, Mamba 등), Retention과 구조적으로 친척 |
태그
paper #2023 attention retention retnet linear-attention efficient-llm sequence-model