Transformers은 RNN이다 — 선형 어텐션으로 빠른 Autoregressive Transformer 만들기
Digest: 표준 Transformer의 softmax self-attention(쿼리-키 유사도에 softmax를 취해 값을 가중 평균)은 시퀀스 길이 N에 대해 O(N²) 메모리/계산을 요구해 긴 문맥과 autoregressive 생성에서 치명적이다. 저자들은 softmax 유사도 를 양의 커널 (특성 맵 φ 사용, 논문은
elu(x)+1제안)로 대체하면 분자가 로 재결합(associativity) 되어 로 떨어진다는 핵심 통찰을 제시한다. 더 나아가 causal(autoregressive) 어텐션의 누적합 구조를 풀어 쓰면 숨은 상태 , 의 RNN 재귀식과 일치함을 증명한다 — 즉 Transformer는 특정 특성 맵을 가진 RNN의 일반화다. 이로써 autoregressive 추론이 토큰당 O(1)(선형 전체 O(N))로 가능해지며, 이미지(CIFAR-10 pixel-level 생성) 및 자동 음성 인식(Speech) 실험에서 softmax Transformer 대비 4000배 이상 빠른 생성(MNIST 이미지 생성 기준, Table 1)을 비슷한 품질로 달성한다. Limitations: 특성 맵 φ 선택이 ad-hoc(elu+1은 positivity 보장용 휴리스틱)이고, softmax의 날카로운 선택성(sharp selection)을 근사하기엔 표현력이 부족해 일부 태스크에서 품질 저하가 있다. Open Questions: 더 나은 φ(Performer의 random features, cosFormer 등 후속)와, RNN 관점이 시사하는 meta-learning/state-space 모델(Mamba, RetNet, RWKV)과의 통합.
섹션별 요약
Introduction
- Transformer의 self-attention은 시퀀스 길이 N의 제곱에 비례하는 시간·메모리 복잡도를 가져 긴 문서·이미지 픽셀·음성 같은 장기 시퀀스에 부적합.
- Autoregressive 생성에서는 매 스텝마다 과거 전체를 재어텐션하기 때문에 total inference가 O(N²)이 되어 RNN 대비 수천 배 느림.
- 기여: (1) softmax를 임의의 양의 커널로 일반화, (2) 행렬곱 결합법칙으로 O(N·d²) 선형 어텐션 유도, (3) causal 마스킹을 누적합으로 처리해 Transformer = RNN 등가성 증명.
Methods
- 일반화된 어텐션 정의: . softmax는 인 특수 케이스.
- 커널 특성 맵 도입: 로 두면 합산 순서를 교환 가능. 논문은 사용(양수 보장, 계산 저렴).
- Associativity trick: 순서로 계산 — 는 행렬이라 N에 무관.
- Causal masking: 하삼각 마스크를 누적합으로 변환. , 로 두면 .
- RNN view: 위 누적합을 재귀식 , 로 읽으면 숨은 상태가 있는 RNN. 추론 시 토큰당 O(d²).
- 학습: causal의 누적합은 custom CUDA kernel로 선형 시간 병렬 backward 지원.
Complexity Analysis
- Softmax attention: 학습/추론 모두 O(N²·d), 메모리 O(N²).
- Linear attention: 학습 O(N·d²), 메모리 O(N·d) (또는 O(d²) 상태).
- Autoregressive 추론: softmax는 총 O(N²·d), linear는 총 O(N·d²) — d가 고정이면 N 선형.
Results
| 태스크 | 모델 | 메트릭 | 결과 | 비교 |
|---|---|---|---|---|
| MNIST 이미지 생성 (autoreg.) | Linear Transformer | bits/dim / 속도 | 비슷한 품질, ~4000× 빠른 생성 | vs softmax Transformer (Table 1) |
| CIFAR-10 pixel-level 생성 | Linear Transformer | bits/dim | softmax와 근접 | Reformer 대비 유리 |
| Speech (음성인식, WSJ) | Linear Transformer | PER | biLSTM과 유사, softmax보다 빠름 | Table 2 |
Discussion
- 한계: φ=elu+1은 휴리스틱 — softmax의 sharp distribution을 근사하기에 표현력이 제한적. 일부 태스크(WMT14 번역 등)에서 품질 gap 존재.
- 향후: 더 나은 특성 맵(이후 Performer의 FAVOR+, cosFormer의 cos 기반), 학습된 φ, RNN 관점을 활용한 state-space 하이브리드.
Insights
- 주목할 점: softmax의 “필수성”을 깨뜨린 첫 clean한 증명 — 어떤 양의 커널도 가능.
- 연결 고리: Performer(2020), RetNet(2023), RWKV(2023), Mamba(2023)의 linear attention family 선조.
- 시사점: Transformer와 RNN의 이분법은 허상 — 표현력(병렬성) vs 효율성(재귀) trade-off에서 φ가 다이얼 역할.
- 비판적 코멘트: 속도 이득은 명확하나 언어 모델링 품질 저하는 후속 연구(Performer, RFA)에서 비로소 부분 해결.
Discussion Points
- 논쟁점: softmax의 sharp selection이 본질적으로 필요한가 vs 단순 계산 아티팩트인가?
- 검증 필요 가정: 일반적인 Transformer 태스크에서도 linear attention이 충분한가? (Long Range Arena에서는 혼재된 결과)
- 후속 연구: Choromanski+ (Performer, 2020), Peng+ (Random Feature Attention, 2021), Sun+ (RetNet, 2023).
왜 이 연구를 하는가?
핵심 질문
Transformer의 softmax self-attention을 수학적으로 다시 써서, 시퀀스 길이 N에 대해 선형 시간/메모리로 동작하면서 autoregressive 추론은 RNN처럼 상수 시간 상태 갱신으로 할 수 있는가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| O(N²) complexity | softmax가 전체 N×N 유사도 행렬을 요구 |
| Autoregressive 생성 O(N²) | 매 토큰마다 과거 K,V 전체 재계산·재어텐션 |
| Sparse/low-rank 근사의 trade-off | Reformer(LSH), Sparse Transformer는 구현 복잡·근사 오차 |
| RNN과의 단절 | Transformer와 RNN이 서로 다른 패러다임으로 취급 |
핵심 통찰
- softmax는 양의 유사도 커널의 특수 케이스일 뿐 — 일반 커널 로 바꾸면 행렬곱 결합법칙을 쓸 수 있다.
- Causal 마스킹은 prefix sum으로 풀리며, prefix sum은 재귀식 = RNN이다.
방법 (Method)
프레임워크 개요 — softmax vs linear attention
flowchart TB subgraph Softmax["Softmax Attention — O(N²·d)"] Q1[Q: N×d] --> QK[Q·Kᵀ: N×N] K1[K: N×d] --> QK QK --> SM[softmax: N×N] SM --> AV[·V: N×d] V1[V: N×d] --> AV AV --> Out1[출력 N×d] end subgraph Linear["Linear Attention — O(N·d²)"] Q2[φ(Q): N×d] --> QS[φ(Q) · S] K2[φ(K): N×d] --> KV[φ(K)ᵀ · V: d×d] V2[V: N×d] --> KV KV --> S[S = φ(K)ᵀV] S --> QS QS --> Out2[출력 N×d] end Softmax -.재결합.-> Linear
핵심 구성요소
1) 특성 맵 φ
2) 비-causal 선형 어텐션 (재결합)
3) Causal 선형 어텐션 (누적합)
4) RNN 재귀식 (Transformer = RNN)
→ 상태 , 만 유지. 토큰당 O(d²).
발견 (Findings)
주요 결과
| 태스크 | 모델 | 품질 | 속도/메모리 |
|---|---|---|---|
| MNIST gen. | softmax Transformer | bpd 기준선 | 1× |
| MNIST gen. | Reformer | 근접 | ~수배 개선 |
| MNIST gen. | Linear Transformer | 근접 bpd | ~4000× 빠른 생성 (Table 1) |
| CIFAR-10 gen. | Linear Transformer | softmax와 유사 | N에 선형 |
| Speech (WSJ) | Linear Transformer | biLSTM급 PER | softmax보다 빠름 (Table 2) |
핵심 발견
- Autoregressive 생성 속도의 질적 변화: O(N²)→O(N)으로 긴 시퀀스에서 3-4 orders of magnitude 가속.
- 품질 유지: 이미지/음성에서는 softmax와 대등. 반면 번역 같은 sharp-selection 태스크는 gap 존재.
- RNN 관점의 위력: 학습은 병렬(prefix-sum kernel), 추론은 재귀 — 두 패러다임의 장점 결합.
이론적 의의
Transformer와 RNN의 통일
self-attention이 특정 커널을 가진 RNN의 일반화라는 점을 수식으로 보였다. 이후 RetNet·RWKV·Mamba 등 “Transformer-RNN 하이브리드”의 이론적 출발점이 된다.
커널 관점의 어텐션
어텐션을 양의 definite 커널로 재해석함으로써, Nyström·random feature·orthogonal projection 등 커널 문헌의 도구를 attention에 적용할 문을 열었다(Performer의 FAVOR+가 직접적 계승).
Prefix-sum 병렬성
causal attention의 누적합 구조는 scan/prefix-sum 알고리즘의 병렬성을 공유 — 이후 state-space model(S4, Mamba)의 selective scan과 직접 연결된다.
재현성 및 신뢰도 평가
| 항목 | 등급 | 비고 |
|---|---|---|
| 코드 공개 | ✅ | fast-transformers 공식 라이브러리 |
| 데이터 공개 | ✅ | MNIST/CIFAR-10/WSJ 표준 벤치 |
| 하이퍼파라미터 | ✅ | 부록에 layer/head/lr 명시 |
| 실험 환경 | ⚠️ | GPU 종류는 있으나 seed 분산 제한적 |
| 통계적 신뢰도 | ⚠️ | 단일 run 위주, 표준편차 일부 누락 |
| 종합 등급 | A | 코드 품질·영향력 고려 시 매우 높은 재현성 |
주장별 신뢰도
| # | 주장 | 근거 | 신뢰도 |
|---|---|---|---|
| 1 | Linear attention의 시간 복잡도는 O(N·d²) | 수식 유도 | 🟢 |
| 2 | Causal linear attention은 RNN과 등가 | 누적합→재귀식 변환 (수학적 증명) | 🟢 |
| 3 | 품질이 softmax와 동등 | 이미지/음성은 ✅, 번역은 gap (⚠️) | 🟡 |
| 4 | Autoregressive 생성 4000× 가속 (MNIST) | Table 1, 공식 코드 | 🟢 |
읽기 난이도: ⭐⭐
Transformer 기본 구조와 커널법 기초(Mercer 정리 수준)를 알면 수식 추종 가능. 누적합→재귀식 부분이 핵심 아이디어.
관련 연구 비교 매트릭스 (Linear Attention Family)
| 축 | Linear Transformer (본 논문) | Performer (2020) | RetNet (2023) | RWKV (2023) |
|---|---|---|---|---|
| 핵심 접근 | φ=elu+1 커널 + 누적합 RNN | FAVOR+ (orthogonal random features) | multi-scale retention + decay γ | time-mixing + channel-mixing RNN |
| Softmax 근사 | 간접(양의 커널) | unbiased softmax 근사 | 명시적 감쇠 weighting | gated RNN |
| RNN 등가성 | ✅ 증명 (재귀식) | ✅ 유사 도출 | ✅ parallel/recurrent dual form | ✅ 설계 자체가 RNN |
| 긴 문맥 품질 | ⚠️ sharp 태스크 약함 | 🟢 softmax와 거의 같음 | 🟢 언어모델링 SOTA급 | 🟢 대규모 언어모델에서 검증 |
| 학습 병렬성 | ✅ prefix-sum | ✅ | ✅ parallel form | ⚠️ 제약 있음 |
| 코드 | ✅ fast-transformers | ✅ | ✅ | ✅ |
- Performer: 본 논문의 φ를 랜덤 피처로 바꿔 softmax를 unbiased 근사 — 언어 모델링 품질 개선.
- RetNet: 본 논문의 RNN view를 “retention”으로 재구성하고 감쇠항 γ 도입 — parallel/recurrent/chunkwise 3중 형식.
- RWKV: 완전히 RNN으로 재설계했지만 linear attention family의 직계 후손.
- Mamba (언급): selective state-space로 확장. 모두 “N² → N” 철학 공유.
관련 연구
- Mamba - Linear-Time Sequence Modeling with Selective State Spaces — 선택적 state-space로 linear recurrence 확장
- Attention Methods — 어텐션 변형 개요
- GQA - Training Generalized Multi-Query Transformer Models — 다른 방향(메모리)의 어텐션 효율화
원자적 인사이트 (Zettelkasten)
💡 softmax는 양의 커널의 특수 케이스이다
출처: Linear Attention - Transformers are RNNs (Katharopoulos et al., 2020)
유형: 이론적
softmax attention 는 무한차원 gaussian 커널에 대응하는 특성 맵을 갖는다. 따라서 “어떤 양의 커널 “로 대체해도 attention의 정의적 성질(양의 가중 평균)은 보존된다. 이로부터 효율성-정확성 다이얼이 생긴다.
핵심 조건/맥락: 특성 맵이 양수여야 정규화 분모가 양수로 유지됨.
연결: Performer, Mercer 정리
활용 가능성: 도메인별 inductive bias를 φ에 설계해 Attention을 조건화.
💡 Causal masking은 prefix-sum으로 O(N)에 계산된다
출처: Linear Attention - Transformers are RNNs (Katharopoulos et al., 2020)
유형: 방법론적
커널화된 attention의 causal 마스크는 의 누적합으로 표현되며, 이는 scan 연산이다. GPU scan kernel로 O(N) 병렬 학습이 가능하고 추론은 O(1) 상태 갱신.
핵심 조건/맥락: sim이 결합법칙을 허용하는 내적 형태일 때만 성립.
연결: Mamba의 selective scan, S4의 parallel scan
활용 가능성: 어떤 autoregressive 모델이든 prefix-sum 구조를 발견하면 RNN-Transformer 이중 형식화 가능.
💡 Transformer와 RNN은 동일한 모델 패밀리의 양 끝
출처: Linear Attention - Transformers are RNNs (Katharopoulos et al., 2020)
유형: 연결
같은 파라미터로 학습 시에는 parallel attention, 추론 시에는 재귀 상태 업데이트로 해석할 수 있다. “parallel-train, recurrent-infer” 패턴은 이후 RetNet이 명시화.
핵심 조건/맥락: 커널 내적 형태 attention에 한함 (softmax는 불가).
연결: RetNet dual form, RWKV
활용 가능성: 학습 병렬성과 추론 상수시간을 동시에 얻는 설계 원칙.
💡 Sharp selection은 linear attention의 구조적 약점이다
출처: Linear Attention - Transformers are RNNs (Katharopoulos et al., 2020)
유형: 실패-한계
softmax는 temperature가 낮은 distribution을 자연스럽게 만들어 “특정 토큰 하나에 집중”하는 copy/lookup을 잘 수행한다. 양의 커널 근사는 이 sharp peak를 얕게 만들어 정확 copy·retrieval 품질이 떨어진다.
핵심 조건/맥락: 번역·in-context learning처럼 정확한 토큰 선택이 필요한 태스크.
연결: Performer의 FAVOR+가 일부 완화, cosFormer/Hedgehog가 sharpening 제안
활용 가능성: Sharpness를 파라미터화(예: 학습된 temperature, polynomial φ)하면 정확-효율 trade-off 제어.
💡 상태 크기 가 메모리 용량의 한계다
출처: Linear Attention - Transformers are RNNs (Katharopoulos et al., 2020)
유형: 이론적
RNN 관점에서 hidden state 가 모든 과거를 압축하므로, 표현 가능한 정보량은 비트로 상한. 반면 softmax attention은 K,V 전체를 유지해 이론적으로 상한이 없다 — 이 차이가 long-context retrieval 품질 격차의 근원.
핵심 조건/맥락: 실제론 d=64~128 규모라 병목.
연결: Mamba의 selective forgetting, associative memory 문헌
활용 가능성: state dimension 또는 selective gating으로 용량 확장.
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| Self-attention | 시퀀스 내 각 위치가 모든 위치의 값을 쿼리-키 유사도로 가중 평균하는 연산 |
| Softmax attention | 유사도를 로 정의하고 정규화하는 표준 attention |
| 특성 맵 (feature map) φ | 입력을 특성 공간으로 보내는 함수. 양의 커널 를 정의 |
| 커널 트릭 | 명시적 φ 계산 없이 커널 값만으로 내적 계산. 본 논문은 역방향 — 명시적 저차원 φ로 softmax 대체 |
| Associativity trick | 로 계산 순서를 바꿔 O(N²)→O(N·d²) |
| Causal mask | autoregressive 생성을 위해 미래 토큰을 마스킹하는 하삼각 구조 |
| Prefix sum / Scan | 누적 연산. 병렬 알고리즘으로 O(N)에 계산 |
| RNN 재귀식 | 숨은 상태 형태. 추론이 토큰당 상수 시간 |
| elu+1 | , 양수 보장 특성 맵. 논문이 선택한 간단한 φ |
| bits-per-dimension (bpd) | 생성 모델 품질 지표. 낮을수록 좋음 |
태그
paper #2020 attention linear-attention kernel rnn efficiency ICML