Performer — 랜덤 특징으로 어텐션을 다시 생각하기
Digest: 표준 Transformer 의 softmax 어텐션은 시퀀스 길이 L 에 대해 O(L²) 시간·메모리를 요구해 단백질 서열이나 긴 문서 같은 장기 문맥에 병목이 된다(Context). 기존 선형 어텐션(Linear Attention, Katharopoulos 2020)은 softmax 를 임의의 양수 피쳐 맵 φ(·) (예:
elu+1) 로 대체했지만 softmax 자체를 편향 없이 근사하지 못해 사전 학습된 Transformer 와의 호환성이 떨어졌다. 저자들의 핵심 통찰(Insight) 은 softmax(q·k) = 𝔼[φ(q)ᵀφ(k)] 를 만족하는 양의(positive) 랜덤 특징 맵이 존재하며, 여기에 직교 랜덤 특징(orthogonal random features, ORF) 을 결합하면 분산을 체계적으로 줄일 수 있다는 점이다(Solution: FAVOR+ = Fast Attention Via positive Orthogonal Random features). FAVOR+ 는 행렬곱 결합법칙을 이용해 (φ(Q)(φ(K)ᵀV)) 순서로 계산하여 O(L·d²·r) 시간·O(L·d + L·r + r·d) 공간을 달성한다. Evidence: 단백질 언어 모델(TrEMBL 36개 아미노산 분류)에서 36 층·8192 길이까지 확장해 정규 Transformer 대비 동일 정확도를 유지하며 OOM 없이 학습, ImageNet64 (12288 픽셀 시퀀스) BPD 3.719 로 Reformer(3.740) 를 능가, PG-19 에서도 Reformer·Linformer 와 경쟁. Limitations: 짧은 시퀀스에서는 FLOPs 오버헤드로 인해 정규 Transformer 보다 느리고, 근사 분산이 softmax 커널의 크기(||q||·||k||) 가 커질수록 지수적으로 증가해 스케일링에 주의 필요. Open Questions: 양의 직교 랜덤 특징을 다른 커널(예: 상대적 위치 인코딩, RoPE)에 어떻게 이식할 것인가, FAVOR+ 의 아이디어가 디코더의 인과적(causal) 마스킹에서 prefix-sum 트릭 외에 더 효율적인 병렬화로 확장될 수 있는가.
섹션별 요약
Introduction
- Transformer 의 O(L²) 병목이 장문서, 단백질 서열(수천 아미노산), 고해상도 이미지 등에서 실질적 제약.
- 기존 효율화 흐름: (1) 희소 패턴(Sparse Transformer, Longformer, Reformer LSH), (2) 저랭크/커널화(Linear Attention, Linformer). 그러나 대부분 softmax 자체의 편향 없는 근사를 제공하지 못하고, 사전 학습 Transformer 와 가중치 호환이 어렵다.
- 기여: (a) FAVOR+ 라는 softmax 커널의 편향 없는 선형 시간 근사, (b) 양의 랜덤 특징(positive random features, PRF) 의 필요성을 이론·실증적으로 증명, (c) 직교성(ORF) 이 분산을 엄격하게 줄인다는 증명, (d) 단백질·이미지·언어 벤치마크에서 정확도·속도·메모리 우위 실증.
Methods (FAVOR+)
- 일반화 어텐션: A(i,j) = K(qᵢ, kⱼ) / Σⱼ K(qᵢ, kⱼ). 커널 K 가 K(x,y) = 𝔼_ω[φ(x,ω)ᵀφ(y,ω)] 로 분해되면 어텐션을 (φ(Q), φ(K), V) 의 행렬곱으로 선형화.
- Softmax 커널 정확 분해: SM(x,y) = exp(xᵀy) = 𝔼_{ω∼N(0,I_d)}[exp(ωᵀx − ||x||²/2) · exp(ωᵀy − ||y||²/2)]. 즉 φ(x,ω) = exp(ωᵀx − ||x||²/2) 의 양의 지수 특징이 편향 없는 추정자.
- 왜 양수인가: 기존 삼각함수 특징(Rahimi–Recht 2007 의 cos/sin)은 어텐션 분모 Σ 에 작은 값이 생기면 음수 혹은 0 에 가까워져 분산이 폭발. 반면 PRF 는 모든 샘플이 양수라 상대 오차가 낮다(Lemma 2, MSE 지수적으로 작음).
- 직교 랜덤 특징(ORF): 랜덤 투영 행렬 Ω ∈ ℝ^{r×d} 의 행을 Gram-Schmidt 로 직교화. 가우시안 커널/softmax 커널에서 MSE 가 i.i.d. 보다 엄밀히 작음(Theorem 2).
- 인과 Attention: prefix-sum 방식으로 Gₜ = Σ_{s≤t} φ(k_s) v_sᵀ 를 누적, 각 시점 q_t 에 대해 φ(q_t)ᵀ Gₜ 로 O(L·r·d) 계산.
- 복잡도: 시간 O(L r d), 메모리 O(L r + L d + r d) — r ≪ L 이면 대규모 이득.
Theoretical bounds
- Theorem 1 (Unbiasedness): 𝔼[SM̂(x,y)] = SM(x,y).
- Lemma 2 (PRF 분산): MSE(SM̂_m^{PRF}) = (1/m) · exp(||x+y||²) · SM²(x,y) · (1 − exp(−||x+y||²)) — ||x+y|| → 0 이면 0 으로 수렴. 반면 삼각함수 추정자는 SM²(x,y) 가 작을 때 상대 오차가 폭발.
- Theorem 2 (ORF 분산 감소): ORF 기반 SM̂_m^{ORF+} 의 MSE 는 i.i.d. PRF 보다 엄격히 작음 (모든 d, 모든 m ≤ d).
- 균등 수렴: compact 영역에서 Feature 수 r = Θ(d log(d/δ)/ε²) 로 ε-정확도 달성.
Experiments
- Protein sequence (TrEMBL): 36-way amino-acid classification, 8192 길이, 36 layer Performer 가 정규 Transformer 와 동등 정확도, BPD 약 0.70 수렴. Reformer 는 더 높은 BPD 에서 정체. Concatenated TrEMBL(장문 서열) 에서 정규 Transformer 는 OOM, Performer 는 훈련 가능.
- ImageNet64 (generative): 시퀀스 길이 12288. Performer BPD 3.719 vs Reformer 3.740.
- PG-19 (long-range LM): Performer 가 Reformer 및 Linformer 보다 우수한 perplexity, 정규 Transformer 와 유사한 훈련 곡선.
- 호환성 실험: 사전학습된 Transformer 가중치를 Performer 에 전이해도 약간의 파인튜닝만으로 성능 회복 — 삼각 특징 기반은 회복 실패.
- 속도/메모리: 길이 L 에 대해 L=4096 부터 Transformer 대비 명확한 속도·메모리 우위.
| Model/Method | Dataset | Metric | Score | vs. Baseline |
|---|---|---|---|---|
| Performer (FAVOR+) | ImageNet64 | BPD | 3.719 | Reformer 3.740 (Fig./Table) |
| Performer 36L | TrEMBL (8192) | Accuracy | ≈ Transformer | Reformer 열세 |
| Transformer 36L | TrEMBL concat | — | OOM | Performer 정상 학습 |
| Performer | PG-19 | log-perplexity | Reformer/Linformer 상회 | (Table 2) |
Discussion
- 한계: 짧은 시퀀스에선 r·d 오버헤드로 오히려 느림; softmax 의 크기 ||q||·||k|| 가 크면 분산이 지수적으로 증가 — LayerNorm / query-key normalize 병행 권장.
- 향후: generalized attention(softmax 외 학습 가능한 커널), 다른 모달리티(음성·비디오), FAVOR+ 를 거대 LLM 사전학습에 적용.
Insights
- 주목할 점: “softmax = 양의 지수 랜덤 특징의 기대값” 이라는 정확 분해 가 핵심 — 근사 아님.
- 연결 고리: Linear Attention(2006.16236, Katharopoulos 2020) 의 φ(x)=elu(x)+1 은 softmax 를 직접 근사하지 않음. Performer 는 softmax 를 편향 없이 근사해 사전학습 모델과 호환.
- 시사점: 커널 관점에서 어텐션을 바라보면, softmax 는 여러 가능한 RKHS 중 하나일 뿐이며 학습 가능한 특징 맵으로 확장 가능.
- 비판적 코멘트: 분산 상한이 ||q+k||² 지수에 의존하므로 스케일 안정화(pre-norm, RMSNorm) 없이는 실전 적용 난관.
Discussion Points
- 논쟁점: Performer 의 정확도는 r (특징 수) 선택에 민감 — 작은 r 에서의 성능 저하가 실전 RoPE/GLU 블록과 결합 시 얼마나 크게 증폭되는가?
- 검증 필요 가정: 양의 직교 특징의 분산 우위가 학습 도중 쿼리/키 분포가 이동하는 상황에서도 유지되는가.
- 후속 연구: FLASH, Linformer, RFA (Random Feature Attention, Peng 2021) 와의 수렴 속도/정확도 trade-off 정밀 비교.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | Rethinking Attention with Performers |
| 저자 | Choromanski, Likhosherstov, Dohan, Song, Gane, Sarlos, Hawkins, Davis, Mohiuddin, Kaiser, Belanger, Colwell, Weller |
| 소속 | Google, University of Cambridge, DeepMind, Alan Turing Institute |
| 연도 | 2020 (v1), ICLR 2021 채택 |
| 발표 | arXiv:2009.14794 |
| 링크 | arXiv, GitHub (google-research/performer) |
| 키워드 | Linear attention, Random features, Positive orthogonal RF, FAVOR+ |
왜 이 연구를 하는가?
핵심 질문
softmax 어텐션을 편향 없이 그리고 분산이 작게 선형 시간으로 근사할 수 있는 랜덤 특징 맵은 무엇인가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| Sparse/LSH (Reformer, Longformer) | 근사 정확도 보장이 약하고 아키텍처 제약이 큼 |
| Low-rank projection (Linformer) | 시퀀스 길이에 대해 프로젝션 크기가 고정이라 일반화 부족 |
| Linear Attention (Katharopoulos 2020) | φ(x)=elu(x)+1 — softmax 를 직접 근사하지 않아 사전학습 모델 호환 불가 |
| 삼각함수 RF (Rahimi–Recht) | 음수 샘플 발생 → 분모에서 분산 폭발 |
핵심 통찰
- softmax 커널 exp(xᵀy) 은 양의 지수 특징 φ(x,ω)=exp(ωᵀx − ||x||²/2) 의 내적 기대값으로 정확히 분해된다.
- 랜덤 투영을 직교화 하면 추정 분산이 엄밀히 감소한다.
- 행렬곱 결합법칙 (φ(Q)φ(K)ᵀ)V = φ(Q)(φ(K)ᵀV) 로 O(L²) → O(L·r·d).
방법 (Method)
프레임워크 개요
flowchart TB Q[Queries Q ∈ ℝ^(L×d)] --> PHI1[φ(Q): positive exp features<br/>with orthogonal ω] K[Keys K ∈ ℝ^(L×d)] --> PHI2[φ(K): positive exp features<br/>shared ω] V[Values V ∈ ℝ^(L×d)] --> KV PHI2 --> KV[φ(K)ᵀ · V<br/>∈ ℝ^(r×d)] PHI1 --> OUT KV --> OUT[φ(Q) · (φ(K)ᵀV)<br/>∈ ℝ^(L×d)] PHI2 --> NORM[φ(K)ᵀ · 1<br/>∈ ℝ^r] PHI1 --> DEN[φ(Q) · (φ(K)ᵀ1)] OUT --> DIV[Row-wise divide → Attn(Q,K,V)] DEN --> DIV style PHI1 fill:#e1f5e1 style PHI2 fill:#e1f5e1 style KV fill:#ffe4b5
핵심 구성요소
- Positive Random Features (PRF): φ(x,ω) = (1/√m) · exp(ωᵀx − ||x||²/2), ω ∼ N(0, I_d). SM̂(x,y) = φ(x)ᵀφ(y) 가 편향 없음.
- Orthogonal Random Features (ORF): Ω 의 행을 Gram-Schmidt 직교화. 동일 marginal 분포 유지, MSE 엄격 감소.
- 행렬곱 재배열: (φ(Q)φ(K)ᵀ)V 대신 φ(Q)(φ(K)ᵀV) → 중간 행렬 크기 r×d.
- Causal masking: prefix-sum 으로 Gₜ = Σ_{s≤t} φ(k_s)v_sᵀ 누적 유지. 각 시점 O(r·d).
- Redrawing: 학습 중 주기적으로 ω 재샘플링 → 고정 샘플의 편향 누적 방지.
발견 (Findings)
주요 결과
| 모델 | Dataset | Metric | 값 | 비고 |
|---|---|---|---|---|
| Performer | ImageNet64 | BPD | 3.719 | Reformer 3.740 |
| Performer 36L | TrEMBL | Accuracy | ≈ Transformer | Reformer 열세 |
| Transformer 36L | TrEMBL concat 8192 | — | OOM | Performer 정상 |
| Performer | PG-19 | perplexity | Reformer/Linformer 상회 | long-range LM |
핵심 발견
- PRF 는 삼각 RF 대비 작은 softmax 값 영역에서 상대 오차가 지수적으로 작다.
- ORF 는 모든 d 에서 i.i.d. PRF 보다 MSE 가 낮다(Theorem 2).
- 사전학습 Transformer 가중치를 Performer 에 그대로 이식 후 약간의 fine-tune 으로 복원 가능 — 삼각 RF 로는 실패. 이는 “편향 없는 softmax 근사”의 실용적 가치를 증명.
이론적 의의
어텐션 = 커널의 한 특수 사례
FAVOR+ 는 softmax 를 RKHS 커널의 특수 사례로 재해석해 어텐션 설계 공간을 학습 가능 커널 로 확장했다. 이후 RFA(Peng 2021), cosFormer, FLASH 등이 이 프레임을 계승.
양수성의 중요성
“양수 특징 맵은 분모가 작을 때도 상대 오차를 통제한다” 는 명제는 랜덤 근사 전반(graph kernels, GP)에도 적용 가능한 방법론적 교훈.
직교성이 가져오는 통계적 이득
ORF 는 variance reduction 의 일반 원리(음상관을 통한 분산 축소)를 랜덤 특징에 구체화한 사례로, 비편향 추정이 구조화된 랜덤성으로 개선될 수 있음을 보인다.
재현성 및 신뢰도 평가
| 항목 | 등급 | 비고 |
|---|---|---|
| 코드 공개 | ✅ | google-research/performer 공식 JAX/TF 구현 |
| 데이터 공개 | ✅ | TrEMBL, ImageNet64, PG-19 모두 공개 |
| 하이퍼파라미터 | ✅ | Appendix 에 레이어·dropout·optimizer 전반 기재 |
| 실험 환경 | ⚠️ | TPU 구성 명시되나 정확한 코어 수는 일부 실험에서만 |
| 통계적 신뢰도 | ⚠️ | 다중 시드 평균은 일부 실험만 제공 |
| 종합 등급 | A | 이론+코드+재현 모두 우수 |
주장별 신뢰도
| # | 주장 | 근거 | 신뢰도 |
|---|---|---|---|
| 1 | PRF 는 softmax 를 편향 없이 근사 | Theorem 1 증명 | 🟢 |
| 2 | ORF 가 i.i.d. PRF 대비 MSE 감소 | Theorem 2 증명 + 실험 | 🟢 |
| 3 | 사전학습 Transformer 가중치 전이 가능 | 실험 수렴 곡선 (Fig.) | 🟡 (재현 샘플 제한) |
| 4 | 단백질 8192 서열에서 정확도 동등 | TrEMBL 정확도 곡선 | 🟢 |
| 5 | 짧은 시퀀스에선 오히려 느림 | 저자 명시 + wall-clock | 🟢 |
읽기 난이도: ⭐⭐⭐
가우시안 적분, RKHS, 랜덤 특징 이론, Transformer 구현 상세까지 요구. 전제: Rahimi–Recht 랜덤 특징, Linear Attention, softmax 커널 해석.
관련 연구 비교 매트릭스
| 축 | Performer (본 논문) | Linear Attention (Katharopoulos 2020) | Linformer (Wang 2020) | Reformer (Kitaev 2020) | RFA (Peng 2021) |
|---|---|---|---|---|---|
| 핵심 접근 | 양의 직교 RF 로 softmax 커널 편향없이 분해 | φ(x)=elu(x)+1 로 linearize | 키/값 low-rank projection | LSH 기반 sparse attention | 삼각 RF 로 softmax 근사 |
| 문제 정의 | softmax unbiased linear approx | causal 자동 회귀 가속 | 고정 projection 으로 속도 | 매우 긴 시퀀스 sparse | softmax RF 근사 |
| 데이터 | 단백질/ImageNet64/PG-19 | WMT, autoregressive | GLUE | enwik8, imagenet | LM/MT |
| 핵심 메트릭 | BPD 3.719 / TrEMBL 동등 | 속도 ↑, 품질 trade | sequence-length 무관 속도 | 긴 시퀀스 메모리 | LM perplexity |
| 확장성 | O(L·r·d) | O(L·d²) | O(L·k) fixed k | O(L log L) | O(L·r·d) |
| 한계 | 분산 ∝ exp(‖q+k‖²) | softmax 근사 아님 | k 고정 → 일반화 제한 | LSH 히트율 민감 | 삼각 RF 음수 문제 |
| 코드 공개 | ✅ | ✅ | ✅ | ✅ | ✅ |
관련 연구
- Linear Attention - Transformers are RNNs — φ(x)=elu(x)+1 의 linearize 와 prefix-sum 인과 처리; Performer 가 softmax 편향 없는 근사로 확장.
- Random Feature Attention (RFA) — 삼각 RF 기반 softmax 근사; Performer 의 PRF 가 분산 문제 해결.
- Reformer - The Efficient Transformer — LSH 기반 sparse; Performer 가 BPD 3.719 vs 3.740 로 우세.
- Linformer - Self-Attention with Linear Complexity — low-rank 프로젝션 비교 대상.
- Attention Methods — 어텐션 효율화 전반 맵.
원자적 인사이트 (Zettelkasten)
💡 양수 랜덤 특징이 softmax 분모 분산 폭발을 막는다
출처: Performer - Rethinking Attention with Performers (Choromanski et al., 2020)
유형: 이론적
삼각함수 기반 랜덤 특징(cos/sin)은 음수 샘플을 포함해 추정값이 0 근처로 수렴할 때 상대 오차가 폭발한다. 반면 exp(ωᵀx − ||x||²/2) 라는 양의 특징은 모든 샘플이 0 보다 크므로, softmax 커널 값이 작은 영역에서도 상대 분산이 지수적으로 작게 유지된다(Lemma 2).
핵심 조건/맥락: 분모 항이 있는 정규화된 커널 추정 일반에 적용 — softmax 어텐션뿐 아니라 Gibbs/Boltzmann 분포 추정에도 전이 가능.
연결: Random Features for Large-Scale Kernel Machines (Rahimi-Recht 2007) 의 한계를 구체적으로 드러냄.
활용 가능성: RoPE/ALiBi 가 결합된 최신 LLM 에 PRF 를 이식할 때 동일 원리 재사용.
💡 직교성은 편향 없는 추정자의 분산을 엄밀히 줄인다
출처: Performer - Rethinking Attention with Performers (Choromanski et al., 2020)
유형: 이론적
랜덤 투영 벡터 {ωᵢ} 를 Gram-Schmidt 로 직교화해도 주변 분포는 바뀌지 않지만(따라서 unbiased 유지), 샘플 간 음상관이 도입되어 MSE 가 엄격히 감소한다(Theorem 2). 이는 Monte Carlo 에서 “구조화된 랜덤성”이 단순 i.i.d. 보다 항상 이득이라는 일반 원리의 사례.
핵심 조건/맥락: r ≤ d 범위에서 직교화 가능. r>d 일 땐 블록 단위 직교화.
연결: Orthogonal Random Features (Yu 2016), Quasi-Monte Carlo methods.
활용 가능성: Gaussian Process 추론, kernel SVM 의 랜덤 특징 가속 전반.
💡 행렬곱 결합법칙만으로 어텐션을 선형화할 수 있다
출처: Performer - Rethinking Attention with Performers (Choromanski et al., 2020)
유형: 방법론적
Attn(Q,K,V) = softmax(QKᵀ)V 에서 softmax 를 φ(Q)φ(K)ᵀ 로 분해하면 (φ(Q)φ(K)ᵀ)V = φ(Q)(φ(K)ᵀV) 로 재배열 가능하다. 중간 텐서 크기가 L×L → r×d 로 줄어 O(L²) → O(L·r·d) 가속이 성립.
핵심 조건/맥락: softmax 를 inner-product 형태로 분해할 수 있을 때만. masked/causal 에선 prefix-sum 트릭 추가 필요.
연결: Linear Attention - Transformers are RNNs 의 causal prefix-sum, FLASH, Mamba 의 상태 공간 누적.
활용 가능성: 모든 “커널화 가능한” 정규화 어텐션 — Performer, RFA, cosFormer 등.
💡 편향 없는 근사는 사전학습 가중치 호환성을 보존한다
출처: Performer - Rethinking Attention with Performers (Choromanski et al., 2020)
유형: 실험적
Performer 로 아키텍처를 바꿔도 기존 Transformer 의 사전학습 가중치를 그대로 이식 후 소량 fine-tune 만으로 성능이 회복된다. 삼각 RF 기반은 회복 실패. “편향 없는 근사” 가 단순 이론적 미덕이 아니라 실용적 호환성 의 조건임을 보인다.
핵심 조건/맥락: 근사 오차의 기대값이 0 일 때 사전학습 분포 이동이 작아 파인튜닝으로 수렴.
연결: Knowledge distillation 에서의 bias-variance 논의, LoRA 의 사전학습 호환.
활용 가능성: 거대 LLM 의 효율화 어텐션 전환 시 “편향 없음” 을 우선 조건으로 삼아야 함.
💡 FAVOR+ 의 분산은 쿼리/키 노름에 지수적으로 민감하다
출처: Performer - Rethinking Attention with Performers (Choromanski et al., 2020)
유형: 실패/한계
MSE ∝ exp(||q+k||²) 이므로 쿼리·키 노름이 커지면 근사 품질이 급격히 나빠진다. 실전에서는 LayerNorm/QK-norm 으로 노름을 제어해야 Performer 가 안정적으로 학습된다.
핵심 조건/맥락: pre-norm Transformer 에서는 비교적 안정, post-norm 에서는 주의.
연결: QK-Norm, Stabilizing Transformer Training.
활용 가능성: 선형 어텐션 전반의 안정화 — norm 규제를 아키텍처 레벨에서 설계해야 함.
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| FAVOR+ | Fast Attention Via positive Orthogonal Random features. Performer 의 핵심 알고리즘 |
| Random Feature (RF) | 커널 K(x,y)=𝔼[φ(x,ω)ᵀφ(y,ω)] 로 분해하는 유한 차원 특징 맵 |
| Positive RF (PRF) | 모든 성분이 양수인 RF. 여기선 exp(ωᵀx− |
| Orthogonal RF (ORF) | 랜덤 투영 행렬의 행을 직교화한 RF. 분산을 엄격히 줄임 |
| Softmax kernel | K(x,y)=exp(xᵀy). 어텐션 가중치의 분자를 정의 |
| Linear Attention | softmax 대신 임의 양의 φ 를 써서 O(L) 로 만든 어텐션 (Katharopoulos 2020) |
| Prefix sum (causal) | 누적합으로 인과적 선형 어텐션을 O(L·r·d) 에 계산하는 트릭 |
| Redrawing | 학습 중 랜덤 투영 ω 를 주기적으로 재샘플링 |
| BPD | Bits-per-dimension, 생성 모델의 로그우도 지표 |
핵심 수식
- Softmax 분해: exp(xᵀy) = 𝔼_{ω∼N(0,I_d)} [exp(ωᵀx − ||x||²/2) · exp(ωᵀy − ||y||²/2)]
- 추정자: SM̂_m^{PRF}(x,y) = (1/m) Σ_{i=1}^{m} exp(ωᵢᵀx − ||x||²/2) · exp(ωᵢᵀy − ||y||²/2)
- 분산 상한(Lemma 2): MSE(SM̂_m^{PRF}) = (1/m) · exp(||x+y||²) · SM²(x,y) · (1 − exp(−||x+y||²))
- 선형 어텐션 계산: Attn̂(Q,K,V) = D⁻¹ · φ(Q) · (φ(K)ᵀ V), D = diag(φ(Q) · (φ(K)ᵀ 1_L))
- 복잡도: 시간 O(L·r·d), 공간 O(L·r + L·d + r·d)
태그
paper #2020 attention performer random-features favor linear-attention ICLR2021