Performer — 랜덤 특징으로 어텐션을 다시 생각하기

Digest: 표준 Transformer 의 softmax 어텐션은 시퀀스 길이 L 에 대해 O(L²) 시간·메모리를 요구해 단백질 서열이나 긴 문서 같은 장기 문맥에 병목이 된다(Context). 기존 선형 어텐션(Linear Attention, Katharopoulos 2020)은 softmax 를 임의의 양수 피쳐 맵 φ(·) (예: elu+1) 로 대체했지만 softmax 자체를 편향 없이 근사하지 못해 사전 학습된 Transformer 와의 호환성이 떨어졌다. 저자들의 핵심 통찰(Insight) 은 softmax(q·k) = 𝔼[φ(q)ᵀφ(k)] 를 만족하는 양의(positive) 랜덤 특징 맵이 존재하며, 여기에 직교 랜덤 특징(orthogonal random features, ORF) 을 결합하면 분산을 체계적으로 줄일 수 있다는 점이다(Solution: FAVOR+ = Fast Attention Via positive Orthogonal Random features). FAVOR+ 는 행렬곱 결합법칙을 이용해 (φ(Q)(φ(K)ᵀV)) 순서로 계산하여 O(L·d²·r) 시간·O(L·d + L·r + r·d) 공간을 달성한다. Evidence: 단백질 언어 모델(TrEMBL 36개 아미노산 분류)에서 36 층·8192 길이까지 확장해 정규 Transformer 대비 동일 정확도를 유지하며 OOM 없이 학습, ImageNet64 (12288 픽셀 시퀀스) BPD 3.719 로 Reformer(3.740) 를 능가, PG-19 에서도 Reformer·Linformer 와 경쟁. Limitations: 짧은 시퀀스에서는 FLOPs 오버헤드로 인해 정규 Transformer 보다 느리고, 근사 분산이 softmax 커널의 크기(||q||·||k||) 가 커질수록 지수적으로 증가해 스케일링에 주의 필요. Open Questions: 양의 직교 랜덤 특징을 다른 커널(예: 상대적 위치 인코딩, RoPE)에 어떻게 이식할 것인가, FAVOR+ 의 아이디어가 디코더의 인과적(causal) 마스킹에서 prefix-sum 트릭 외에 더 효율적인 병렬화로 확장될 수 있는가.

섹션별 요약

Introduction

Transformer 의 O(L²) 병목이 장문서, 단백질 서열(수천 아미노산), 고해상도 이미지 등에서 실질적 제약.
기존 효율화 흐름: (1) 희소 패턴(Sparse Transformer, Longformer, Reformer LSH), (2) 저랭크/커널화(Linear Attention, Linformer). 그러나 대부분 softmax 자체의 편향 없는 근사를 제공하지 못하고, 사전 학습 Transformer 와 가중치 호환이 어렵다.
기여: (a) FAVOR+ 라는 softmax 커널의 편향 없는 선형 시간 근사, (b) 양의 랜덤 특징(positive random features, PRF) 의 필요성을 이론·실증적으로 증명, (c) 직교성(ORF) 이 분산을 엄격하게 줄인다는 증명, (d) 단백질·이미지·언어 벤치마크에서 정확도·속도·메모리 우위 실증.

Methods (FAVOR+)

일반화 어텐션: A(i,j) = K(qᵢ, kⱼ) / Σⱼ K(qᵢ, kⱼ). 커널 K 가 K(x,y) = 𝔼_ω[φ(x,ω)ᵀφ(y,ω)] 로 분해되면 어텐션을 (φ(Q), φ(K), V) 의 행렬곱으로 선형화.
Softmax 커널 정확 분해: SM(x,y) = exp(xᵀy) = 𝔼_{ω∼N(0,I_d)}[exp(ωᵀx − ||x||²/2) · exp(ωᵀy − ||y||²/2)]. 즉 φ(x,ω) = exp(ωᵀx − ||x||²/2) 의 양의 지수 특징이 편향 없는 추정자.
왜 양수인가: 기존 삼각함수 특징(Rahimi–Recht 2007 의 cos/sin)은 어텐션 분모 Σ 에 작은 값이 생기면 음수 혹은 0 에 가까워져 분산이 폭발. 반면 PRF 는 모든 샘플이 양수라 상대 오차가 낮다(Lemma 2, MSE 지수적으로 작음).
직교 랜덤 특징(ORF): 랜덤 투영 행렬 Ω ∈ ℝ^{r×d} 의 행을 Gram-Schmidt 로 직교화. 가우시안 커널/softmax 커널에서 MSE 가 i.i.d. 보다 엄밀히 작음(Theorem 2).
인과 Attention: prefix-sum 방식으로 Gₜ = Σ_{s≤t} φ(k_s) v_sᵀ 를 누적, 각 시점 q_t 에 대해 φ(q_t)ᵀ Gₜ 로 O(L·r·d) 계산.
복잡도: 시간 O(L r d), 메모리 O(L r + L d + r d) — r ≪ L 이면 대규모 이득.

Theoretical bounds

Theorem 1 (Unbiasedness): 𝔼[SM̂(x,y)] = SM(x,y).
Lemma 2 (PRF 분산): MSE(SM̂_m^{PRF}) = (1/m) · exp(||x+y||²) · SM²(x,y) · (1 − exp(−||x+y||²)) — ||x+y|| → 0 이면 0 으로 수렴. 반면 삼각함수 추정자는 SM²(x,y) 가 작을 때 상대 오차가 폭발.
Theorem 2 (ORF 분산 감소): ORF 기반 SM̂_m^{ORF+} 의 MSE 는 i.i.d. PRF 보다 엄격히 작음 (모든 d, 모든 m ≤ d).
균등 수렴: compact 영역에서 Feature 수 r = Θ(d log(d/δ)/ε²) 로 ε-정확도 달성.

Experiments

Protein sequence (TrEMBL): 36-way amino-acid classification, 8192 길이, 36 layer Performer 가 정규 Transformer 와 동등 정확도, BPD 약 0.70 수렴. Reformer 는 더 높은 BPD 에서 정체. Concatenated TrEMBL(장문 서열) 에서 정규 Transformer 는 OOM, Performer 는 훈련 가능.
ImageNet64 (generative): 시퀀스 길이 12288. Performer BPD 3.719 vs Reformer 3.740.
PG-19 (long-range LM): Performer 가 Reformer 및 Linformer 보다 우수한 perplexity, 정규 Transformer 와 유사한 훈련 곡선.
호환성 실험: 사전학습된 Transformer 가중치를 Performer 에 전이해도 약간의 파인튜닝만으로 성능 회복 — 삼각 특징 기반은 회복 실패.
속도/메모리: 길이 L 에 대해 L=4096 부터 Transformer 대비 명확한 속도·메모리 우위.

Model/Method	Dataset	Metric	Score	vs. Baseline
Performer (FAVOR+)	ImageNet64	BPD	3.719	Reformer 3.740 (Fig./Table)
Performer 36L	TrEMBL (8192)	Accuracy	≈ Transformer	Reformer 열세
Transformer 36L	TrEMBL concat	—	OOM	Performer 정상 학습
Performer	PG-19	log-perplexity	Reformer/Linformer 상회	(Table 2)

Discussion

한계: 짧은 시퀀스에선 r·d 오버헤드로 오히려 느림; softmax 의 크기 ||q||·||k|| 가 크면 분산이 지수적으로 증가 — LayerNorm / query-key normalize 병행 권장.
향후: generalized attention(softmax 외 학습 가능한 커널), 다른 모달리티(음성·비디오), FAVOR+ 를 거대 LLM 사전학습에 적용.

Insights

주목할 점: “softmax = 양의 지수 랜덤 특징의 기대값” 이라는 정확 분해 가 핵심 — 근사 아님.
연결 고리: Linear Attention(2006.16236, Katharopoulos 2020) 의 φ(x)=elu(x)+1 은 softmax 를 직접 근사하지 않음. Performer 는 softmax 를 편향 없이 근사해 사전학습 모델과 호환.
시사점: 커널 관점에서 어텐션을 바라보면, softmax 는 여러 가능한 RKHS 중 하나일 뿐이며 학습 가능한 특징 맵으로 확장 가능.
비판적 코멘트: 분산 상한이 ||q+k||² 지수에 의존하므로 스케일 안정화(pre-norm, RMSNorm) 없이는 실전 적용 난관.

Discussion Points

논쟁점: Performer 의 정확도는 r (특징 수) 선택에 민감 — 작은 r 에서의 성능 저하가 실전 RoPE/GLU 블록과 결합 시 얼마나 크게 증폭되는가?
검증 필요 가정: 양의 직교 특징의 분산 우위가 학습 도중 쿼리/키 분포가 이동하는 상황에서도 유지되는가.
후속 연구: FLASH, Linformer, RFA (Random Feature Attention, Peng 2021) 와의 수렴 속도/정확도 trade-off 정밀 비교.

메타데이터

항목	내용
제목	Rethinking Attention with Performers
저자	Choromanski, Likhosherstov, Dohan, Song, Gane, Sarlos, Hawkins, Davis, Mohiuddin, Kaiser, Belanger, Colwell, Weller
소속	Google, University of Cambridge, DeepMind, Alan Turing Institute
연도	2020 (v1), ICLR 2021 채택
발표	arXiv:2009.14794
링크	arXiv, GitHub (google-research/performer)
키워드	Linear attention, Random features, Positive orthogonal RF, FAVOR+

왜 이 연구를 하는가?

핵심 질문

softmax 어텐션을 편향 없이 그리고 분산이 작게 선형 시간으로 근사할 수 있는 랜덤 특징 맵은 무엇인가?

기존 접근법의 한계

한계	설명
Sparse/LSH (Reformer, Longformer)	근사 정확도 보장이 약하고 아키텍처 제약이 큼
Low-rank projection (Linformer)	시퀀스 길이에 대해 프로젝션 크기가 고정이라 일반화 부족
Linear Attention (Katharopoulos 2020)	φ(x)=elu(x)+1 — softmax 를 직접 근사하지 않아 사전학습 모델 호환 불가
삼각함수 RF (Rahimi–Recht)	음수 샘플 발생 → 분모에서 분산 폭발

핵심 통찰

softmax 커널 exp(xᵀy) 은 양의 지수 특징 φ(x,ω)=exp(ωᵀx − ||x||²/2) 의 내적 기대값으로 정확히 분해된다.
랜덤 투영을 직교화 하면 추정 분산이 엄밀히 감소한다.
행렬곱 결합법칙 (φ(Q)φ(K)ᵀ)V = φ(Q)(φ(K)ᵀV) 로 O(L²) → O(L·r·d).

방법 (Method)

프레임워크 개요

flowchart TB
    Q[Queries Q ∈ ℝ^(L×d)] --> PHI1[φ(Q): positive exp features<br/>with orthogonal ω]
    K[Keys K ∈ ℝ^(L×d)] --> PHI2[φ(K): positive exp features<br/>shared ω]
    V[Values V ∈ ℝ^(L×d)] --> KV
    PHI2 --> KV[φ(K)ᵀ · V<br/>∈ ℝ^(r×d)]
    PHI1 --> OUT
    KV --> OUT[φ(Q) · (φ(K)ᵀV)<br/>∈ ℝ^(L×d)]
    PHI2 --> NORM[φ(K)ᵀ · 1<br/>∈ ℝ^r]
    PHI1 --> DEN[φ(Q) · (φ(K)ᵀ1)]
    OUT --> DIV[Row-wise divide → Attn(Q,K,V)]
    DEN --> DIV
    style PHI1 fill:#e1f5e1
    style PHI2 fill:#e1f5e1
    style KV fill:#ffe4b5

핵심 구성요소

Positive Random Features (PRF): φ(x,ω) = (1/√m) · exp(ωᵀx − ||x||²/2), ω ∼ N(0, I_d). SM̂(x,y) = φ(x)ᵀφ(y) 가 편향 없음.
Orthogonal Random Features (ORF): Ω 의 행을 Gram-Schmidt 직교화. 동일 marginal 분포 유지, MSE 엄격 감소.
행렬곱 재배열: (φ(Q)φ(K)ᵀ)V 대신 φ(Q)(φ(K)ᵀV) → 중간 행렬 크기 r×d.
Causal masking: prefix-sum 으로 Gₜ = Σ_{s≤t} φ(k_s)v_sᵀ 누적 유지. 각 시점 O(r·d).
Redrawing: 학습 중 주기적으로 ω 재샘플링 → 고정 샘플의 편향 누적 방지.

발견 (Findings)

주요 결과

모델	Dataset	Metric	값	비고
Performer	ImageNet64	BPD	3.719	Reformer 3.740
Performer 36L	TrEMBL	Accuracy	≈ Transformer	Reformer 열세
Transformer 36L	TrEMBL concat 8192	—	OOM	Performer 정상
Performer	PG-19	perplexity	Reformer/Linformer 상회	long-range LM

핵심 발견

PRF 는 삼각 RF 대비 작은 softmax 값 영역에서 상대 오차가 지수적으로 작다.
ORF 는 모든 d 에서 i.i.d. PRF 보다 MSE 가 낮다(Theorem 2).
사전학습 Transformer 가중치를 Performer 에 그대로 이식 후 약간의 fine-tune 으로 복원 가능 — 삼각 RF 로는 실패. 이는 “편향 없는 softmax 근사”의 실용적 가치를 증명.

이론적 의의

어텐션 = 커널의 한 특수 사례

FAVOR+ 는 softmax 를 RKHS 커널의 특수 사례로 재해석해 어텐션 설계 공간을 학습 가능 커널 로 확장했다. 이후 RFA(Peng 2021), cosFormer, FLASH 등이 이 프레임을 계승.

양수성의 중요성

“양수 특징 맵은 분모가 작을 때도 상대 오차를 통제한다” 는 명제는 랜덤 근사 전반(graph kernels, GP)에도 적용 가능한 방법론적 교훈.

직교성이 가져오는 통계적 이득

ORF 는 variance reduction 의 일반 원리(음상관을 통한 분산 축소)를 랜덤 특징에 구체화한 사례로, 비편향 추정이 구조화된 랜덤성으로 개선될 수 있음을 보인다.

재현성 및 신뢰도 평가

항목	등급	비고
코드 공개	✅	`google-research/performer` 공식 JAX/TF 구현
데이터 공개	✅	TrEMBL, ImageNet64, PG-19 모두 공개
하이퍼파라미터	✅	Appendix 에 레이어·dropout·optimizer 전반 기재
실험 환경	⚠️	TPU 구성 명시되나 정확한 코어 수는 일부 실험에서만
통계적 신뢰도	⚠️	다중 시드 평균은 일부 실험만 제공
종합 등급	A	이론+코드+재현 모두 우수

주장별 신뢰도

#	주장	근거	신뢰도
1	PRF 는 softmax 를 편향 없이 근사	Theorem 1 증명	🟢
2	ORF 가 i.i.d. PRF 대비 MSE 감소	Theorem 2 증명 + 실험	🟢
3	사전학습 Transformer 가중치 전이 가능	실험 수렴 곡선 (Fig.)	🟡 (재현 샘플 제한)
4	단백질 8192 서열에서 정확도 동등	TrEMBL 정확도 곡선	🟢
5	짧은 시퀀스에선 오히려 느림	저자 명시 + wall-clock	🟢

읽기 난이도: ⭐⭐⭐

가우시안 적분, RKHS, 랜덤 특징 이론, Transformer 구현 상세까지 요구. 전제: Rahimi–Recht 랜덤 특징, Linear Attention, softmax 커널 해석.

축	Performer (본 논문)	Linear Attention (Katharopoulos 2020)	Linformer (Wang 2020)	Reformer (Kitaev 2020)	RFA (Peng 2021)
핵심 접근	양의 직교 RF 로 softmax 커널 편향없이 분해	φ(x)=elu(x)+1 로 linearize	키/값 low-rank projection	LSH 기반 sparse attention	삼각 RF 로 softmax 근사
문제 정의	softmax unbiased linear approx	causal 자동 회귀 가속	고정 projection 으로 속도	매우 긴 시퀀스 sparse	softmax RF 근사
데이터	단백질/ImageNet64/PG-19	WMT, autoregressive	GLUE	enwik8, imagenet	LM/MT
핵심 메트릭	BPD 3.719 / TrEMBL 동등	속도 ↑, 품질 trade	sequence-length 무관 속도	긴 시퀀스 메모리	LM perplexity
확장성	O(L·r·d)	O(L·d²)	O(L·k) fixed k	O(L log L)	O(L·r·d)
한계	분산 ∝ exp(‖q+k‖²)	softmax 근사 아님	k 고정 → 일반화 제한	LSH 히트율 민감	삼각 RF 음수 문제
코드 공개	✅	✅	✅	✅	✅

원자적 인사이트 (Zettelkasten)

💡 양수 랜덤 특징이 softmax 분모 분산 폭발을 막는다

출처: Performer - Rethinking Attention with Performers (Choromanski et al., 2020)
유형: 이론적

삼각함수 기반 랜덤 특징(cos/sin)은 음수 샘플을 포함해 추정값이 0 근처로 수렴할 때 상대 오차가 폭발한다. 반면 exp(ωᵀx − ||x||²/2) 라는 양의 특징은 모든 샘플이 0 보다 크므로, softmax 커널 값이 작은 영역에서도 상대 분산이 지수적으로 작게 유지된다(Lemma 2).

핵심 조건/맥락: 분모 항이 있는 정규화된 커널 추정 일반에 적용 — softmax 어텐션뿐 아니라 Gibbs/Boltzmann 분포 추정에도 전이 가능.
연결: Random Features for Large-Scale Kernel Machines (Rahimi-Recht 2007) 의 한계를 구체적으로 드러냄.
활용 가능성: RoPE/ALiBi 가 결합된 최신 LLM 에 PRF 를 이식할 때 동일 원리 재사용.

💡 직교성은 편향 없는 추정자의 분산을 엄밀히 줄인다

출처: Performer - Rethinking Attention with Performers (Choromanski et al., 2020)
유형: 이론적

랜덤 투영 벡터 {ωᵢ} 를 Gram-Schmidt 로 직교화해도 주변 분포는 바뀌지 않지만(따라서 unbiased 유지), 샘플 간 음상관이 도입되어 MSE 가 엄격히 감소한다(Theorem 2). 이는 Monte Carlo 에서 “구조화된 랜덤성”이 단순 i.i.d. 보다 항상 이득이라는 일반 원리의 사례.

핵심 조건/맥락: r ≤ d 범위에서 직교화 가능. r>d 일 땐 블록 단위 직교화.
연결: Orthogonal Random Features (Yu 2016), Quasi-Monte Carlo methods.
활용 가능성: Gaussian Process 추론, kernel SVM 의 랜덤 특징 가속 전반.

💡 행렬곱 결합법칙만으로 어텐션을 선형화할 수 있다

출처: Performer - Rethinking Attention with Performers (Choromanski et al., 2020)
유형: 방법론적

Attn(Q,K,V) = softmax(QKᵀ)V 에서 softmax 를 φ(Q)φ(K)ᵀ 로 분해하면 (φ(Q)φ(K)ᵀ)V = φ(Q)(φ(K)ᵀV) 로 재배열 가능하다. 중간 텐서 크기가 L×L → r×d 로 줄어 O(L²) → O(L·r·d) 가속이 성립.

핵심 조건/맥락: softmax 를 inner-product 형태로 분해할 수 있을 때만. masked/causal 에선 prefix-sum 트릭 추가 필요.
연결: Linear Attention - Transformers are RNNs 의 causal prefix-sum, FLASH, Mamba 의 상태 공간 누적.
활용 가능성: 모든 “커널화 가능한” 정규화 어텐션 — Performer, RFA, cosFormer 등.

💡 편향 없는 근사는 사전학습 가중치 호환성을 보존한다

출처: Performer - Rethinking Attention with Performers (Choromanski et al., 2020)
유형: 실험적

Performer 로 아키텍처를 바꿔도 기존 Transformer 의 사전학습 가중치를 그대로 이식 후 소량 fine-tune 만으로 성능이 회복된다. 삼각 RF 기반은 회복 실패. “편향 없는 근사” 가 단순 이론적 미덕이 아니라 실용적 호환성 의 조건임을 보인다.

핵심 조건/맥락: 근사 오차의 기대값이 0 일 때 사전학습 분포 이동이 작아 파인튜닝으로 수렴.
연결: Knowledge distillation 에서의 bias-variance 논의, LoRA 의 사전학습 호환.
활용 가능성: 거대 LLM 의 효율화 어텐션 전환 시 “편향 없음” 을 우선 조건으로 삼아야 함.

💡 FAVOR+ 의 분산은 쿼리/키 노름에 지수적으로 민감하다

출처: Performer - Rethinking Attention with Performers (Choromanski et al., 2020)
유형: 실패/한계

MSE ∝ exp(||q+k||²) 이므로 쿼리·키 노름이 커지면 근사 품질이 급격히 나빠진다. 실전에서는 LayerNorm/QK-norm 으로 노름을 제어해야 Performer 가 안정적으로 학습된다.

핵심 조건/맥락: pre-norm Transformer 에서는 비교적 안정, post-norm 에서는 주의.
연결: QK-Norm, Stabilizing Transformer Training.
활용 가능성: 선형 어텐션 전반의 안정화 — norm 규제를 아키텍처 레벨에서 설계해야 함.

핵심 용어 정리

용어	정의
FAVOR+	Fast Attention Via positive Orthogonal Random features. Performer 의 핵심 알고리즘
Random Feature (RF)	커널 K(x,y)=𝔼[φ(x,ω)ᵀφ(y,ω)] 로 분해하는 유한 차원 특징 맵
Positive RF (PRF)	모든 성분이 양수인 RF. 여기선 exp(ωᵀx−
Orthogonal RF (ORF)	랜덤 투영 행렬의 행을 직교화한 RF. 분산을 엄격히 줄임
Softmax kernel	K(x,y)=exp(xᵀy). 어텐션 가중치의 분자를 정의
Linear Attention	softmax 대신 임의 양의 φ 를 써서 O(L) 로 만든 어텐션 (Katharopoulos 2020)
Prefix sum (causal)	누적합으로 인과적 선형 어텐션을 O(L·r·d) 에 계산하는 트릭
Redrawing	학습 중 랜덤 투영 ω 를 주기적으로 재샘플링
BPD	Bits-per-dimension, 생성 모델의 로그우도 지표

핵심 수식

Softmax 분해: exp(xᵀy) = 𝔼_{ω∼N(0,I_d)} [exp(ωᵀx − ||x||²/2) · exp(ωᵀy − ||y||²/2)]
추정자: SM̂_m^{PRF}(x,y) = (1/m) Σ_{i=1}^{m} exp(ωᵢᵀx − ||x||²/2) · exp(ωᵢᵀy − ||y||²/2)
분산 상한(Lemma 2): MSE(SM̂_m^{PRF}) = (1/m) · exp(||x+y||²) · SM²(x,y) · (1 − exp(−||x+y||²))
선형 어텐션 계산: Attn̂(Q,K,V) = D⁻¹ · φ(Q) · (φ(K)ᵀ V), D = diag(φ(Q) · (φ(K)ᵀ 1_L))
복잡도: 시간 O(L·r·d), 공간 O(L·r + L·d + r·d)

Performer - Rethinking Attention with Performers