Digest: Hyena는 Transformer의 self-attention을 완전히 대체하는 sub-quadratic 연산자로, 두 가지 효율적 프리미티브의 재귀적 합성으로 정의된다: **암묵적 매개변수화된 긴 합성곱(long convolution)**과 데이터-조건부 게이팅(data-controlled gating). 시퀀스 길이 L에 대해 O(NL log L) 복잡도를 가지며, attention의 O(L²) 장벽을 근본적으로 돌파한다. WikiText103과 The Pile에서 dense attention을 사용하지 않는 아키텍처 중 최초로 Transformer와 동등한 perplexity를 달성하였으며, 동일 시퀀스 길이 2K에서 20% 적은 FLOPs로 같은 품질에 도달한다. 시퀀스 길이 8K에서는 FlashAttention보다 2배 빠르고, 64K에서는 100배 빠른 속도를 보인다. Attention의 세 가지 핵심 속성(데이터 제어, 서브선형 파라미터 스케일링, 무제한 컨텍스트)을 모두 갖추면서 계산 비용을 낮춘 최초의 attention-free 아키텍처이다.
섹션별 요약
Introduction
Transformer의 O(L²) 비용이 긴 컨텍스트 처리의 근본적 제약
기존 sub-quadratic 근사(선형화, 희소 attention 등)는 dense attention과의 혼합이 필요
Mechanistic interpretability 연구에서 영감: attention 성능의 세 가지 핵심 속성 식별
데이터 제어: 연산자 행렬이 입력 데이터에 의해 조건화
서브선형 파라미터 스케일링: 파라미터 수가 시퀀스 길이와 독립
무제한 컨텍스트: 임의의 두 위치 간 직접 의존성 학습 가능
Methods
Hyena Order-N 연산자: 입력 u에서 N+1개 투영(v, x¹, …, x^N)과 N개 학습 필터(h¹, …, h^N)로 재귀 정의
Hyena operator, sub-quadratic, long convolution, data-controlled gating
BibTeX
@inproceedings{poli2023hyena, title={Hyena Hierarchy: Towards Larger Convolutional Language Models}, author={Poli, Michael and Massaroli, Stefano and Nguyen, Eric and Fu, Daniel Y. and Dao, Tri and Baccus, Stephen and Bengio, Yoshua and Ermon, Stefano and R\'{e}, Christopher}, booktitle={Proceedings of the 40th International Conference on Machine Learning}, pages={28043--28078}, year={2023}, volume={202}, series={PMLR}}
왜 이 연구를 하는가?
핵심 질문
Attention의 핵심 속성을 유지하면서 sub-quadratic 복잡도로 동등한 품질을 달성할 수 있는가?
기존 접근법의 한계
한계
설명
선형 attention / 희소 attention
Transformer 품질 달성에 dense attention 혼합 필수
기존 SSM (S4, H3)
무제한 컨텍스트 있으나 약한 데이터 제어
AFT, RWKV
게이팅 + 선형 시간이나 Transformer 품질 미달
핵심 통찰
문제를 “attention 근사”에서 “3가지 속성을 sub-quadratic으로 구현”으로 재정의한 것이 핵심 전환
방법 (Method)
프레임워크 개요
graph TD
U["입력 u (L x D)"] --> PROJ["선형 투영 (N+1)D"]
PROJ --> V["v: 초기 은닉 상태"]
PROJ --> X["x1...xN: 게이팅 신호"]
PROJ --> FILT["HyenaFilter\n위치인코딩 → FFN → Window"]
FILT --> HN["필터 h1...hN"]
V --> Z1["z1 = v"]
Z1 --> MUL1["z2 = x1 ⊙ FFTConv(h1, z1)"]
MUL1 --> MUL2["z3 = x2 ⊙ FFTConv(h2, z2)"]
MUL2 --> MULN["zN+1 = xN ⊙ FFTConv(hN, zN)"]
MULN --> OUT["출력 y (L x D)"]
HN --> MUL1
HN --> MUL2
HN --> MULN
X --> MUL1
X --> MUL2
X --> MULN
복잡도 비교
연산자
시간 복잡도
데이터 제어
무제한 컨텍스트
Self-Attention
O(L²D)
✓
✓
Hyena Order-N
O(NDL log L)
✓
✓
SSM (S4)
O(L log L)
✗ (약한)
✓
발견 (Findings)
Associative Recall (vocab 30)
시퀀스 길이
Hyena
FlashTransformer
GSS
H3
RWKV
30k
100.0
32.4
5.3
8.4
12.4
64k
100.0
26.7
2.1
4.3
6.5
131k
97.2
OOM
0.1
0.6
2.3
속도 (vs FlashAttention)
시퀀스 길이
Hyena 속도 배율
8,192
2×
64,000
100×
이론적 의의
Attention 속성 분해: 성능을 3가지 독립 속성으로 환원 → 후속 아키텍처 설계의 이론적 지침
구조화 행렬 이론과 연결: D-S 교차 분해가 butterfly 행렬 분해 프레임워크에 위치