Hyena Hierarchy: 더 큰 합성곱 언어 모델을 향하여

Digest: Hyena는 Transformer의 self-attention을 완전히 대체하는 sub-quadratic 연산자로, 두 가지 효율적 프리미티브의 재귀적 합성으로 정의된다: **암묵적 매개변수화된 긴 합성곱(long convolution)**과 데이터-조건부 게이팅(data-controlled gating). 시퀀스 길이 L에 대해 O(NL log L) 복잡도를 가지며, attention의 O(L²) 장벽을 근본적으로 돌파한다. WikiText103과 The Pile에서 dense attention을 사용하지 않는 아키텍처 중 최초로 Transformer와 동등한 perplexity를 달성하였으며, 동일 시퀀스 길이 2K에서 20% 적은 FLOPs로 같은 품질에 도달한다. 시퀀스 길이 8K에서는 FlashAttention보다 2배 빠르고, 64K에서는 100배 빠른 속도를 보인다. Attention의 세 가지 핵심 속성(데이터 제어, 서브선형 파라미터 스케일링, 무제한 컨텍스트)을 모두 갖추면서 계산 비용을 낮춘 최초의 attention-free 아키텍처이다.

섹션별 요약

Introduction

Transformer의 O(L²) 비용이 긴 컨텍스트 처리의 근본적 제약
기존 sub-quadratic 근사(선형화, 희소 attention 등)는 dense attention과의 혼합이 필요
Mechanistic interpretability 연구에서 영감: attention 성능의 세 가지 핵심 속성 식별
1. 데이터 제어: 연산자 행렬이 입력 데이터에 의해 조건화
2. 서브선형 파라미터 스케일링: 파라미터 수가 시퀀스 길이와 독립
3. 무제한 컨텍스트: 임의의 두 위치 간 직접 의존성 학습 가능

Methods

Hyena Order-N 연산자: 입력 u에서 N+1개 투영(v, x¹, …, x^N)과 N개 학습 필터(h¹, …, h^N)로 재귀 정의
- z¹ = v, z^(n+1) = x^n ⊙ (h^n ∗ z^n) (⊙: element-wise 곱, ∗: FFT 합성곱)
암묵적 필터 파라미터화: h_t = Window(t) · (FFN ∘ PositionalEncoding)(t)
- 지수 감쇠 창함수 × sine 활성화 FFN → 파라미터 수와 필터 길이 완전 분리
행렬 표현: y = D^N_x · S^N_h · ... · D¹_x · S¹_h · v (D: 대각행렬, S: Toeplitz 행렬)
특수 케이스: GSS = Hyena₁, H3 = Hyena₂

Results

Associative Recall (131K 길이): Hyena 97.2% (유일하게 OOM 없이 성공)
WikiText103/The Pile: attention-free 중 최초 Transformer 동등 perplexity
335M 스케일: 20% FLOPs 절감하며 동등 품질
SuperGLUE: 153M Hyena(137B 토큰)가 169M RWKV(332B 토큰)와 경쟁적
속도: 8K에서 FlashAttention 대비 2배, 64K에서 100배

Discussion

Attention의 핵심 속성을 sub-quadratic으로 구현한 최초 아키텍처
장문 시퀀스에서의 이점이 새로운 응용(게놈, 초장문 텍스트) 개척
FFT 기반 합성곱의 하드웨어 이용률 한계와 짧은 시퀀스에서의 불리함은 인정

Insights

원칙적 설계: attention을 “근사”하는 대신, mechanistic interpretability에서 역산한 핵심 속성 3가지를 그대로 구현하는 접근법이 기존 시도와 근본적으로 다른 점
시간-주파수 이중성: 시간 도메인의 element-wise 곱 ↔ 주파수 도메인의 합성곱 교환 활용. “메모리 길이 확장”과 “주파수 선택성 확보” 동시 달성
SSM 계열의 일반화: S4 → H3 → Hyena로 이어지는 계보에서, Hyena는 butterfly 분해 기반 구조화 행렬 이론과도 연결
Neural Implicit Representation: 필터의 암묵적 파라미터화는 NeRF, SIREN의 아이디어를 시퀀스 모델링에 적용한 것
비판적 코멘트: 완전한 Transformer와의 격차가 여전히 존재하며, 더 큰 스케일에서의 검증 필요

Discussion Points

“Attention이 실제로 필요한가?”: 핵심 강점이 quadratic 행렬이 아닌 3가지 속성에서 비롯됨을 주장하나, softmax 비선형성의 별도 중요성에 대한 반론 존재
후속 연구: Hyena → StripedHyena(attention과 Hyena 교차 하이브리드) → HyenaDNA(DNA 1M bp) → Evo(게놈 7B) → [Evo2_2025_GenomeFoundationModel|Evo 2]

메타데이터

항목	내용
제목	Hyena Hierarchy: Towards Larger Convolutional Language Models
저자	Michael Poli, Stefano Massaroli, Eric Nguyen, Daniel Y. Fu, Tri Dao 외
소속	Stanford University; Mila & Université de Montréal
연도	2023
학회	ICML 2023 (Oral)
링크	arXiv, GitHub
키워드	Hyena operator, sub-quadratic, long convolution, data-controlled gating

BibTeX

@inproceedings{poli2023hyena,
  title={Hyena Hierarchy: Towards Larger Convolutional Language Models},
  author={Poli, Michael and Massaroli, Stefano and Nguyen, Eric and Fu, Daniel Y. and Dao, Tri and Baccus, Stephen and Bengio, Yoshua and Ermon, Stefano and R\'{e}, Christopher},
  booktitle={Proceedings of the 40th International Conference on Machine Learning},
  pages={28043--28078},
  year={2023},
  volume={202},
  series={PMLR}
}

왜 이 연구를 하는가?

핵심 질문

Attention의 핵심 속성을 유지하면서 sub-quadratic 복잡도로 동등한 품질을 달성할 수 있는가?

기존 접근법의 한계

한계	설명
선형 attention / 희소 attention	Transformer 품질 달성에 dense attention 혼합 필수
기존 SSM (S4, H3)	무제한 컨텍스트 있으나 약한 데이터 제어
AFT, RWKV	게이팅 + 선형 시간이나 Transformer 품질 미달

핵심 통찰

문제를 “attention 근사”에서 “3가지 속성을 sub-quadratic으로 구현”으로 재정의한 것이 핵심 전환

방법 (Method)

프레임워크 개요

graph TD
    U["입력 u (L x D)"] --> PROJ["선형 투영 (N+1)D"]
    PROJ --> V["v: 초기 은닉 상태"]
    PROJ --> X["x1...xN: 게이팅 신호"]
    PROJ --> FILT["HyenaFilter\n위치인코딩 → FFN → Window"]
    FILT --> HN["필터 h1...hN"]
    V --> Z1["z1 = v"]
    Z1 --> MUL1["z2 = x1 ⊙ FFTConv(h1, z1)"]
    MUL1 --> MUL2["z3 = x2 ⊙ FFTConv(h2, z2)"]
    MUL2 --> MULN["zN+1 = xN ⊙ FFTConv(hN, zN)"]
    MULN --> OUT["출력 y (L x D)"]
    HN --> MUL1
    HN --> MUL2
    HN --> MULN
    X --> MUL1
    X --> MUL2
    X --> MULN

복잡도 비교

연산자	시간 복잡도	데이터 제어	무제한 컨텍스트
Self-Attention	O(L²D)	✓	✓
Hyena Order-N	O(NDL log L)	✓	✓
SSM (S4)	O(L log L)	✗ (약한)	✓

발견 (Findings)

Associative Recall (vocab 30)

시퀀스 길이	Hyena	FlashTransformer	GSS	H3	RWKV
30k	100.0	32.4	5.3	8.4	12.4
64k	100.0	26.7	2.1	4.3	6.5
131k	97.2	OOM	0.1	0.6	2.3

속도 (vs FlashAttention)

시퀀스 길이	Hyena 속도 배율
8,192	2×
64,000	100×

이론적 의의

Attention 속성 분해: 성능을 3가지 독립 속성으로 환원 → 후속 아키텍처 설계의 이론적 지침
구조화 행렬 이론과 연결: D-S 교차 분해가 butterfly 행렬 분해 프레임워크에 위치
암묵적 신경 표현: 파라미터 수와 필터 길이(메모리)를 완전 분리하는 원리적 방법

핵심 용어 정리

용어	정의
Hyena 연산자	암묵적 긴 합성곱과 element-wise 게이팅을 교차하는 재귀로 정의된 sub-quadratic 연산자
Data-controlled operator	행렬 표현이 입력 데이터에 의해 조건화되는 연산자 클래스
Implicit parametrization	h_t = γ_θ(t)처럼 함수로 필터 표현. 파라미터 수와 필터 길이 분리
Long convolution	필터 크기 M = 입력 길이 L인 합성곱. 무제한 컨텍스트 확보
Toeplitz matrix	각 대각선 원소가 동일한 행렬. 합성곱의 행렬 표현
FFTConv	FFT 활용 O(L log L) 긴 합성곱 계산법
Causal convolution	현재 시점 t의 출력이 과거 n ≤ t에만 의존하는 인과적 합성곱

Juhyeon's Blog

탐색기

Hyena Hierarchy - Towards Larger Convolutional Language Models

Hyena Hierarchy: 더 큰 합성곱 언어 모델을 향하여

섹션별 요약

Introduction

Methods

Results

Discussion

Insights

Discussion Points

메타데이터

BibTeX

왜 이 연구를 하는가?

핵심 질문

기존 접근법의 한계

핵심 통찰

방법 (Method)

프레임워크 개요

복잡도 비교

발견 (Findings)

Associative Recall (vocab 30)

속도 (vs FlashAttention)

이론적 의의

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크