Hyena Hierarchy: 더 큰 합성곱 언어 모델을 향하여

Digest: Hyena는 Transformer의 self-attention을 완전히 대체하는 sub-quadratic 연산자로, 두 가지 효율적 프리미티브의 재귀적 합성으로 정의된다: **암묵적 매개변수화된 긴 합성곱(long convolution)**과 데이터-조건부 게이팅(data-controlled gating). 시퀀스 길이 L에 대해 O(NL log L) 복잡도를 가지며, attention의 O(L²) 장벽을 근본적으로 돌파한다. WikiText103과 The Pile에서 dense attention을 사용하지 않는 아키텍처 중 최초로 Transformer와 동등한 perplexity를 달성하였으며, 동일 시퀀스 길이 2K에서 20% 적은 FLOPs로 같은 품질에 도달한다. 시퀀스 길이 8K에서는 FlashAttention보다 2배 빠르고, 64K에서는 100배 빠른 속도를 보인다. Attention의 세 가지 핵심 속성(데이터 제어, 서브선형 파라미터 스케일링, 무제한 컨텍스트)을 모두 갖추면서 계산 비용을 낮춘 최초의 attention-free 아키텍처이다.


섹션별 요약

Introduction

  • Transformer의 O(L²) 비용이 긴 컨텍스트 처리의 근본적 제약
  • 기존 sub-quadratic 근사(선형화, 희소 attention 등)는 dense attention과의 혼합이 필요
  • Mechanistic interpretability 연구에서 영감: attention 성능의 세 가지 핵심 속성 식별
    1. 데이터 제어: 연산자 행렬이 입력 데이터에 의해 조건화
    2. 서브선형 파라미터 스케일링: 파라미터 수가 시퀀스 길이와 독립
    3. 무제한 컨텍스트: 임의의 두 위치 간 직접 의존성 학습 가능

Methods

  • Hyena Order-N 연산자: 입력 u에서 N+1개 투영(v, x¹, …, x^N)과 N개 학습 필터(h¹, …, h^N)로 재귀 정의
    • z¹ = v, z^(n+1) = x^n ⊙ (h^n ∗ z^n) (⊙: element-wise 곱, ∗: FFT 합성곱)
  • 암묵적 필터 파라미터화: h_t = Window(t) · (FFN ∘ PositionalEncoding)(t)
    • 지수 감쇠 창함수 × sine 활성화 FFN → 파라미터 수와 필터 길이 완전 분리
  • 행렬 표현: y = D^N_x · S^N_h · ... · D¹_x · S¹_h · v (D: 대각행렬, S: Toeplitz 행렬)
  • 특수 케이스: GSS = Hyena₁, H3 = Hyena₂

Results

  • Associative Recall (131K 길이): Hyena 97.2% (유일하게 OOM 없이 성공)
  • WikiText103/The Pile: attention-free 중 최초 Transformer 동등 perplexity
  • 335M 스케일: 20% FLOPs 절감하며 동등 품질
  • SuperGLUE: 153M Hyena(137B 토큰)가 169M RWKV(332B 토큰)와 경쟁적
  • 속도: 8K에서 FlashAttention 대비 2배, 64K에서 100배

Discussion

  • Attention의 핵심 속성을 sub-quadratic으로 구현한 최초 아키텍처
  • 장문 시퀀스에서의 이점이 새로운 응용(게놈, 초장문 텍스트) 개척
  • FFT 기반 합성곱의 하드웨어 이용률 한계와 짧은 시퀀스에서의 불리함은 인정

Insights

  • 원칙적 설계: attention을 “근사”하는 대신, mechanistic interpretability에서 역산한 핵심 속성 3가지를 그대로 구현하는 접근법이 기존 시도와 근본적으로 다른 점
  • 시간-주파수 이중성: 시간 도메인의 element-wise 곱 ↔ 주파수 도메인의 합성곱 교환 활용. “메모리 길이 확장”과 “주파수 선택성 확보” 동시 달성
  • SSM 계열의 일반화: S4 → H3 → Hyena로 이어지는 계보에서, Hyena는 butterfly 분해 기반 구조화 행렬 이론과도 연결
  • Neural Implicit Representation: 필터의 암묵적 파라미터화는 NeRF, SIREN의 아이디어를 시퀀스 모델링에 적용한 것
  • 비판적 코멘트: 완전한 Transformer와의 격차가 여전히 존재하며, 더 큰 스케일에서의 검증 필요

Discussion Points

  • “Attention이 실제로 필요한가?”: 핵심 강점이 quadratic 행렬이 아닌 3가지 속성에서 비롯됨을 주장하나, softmax 비선형성의 별도 중요성에 대한 반론 존재
  • 후속 연구: Hyena → StripedHyena(attention과 Hyena 교차 하이브리드) → HyenaDNA(DNA 1M bp) → Evo(게놈 7B) → [Evo2_2025_GenomeFoundationModel|Evo 2]

메타데이터

항목내용
제목Hyena Hierarchy: Towards Larger Convolutional Language Models
저자Michael Poli, Stefano Massaroli, Eric Nguyen, Daniel Y. Fu, Tri Dao 외
소속Stanford University; Mila & Université de Montréal
연도2023
학회ICML 2023 (Oral)
링크arXiv, GitHub
키워드Hyena operator, sub-quadratic, long convolution, data-controlled gating

BibTeX

@inproceedings{poli2023hyena,
  title={Hyena Hierarchy: Towards Larger Convolutional Language Models},
  author={Poli, Michael and Massaroli, Stefano and Nguyen, Eric and Fu, Daniel Y. and Dao, Tri and Baccus, Stephen and Bengio, Yoshua and Ermon, Stefano and R\'{e}, Christopher},
  booktitle={Proceedings of the 40th International Conference on Machine Learning},
  pages={28043--28078},
  year={2023},
  volume={202},
  series={PMLR}
}

왜 이 연구를 하는가?

핵심 질문

Attention의 핵심 속성을 유지하면서 sub-quadratic 복잡도로 동등한 품질을 달성할 수 있는가?

기존 접근법의 한계

한계설명
선형 attention / 희소 attentionTransformer 품질 달성에 dense attention 혼합 필수
기존 SSM (S4, H3)무제한 컨텍스트 있으나 약한 데이터 제어
AFT, RWKV게이팅 + 선형 시간이나 Transformer 품질 미달

핵심 통찰

문제를 “attention 근사”에서 “3가지 속성을 sub-quadratic으로 구현”으로 재정의한 것이 핵심 전환


방법 (Method)

프레임워크 개요

graph TD
    U["입력 u (L x D)"] --> PROJ["선형 투영 (N+1)D"]
    PROJ --> V["v: 초기 은닉 상태"]
    PROJ --> X["x1...xN: 게이팅 신호"]
    PROJ --> FILT["HyenaFilter\n위치인코딩 → FFN → Window"]
    FILT --> HN["필터 h1...hN"]
    V --> Z1["z1 = v"]
    Z1 --> MUL1["z2 = x1 ⊙ FFTConv(h1, z1)"]
    MUL1 --> MUL2["z3 = x2 ⊙ FFTConv(h2, z2)"]
    MUL2 --> MULN["zN+1 = xN ⊙ FFTConv(hN, zN)"]
    MULN --> OUT["출력 y (L x D)"]
    HN --> MUL1
    HN --> MUL2
    HN --> MULN
    X --> MUL1
    X --> MUL2
    X --> MULN

복잡도 비교

연산자시간 복잡도데이터 제어무제한 컨텍스트
Self-AttentionO(L²D)
Hyena Order-NO(NDL log L)
SSM (S4)O(L log L)✗ (약한)

발견 (Findings)

Associative Recall (vocab 30)

시퀀스 길이HyenaFlashTransformerGSSH3RWKV
30k100.032.45.38.412.4
64k100.026.72.14.36.5
131k97.2OOM0.10.62.3

속도 (vs FlashAttention)

시퀀스 길이Hyena 속도 배율
8,192
64,000100×

이론적 의의

  1. Attention 속성 분해: 성능을 3가지 독립 속성으로 환원 → 후속 아키텍처 설계의 이론적 지침
  2. 구조화 행렬 이론과 연결: D-S 교차 분해가 butterfly 행렬 분해 프레임워크에 위치
  3. 암묵적 신경 표현: 파라미터 수와 필터 길이(메모리)를 완전 분리하는 원리적 방법

관련 연구

  • S4 (2021) — HiPPO 기반 SSM, 장거리 의존성 기초
  • H3 (Hungry Hungry Hippo) (2022) — shift SSM + diagonal SSM = Hyena₂
  • GSS (2022) — Gated State Space = Hyena₁
  • Mamba (2023) — 선택적 SSM, Hyena와 경쟁적 접근
  • StripedHyena (2023) — Hyena+Attention 하이브리드 7B
  • HyenaDNA (2023) — DNA 서열 1M bp 컨텍스트
  • Evo / Evo 2 — Hyena 계보의 생물학 응용

핵심 용어 정리

용어정의
Hyena 연산자암묵적 긴 합성곱과 element-wise 게이팅을 교차하는 재귀로 정의된 sub-quadratic 연산자
Data-controlled operator행렬 표현이 입력 데이터에 의해 조건화되는 연산자 클래스
Implicit parametrizationh_t = γ_θ(t)처럼 함수로 필터 표현. 파라미터 수와 필터 길이 분리
Long convolution필터 크기 M = 입력 길이 L인 합성곱. 무제한 컨텍스트 확보
Toeplitz matrix각 대각선 원소가 동일한 행렬. 합성곱의 행렬 표현
FFTConvFFT 활용 O(L log L) 긴 합성곱 계산법
Causal convolution현재 시점 t의 출력이 과거 n ≤ t에만 의존하는 인과적 합성곱

태그

paper #2023 Architecture SubQuadratic LongConvolution HyenaOperator AttentionFree SSM ICML2023 DataControlledGating