StripedHyena: Transformer를 넘어서는 하이브리드 신호 처리 모델

Digest: StripedHyena(SH)는 2023년 12월 Together AI가 공개한 하이브리드 시퀀스 모델로, Transformer의 self-attention을 부분적으로만 사용하고 나머지를 Hyena 게이티드 합성곱 연산자로 대체한 최초의 7B급 “beyond-Transformer” 아키텍처이다. 핵심 아이디어는 서로 다른 연산자 유형을 교차(stripe) 배치하는 것으로, Hyena 레이어가 시퀀스 처리의 대부분을 담당하고 Attention 레이어가 정밀한 **패턴 리콜(targeted recall)**을 보조한다. “혼합 아키텍처는 동질 아키텍처를 항상 능가한다”는 핵심 경험적 법칙을 뒷받침하며, 시퀀스 길이 128k에서 FlashAttention v2 대비 100% 이상 빠른 학습 속도, 추론 캐시 크기 50% 이상 절감을 달성한다. 이 아키텍처는 Evo(7B, 131k 컨텍스트)의 직접 선행 아키텍처이며, StripedHyena 2Evo 2(40B, 1M 컨텍스트)에 채택되었다.


섹션별 요약

동기 및 배경

  • Transformer의 O(L²) 복잡도 + KV 캐시 기하급수적 성장이 장문맥 처리의 병목
  • 순수 SSM/Hyena는 7B 규모에서 Transformer 품질 미달
  • 가설: 이질적 연산자의 기능적 보완성이 두 극단보다 우수할 수 있음

아키텍처 설계

  • “Striped” 패턴: 32 레이어 중 ~7/8이 Hyena 블록, ~1/8이 Rotary GQA(Grouped Query Attention) 블록
  • Hyena 레이어: 장거리 의존성, 압축, 패턴 추출 (bulk 연산)
  • Attention 레이어: 정밀한 패턴 리콜, 특정 토큰 간 직접 상호작용
  • 핵심 발견: 혼합 비율 ~12.5%가 모든 FLOP 그룹에서 순수 Hyena·순수 Transformer 모두 능가

Model Grafting

  • Mistral 아키텍처의 컴포넌트와 Hyena를 **접합(graft)**하여 학습 비용 절감
  • (book-free) RedPajama + 장문맥 데이터로 추가 학습, 최대 32k 시퀀스 길이

벤치마크

  • OpenLLM Leaderboard: Llama-2 7B, Yi 7B, RWKV 14B 능가; Mistral 7B와 유사
  • 장문 과제: 32k 이상에서 perplexity 지속 감소, 장문 요약에서 Mistral 7B 대비 우위

Insights

  • Transformer vs. SSM 이분법 해소: 소량의 Attention(~1/8 레이어)이 recall 능력을 대폭 향상시키면서 효율성은 유지하는 “sweet spot” 발견
  • 연구 계보: Hyena → StripedHyena → Evo → Mechanistic Architecture Design → StripedHyena 2 → Evo 2
  • 실용적 시사점: 장문맥 파인튜닝(SFT, RLHF)에서 비용 효율 Transformer 대비 2배 이상 → 코드, 법률, 게놈 도메인에 매력적
  • 이론적 시사점: Attention = in-context recall, Hyena = bulk sequence modeling이라는 기능적 분업 해석이 MAD(Mechanistic Architecture Design) 연구의 기반

Discussion Points

  • 그래프팅 효과 분리 어려움: 순수 StripedHyena 성능 vs. Mistral 사전학습 지식 전이 효과 미분리
  • 스케일 검증 필요: 7B 이하에서의 발견이 70B+ 대규모에서도 유지되는지 미확인
  • arXiv 미공개: 블로그+GitHub만으로 공개되어 재현성·검증 가능성 제한

메타데이터

항목내용
제목StripedHyena: Moving Beyond Transformers with Hybrid Signal Processing Models
저자Michael Poli, Jue Wang, Stefano Massaroli, Jeffrey Quesnelle, Ryan Carlow, Eric Nguyen, Armin Thomas
소속Together AI / Arc Institute
연도2023년 12월
발표기술 보고서 (블로그 + GitHub)
링크Blog, GitHub, HF
키워드Hybrid architecture, Hyena, Attention, Striped pattern, Model grafting, Long context

BibTeX

@techreport{poli2023stripedhyena,
  title={StripedHyena: Moving Beyond Transformers with Hybrid Signal Processing Models},
  author={Poli, Michael and Wang, Jue and Massaroli, Stefano and Quesnelle, Jeffrey and Carlow, Ryan and Nguyen, Eric and Thomas, Armin},
  institution={Together AI},
  year={2023},
  month={December},
  url={https://www.together.ai/blog/stripedhyena-7b},
  doi={10.57967/hf/1595}
}

왜 이 연구를 하는가?

핵심 질문

소량의 Attention과 다량의 Hyena를 교차 배치하면, Transformer 품질을 유지하면서 장문맥 효율을 극적으로 개선할 수 있는가?

핵심 통찰

  • Attention: targeted recall(특정 토큰 쌍 정밀 검색)에 특화
  • Hyena: bulk sequence modeling(전체 시퀀스 패턴 추출·압축)에 특화
  • 두 연산자의 기능적 보완성에서 성능 이득 발생

방법 (Method)

프레임워크 개요

graph TD
    A["입력 시퀀스 (토큰)"] --> B["임베딩 레이어"]
    B --> C["StripedHyena 레이어 스택 (32개)"]

    subgraph STRIPE["Striped 인터리빙 패턴"]
        H1["Hyena 블록 x7\nbulk 시퀀스 처리"]
        AT["Attention 블록 x1\ntargeted recall"]
    end

    C --> STRIPE

    subgraph HYENA["Hyena 블록"]
        P1["입력 투영 → v, x1, x2"]
        P2["암묵적 합성곱 필터 (FFT)"]
        P3["데이터 제어 게이팅"]
    end

    subgraph ATTN["Attention 블록"]
        Q1["Rotary GQA"]
    end

    H1 --> HYENA
    AT --> ATTN
    HYENA --> F["FFN (SwiGLU) + 잔차"]
    ATTN --> F
    F --> OUT["다음 토큰 예측"]

StripedHyena 2로의 발전 (Evo 2 채택)

StripedHyena 2는 단일 Hyena 연산자를 세 유형으로 분화:

  • SE (Short-Explicit): 짧은 수용 필드, 하드웨어 효율 최대화, 로컬 멀티토큰 리콜
  • MR (Medium-Regularized): 정규화된 합성곱, 수백 토큰 중거리 모델링
  • LI (Long-Implicit): FFN 파라미터화 암묵적 필터, 전체 시퀀스 장거리 집계

효율성

시나리오Transformer++ 대비
학습 속도 (32k)>30% 빠름
학습 속도 (64k)>50% 빠름
학습 속도 (128k)>100% 빠름
추론 캐시 크기>50% 작음
오토레그레시브 생성단일 80GB GPU에서 500k+ 토큰

발견 (Findings)

핵심 발견

  1. 혼합 우위: 모든 FLOP 예산에서 Attention+Hyena 혼합이 순수 Attention·순수 Hyena 모두 능가
  2. 개선된 스케일링 법칙: Llama-2 / Transformer++ 대비 더 낮은 perplexity 달성
  3. 장문맥 perplexity 지속 감소: 학습 컨텍스트(32k) 초과 입력에서도 포화 없이 개선
  4. 효율성의 시퀀스 길이 의존성: 길어질수록 이점 극대화 (O(L log L) vs O(L²))
  5. 벤치마크 동등성: 7B 규모에서 비-Transformer 최초로 동급 Transformer와 동등

이론적 의의

  • 연산자 기능 분화 이론: Attention과 장거리 합성곱이 서로 다른 계산 함수 수행 → MAD 연구 기반
  • 신호 처리 관점: Hyena 필터 = 학습 가능 LTI 시스템, Attention = 비선형 데이터 의존적 필터
  • 스케일링 법칙의 아키텍처 의존성: 아키텍처 설계 자체가 compute-optimal 학습의 핵심 변수
  • 하이브리드 설계 공간: “몇 %의 Attention이 최적인가”라는 새로운 연구 문제 제기

관련 연구

  • Hyena Hierarchy (ICML 2023) — 직접 선행. Hyena 연산자 제안
  • S4 / Mamba — 병렬 SSM 계열
  • RWKV-v5/v6 — 경쟁 아키텍처, 7B 비교 대상
  • FlashFFTConv — StripedHyena의 학습 효율 핵심 기술
  • Evo (2024) — SH로 300B 게놈 토큰 학습
  • Evo 2 (2025) — StripedHyena 2(SE/MR/LI) 채택, 40B, 1M 컨텍스트
  • Jamba (AI21, 2024) — Mamba + Transformer 하이브리드 병렬 연구

핵심 용어 정리

용어정의
Striped 패턴Hyena 레이어와 Attention 레이어를 특정 비율로 교차 배치하는 설계
Model Grafting사전학습 모델 일부 레이어를 다른 연산자로 교체 후 추가 학습
Targeted Pattern RecallAttention 특화 기능: 입력 내 특정 위치 정보 정밀 검색
Bulk Sequence ProcessingHyena 특화 기능: 전체 시퀀스 패턴 추출·압축
GQA (Grouped Query Attention)여러 쿼리 헤드가 키·값을 공유하는 효율적 멀티헤드 어텐션
SE/MR/LI (SH2)Short-Explicit / Medium-Regularized / Long-Implicit: SH2의 세 연산자 유형
FlashFFTConv게이티드 합성곱용 IO-aware GPU 커널

태그

paper #2023 Architecture HybridModel StripedHyena Hyena Attention LongContext SubQuadratic TogetherAI BeyondTransformer ModelGrafting