StripedHyena: Transformer를 넘어서는 하이브리드 신호 처리 모델

Digest: StripedHyena(SH)는 2023년 12월 Together AI가 공개한 하이브리드 시퀀스 모델로, Transformer의 self-attention을 부분적으로만 사용하고 나머지를 Hyena 게이티드 합성곱 연산자로 대체한 최초의 7B급 “beyond-Transformer” 아키텍처이다. 핵심 아이디어는 서로 다른 연산자 유형을 교차(stripe) 배치하는 것으로, Hyena 레이어가 시퀀스 처리의 대부분을 담당하고 Attention 레이어가 정밀한 **패턴 리콜(targeted recall)**을 보조한다. “혼합 아키텍처는 동질 아키텍처를 항상 능가한다”는 핵심 경험적 법칙을 뒷받침하며, 시퀀스 길이 128k에서 FlashAttention v2 대비 100% 이상 빠른 학습 속도, 추론 캐시 크기 50% 이상 절감을 달성한다. 이 아키텍처는 Evo(7B, 131k 컨텍스트)의 직접 선행 아키텍처이며, StripedHyena 2가 Evo 2(40B, 1M 컨텍스트)에 채택되었다.

섹션별 요약

동기 및 배경

Transformer의 O(L²) 복잡도 + KV 캐시 기하급수적 성장이 장문맥 처리의 병목
순수 SSM/Hyena는 7B 규모에서 Transformer 품질 미달
가설: 이질적 연산자의 기능적 보완성이 두 극단보다 우수할 수 있음

아키텍처 설계

“Striped” 패턴: 32 레이어 중 ~7/8이 Hyena 블록, ~1/8이 Rotary GQA(Grouped Query Attention) 블록
Hyena 레이어: 장거리 의존성, 압축, 패턴 추출 (bulk 연산)
Attention 레이어: 정밀한 패턴 리콜, 특정 토큰 간 직접 상호작용
핵심 발견: 혼합 비율 ~12.5%가 모든 FLOP 그룹에서 순수 Hyena·순수 Transformer 모두 능가

Model Grafting

Mistral 아키텍처의 컴포넌트와 Hyena를 **접합(graft)**하여 학습 비용 절감
(book-free) RedPajama + 장문맥 데이터로 추가 학습, 최대 32k 시퀀스 길이

벤치마크

OpenLLM Leaderboard: Llama-2 7B, Yi 7B, RWKV 14B 능가; Mistral 7B와 유사
장문 과제: 32k 이상에서 perplexity 지속 감소, 장문 요약에서 Mistral 7B 대비 우위

Insights

Transformer vs. SSM 이분법 해소: 소량의 Attention(~1/8 레이어)이 recall 능력을 대폭 향상시키면서 효율성은 유지하는 “sweet spot” 발견
연구 계보: Hyena → StripedHyena → Evo → Mechanistic Architecture Design → StripedHyena 2 → Evo 2
실용적 시사점: 장문맥 파인튜닝(SFT, RLHF)에서 비용 효율 Transformer 대비 2배 이상 → 코드, 법률, 게놈 도메인에 매력적
이론적 시사점: Attention = in-context recall, Hyena = bulk sequence modeling이라는 기능적 분업 해석이 MAD(Mechanistic Architecture Design) 연구의 기반

Discussion Points

그래프팅 효과 분리 어려움: 순수 StripedHyena 성능 vs. Mistral 사전학습 지식 전이 효과 미분리
스케일 검증 필요: 7B 이하에서의 발견이 70B+ 대규모에서도 유지되는지 미확인
arXiv 미공개: 블로그+GitHub만으로 공개되어 재현성·검증 가능성 제한

메타데이터

항목	내용
제목	StripedHyena: Moving Beyond Transformers with Hybrid Signal Processing Models
저자	Michael Poli, Jue Wang, Stefano Massaroli, Jeffrey Quesnelle, Ryan Carlow, Eric Nguyen, Armin Thomas
소속	Together AI / Arc Institute
연도	2023년 12월
발표	기술 보고서 (블로그 + GitHub)
링크	Blog, GitHub, HF
키워드	Hybrid architecture, Hyena, Attention, Striped pattern, Model grafting, Long context

BibTeX

@techreport{poli2023stripedhyena,
  title={StripedHyena: Moving Beyond Transformers with Hybrid Signal Processing Models},
  author={Poli, Michael and Wang, Jue and Massaroli, Stefano and Quesnelle, Jeffrey and Carlow, Ryan and Nguyen, Eric and Thomas, Armin},
  institution={Together AI},
  year={2023},
  month={December},
  url={https://www.together.ai/blog/stripedhyena-7b},
  doi={10.57967/hf/1595}
}

왜 이 연구를 하는가?

핵심 질문

소량의 Attention과 다량의 Hyena를 교차 배치하면, Transformer 품질을 유지하면서 장문맥 효율을 극적으로 개선할 수 있는가?

핵심 통찰

Attention: targeted recall(특정 토큰 쌍 정밀 검색)에 특화
Hyena: bulk sequence modeling(전체 시퀀스 패턴 추출·압축)에 특화
두 연산자의 기능적 보완성에서 성능 이득 발생

방법 (Method)

프레임워크 개요

graph TD
    A["입력 시퀀스 (토큰)"] --> B["임베딩 레이어"]
    B --> C["StripedHyena 레이어 스택 (32개)"]

    subgraph STRIPE["Striped 인터리빙 패턴"]
        H1["Hyena 블록 x7\nbulk 시퀀스 처리"]
        AT["Attention 블록 x1\ntargeted recall"]
    end

    C --> STRIPE

    subgraph HYENA["Hyena 블록"]
        P1["입력 투영 → v, x1, x2"]
        P2["암묵적 합성곱 필터 (FFT)"]
        P3["데이터 제어 게이팅"]
    end

    subgraph ATTN["Attention 블록"]
        Q1["Rotary GQA"]
    end

    H1 --> HYENA
    AT --> ATTN
    HYENA --> F["FFN (SwiGLU) + 잔차"]
    ATTN --> F
    F --> OUT["다음 토큰 예측"]

StripedHyena 2로의 발전 (Evo 2 채택)

StripedHyena 2는 단일 Hyena 연산자를 세 유형으로 분화:

SE (Short-Explicit): 짧은 수용 필드, 하드웨어 효율 최대화, 로컬 멀티토큰 리콜
MR (Medium-Regularized): 정규화된 합성곱, 수백 토큰 중거리 모델링
LI (Long-Implicit): FFN 파라미터화 암묵적 필터, 전체 시퀀스 장거리 집계

효율성

시나리오	Transformer++ 대비
학습 속도 (32k)	>30% 빠름
학습 속도 (64k)	>50% 빠름
학습 속도 (128k)	>100% 빠름
추론 캐시 크기	>50% 작음
오토레그레시브 생성	단일 80GB GPU에서 500k+ 토큰

발견 (Findings)

핵심 발견

혼합 우위: 모든 FLOP 예산에서 Attention+Hyena 혼합이 순수 Attention·순수 Hyena 모두 능가
개선된 스케일링 법칙: Llama-2 / Transformer++ 대비 더 낮은 perplexity 달성
장문맥 perplexity 지속 감소: 학습 컨텍스트(32k) 초과 입력에서도 포화 없이 개선
효율성의 시퀀스 길이 의존성: 길어질수록 이점 극대화 (O(L log L) vs O(L²))
벤치마크 동등성: 7B 규모에서 비-Transformer 최초로 동급 Transformer와 동등

이론적 의의

연산자 기능 분화 이론: Attention과 장거리 합성곱이 서로 다른 계산 함수 수행 → MAD 연구 기반
신호 처리 관점: Hyena 필터 = 학습 가능 LTI 시스템, Attention = 비선형 데이터 의존적 필터
스케일링 법칙의 아키텍처 의존성: 아키텍처 설계 자체가 compute-optimal 학습의 핵심 변수
하이브리드 설계 공간: “몇 %의 Attention이 최적인가”라는 새로운 연구 문제 제기

핵심 용어 정리

용어	정의
Striped 패턴	Hyena 레이어와 Attention 레이어를 특정 비율로 교차 배치하는 설계
Model Grafting	사전학습 모델 일부 레이어를 다른 연산자로 교체 후 추가 학습
Targeted Pattern Recall	Attention 특화 기능: 입력 내 특정 위치 정보 정밀 검색
Bulk Sequence Processing	Hyena 특화 기능: 전체 시퀀스 패턴 추출·압축
GQA (Grouped Query Attention)	여러 쿼리 헤드가 키·값을 공유하는 효율적 멀티헤드 어텐션
SE/MR/LI (SH2)	Short-Explicit / Medium-Regularized / Long-Implicit: SH2의 세 연산자 유형
FlashFFTConv	게이티드 합성곱용 IO-aware GPU 커널

Juhyeon's Blog

탐색기

StripedHyena - Moving Beyond Transformers with Hybrid Signal Processing Models

StripedHyena: Transformer를 넘어서는 하이브리드 신호 처리 모델

섹션별 요약

동기 및 배경

아키텍처 설계

Model Grafting

벤치마크

Insights

Discussion Points

메타데이터

BibTeX

왜 이 연구를 하는가?

핵심 질문

핵심 통찰

방법 (Method)

프레임워크 개요

StripedHyena 2로의 발전 (Evo 2 채택)

효율성

발견 (Findings)

핵심 발견

이론적 의의

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크