StripedHyena: Transformer를 넘어서는 하이브리드 신호 처리 모델
Digest: StripedHyena(SH)는 2023년 12월 Together AI가 공개한 하이브리드 시퀀스 모델로, Transformer의 self-attention을 부분적으로만 사용하고 나머지를 Hyena 게이티드 합성곱 연산자로 대체한 최초의 7B급 “beyond-Transformer” 아키텍처이다. 핵심 아이디어는 서로 다른 연산자 유형을 교차(stripe) 배치하는 것으로, Hyena 레이어가 시퀀스 처리의 대부분을 담당하고 Attention 레이어가 정밀한 **패턴 리콜(targeted recall)**을 보조한다. “혼합 아키텍처는 동질 아키텍처를 항상 능가한다”는 핵심 경험적 법칙을 뒷받침하며, 시퀀스 길이 128k에서 FlashAttention v2 대비 100% 이상 빠른 학습 속도, 추론 캐시 크기 50% 이상 절감을 달성한다. 이 아키텍처는 Evo(7B, 131k 컨텍스트)의 직접 선행 아키텍처이며, StripedHyena 2가 Evo 2(40B, 1M 컨텍스트)에 채택되었다.
섹션별 요약
동기 및 배경
- Transformer의 O(L²) 복잡도 + KV 캐시 기하급수적 성장이 장문맥 처리의 병목
- 순수 SSM/Hyena는 7B 규모에서 Transformer 품질 미달
- 가설: 이질적 연산자의 기능적 보완성이 두 극단보다 우수할 수 있음
아키텍처 설계
- “Striped” 패턴: 32 레이어 중 ~7/8이 Hyena 블록, ~1/8이 Rotary GQA(Grouped Query Attention) 블록
- Hyena 레이어: 장거리 의존성, 압축, 패턴 추출 (bulk 연산)
- Attention 레이어: 정밀한 패턴 리콜, 특정 토큰 간 직접 상호작용
- 핵심 발견: 혼합 비율 ~12.5%가 모든 FLOP 그룹에서 순수 Hyena·순수 Transformer 모두 능가
Model Grafting
- Mistral 아키텍처의 컴포넌트와 Hyena를 **접합(graft)**하여 학습 비용 절감
- (book-free) RedPajama + 장문맥 데이터로 추가 학습, 최대 32k 시퀀스 길이
벤치마크
- OpenLLM Leaderboard: Llama-2 7B, Yi 7B, RWKV 14B 능가; Mistral 7B와 유사
- 장문 과제: 32k 이상에서 perplexity 지속 감소, 장문 요약에서 Mistral 7B 대비 우위
Insights
- Transformer vs. SSM 이분법 해소: 소량의 Attention(~1/8 레이어)이 recall 능력을 대폭 향상시키면서 효율성은 유지하는 “sweet spot” 발견
- 연구 계보: Hyena → StripedHyena → Evo → Mechanistic Architecture Design → StripedHyena 2 → Evo 2
- 실용적 시사점: 장문맥 파인튜닝(SFT, RLHF)에서 비용 효율 Transformer 대비 2배 이상 → 코드, 법률, 게놈 도메인에 매력적
- 이론적 시사점: Attention = in-context recall, Hyena = bulk sequence modeling이라는 기능적 분업 해석이 MAD(Mechanistic Architecture Design) 연구의 기반
Discussion Points
- 그래프팅 효과 분리 어려움: 순수 StripedHyena 성능 vs. Mistral 사전학습 지식 전이 효과 미분리
- 스케일 검증 필요: 7B 이하에서의 발견이 70B+ 대규모에서도 유지되는지 미확인
- arXiv 미공개: 블로그+GitHub만으로 공개되어 재현성·검증 가능성 제한
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | StripedHyena: Moving Beyond Transformers with Hybrid Signal Processing Models |
| 저자 | Michael Poli, Jue Wang, Stefano Massaroli, Jeffrey Quesnelle, Ryan Carlow, Eric Nguyen, Armin Thomas |
| 소속 | Together AI / Arc Institute |
| 연도 | 2023년 12월 |
| 발표 | 기술 보고서 (블로그 + GitHub) |
| 링크 | Blog, GitHub, HF |
| 키워드 | Hybrid architecture, Hyena, Attention, Striped pattern, Model grafting, Long context |
BibTeX
@techreport{poli2023stripedhyena,
title={StripedHyena: Moving Beyond Transformers with Hybrid Signal Processing Models},
author={Poli, Michael and Wang, Jue and Massaroli, Stefano and Quesnelle, Jeffrey and Carlow, Ryan and Nguyen, Eric and Thomas, Armin},
institution={Together AI},
year={2023},
month={December},
url={https://www.together.ai/blog/stripedhyena-7b},
doi={10.57967/hf/1595}
}왜 이 연구를 하는가?
핵심 질문
소량의 Attention과 다량의 Hyena를 교차 배치하면, Transformer 품질을 유지하면서 장문맥 효율을 극적으로 개선할 수 있는가?
핵심 통찰
- Attention: targeted recall(특정 토큰 쌍 정밀 검색)에 특화
- Hyena: bulk sequence modeling(전체 시퀀스 패턴 추출·압축)에 특화
- 두 연산자의 기능적 보완성에서 성능 이득 발생
방법 (Method)
프레임워크 개요
graph TD A["입력 시퀀스 (토큰)"] --> B["임베딩 레이어"] B --> C["StripedHyena 레이어 스택 (32개)"] subgraph STRIPE["Striped 인터리빙 패턴"] H1["Hyena 블록 x7\nbulk 시퀀스 처리"] AT["Attention 블록 x1\ntargeted recall"] end C --> STRIPE subgraph HYENA["Hyena 블록"] P1["입력 투영 → v, x1, x2"] P2["암묵적 합성곱 필터 (FFT)"] P3["데이터 제어 게이팅"] end subgraph ATTN["Attention 블록"] Q1["Rotary GQA"] end H1 --> HYENA AT --> ATTN HYENA --> F["FFN (SwiGLU) + 잔차"] ATTN --> F F --> OUT["다음 토큰 예측"]
StripedHyena 2로의 발전 (Evo 2 채택)
StripedHyena 2는 단일 Hyena 연산자를 세 유형으로 분화:
- SE (Short-Explicit): 짧은 수용 필드, 하드웨어 효율 최대화, 로컬 멀티토큰 리콜
- MR (Medium-Regularized): 정규화된 합성곱, 수백 토큰 중거리 모델링
- LI (Long-Implicit): FFN 파라미터화 암묵적 필터, 전체 시퀀스 장거리 집계
효율성
| 시나리오 | Transformer++ 대비 |
|---|---|
| 학습 속도 (32k) | >30% 빠름 |
| 학습 속도 (64k) | >50% 빠름 |
| 학습 속도 (128k) | >100% 빠름 |
| 추론 캐시 크기 | >50% 작음 |
| 오토레그레시브 생성 | 단일 80GB GPU에서 500k+ 토큰 |
발견 (Findings)
핵심 발견
- 혼합 우위: 모든 FLOP 예산에서 Attention+Hyena 혼합이 순수 Attention·순수 Hyena 모두 능가
- 개선된 스케일링 법칙: Llama-2 / Transformer++ 대비 더 낮은 perplexity 달성
- 장문맥 perplexity 지속 감소: 학습 컨텍스트(32k) 초과 입력에서도 포화 없이 개선
- 효율성의 시퀀스 길이 의존성: 길어질수록 이점 극대화 (O(L log L) vs O(L²))
- 벤치마크 동등성: 7B 규모에서 비-Transformer 최초로 동급 Transformer와 동등
이론적 의의
- 연산자 기능 분화 이론: Attention과 장거리 합성곱이 서로 다른 계산 함수 수행 → MAD 연구 기반
- 신호 처리 관점: Hyena 필터 = 학습 가능 LTI 시스템, Attention = 비선형 데이터 의존적 필터
- 스케일링 법칙의 아키텍처 의존성: 아키텍처 설계 자체가 compute-optimal 학습의 핵심 변수
- 하이브리드 설계 공간: “몇 %의 Attention이 최적인가”라는 새로운 연구 문제 제기
관련 연구
- Hyena Hierarchy (ICML 2023) — 직접 선행. Hyena 연산자 제안
- S4 / Mamba — 병렬 SSM 계열
- RWKV-v5/v6 — 경쟁 아키텍처, 7B 비교 대상
- FlashFFTConv — StripedHyena의 학습 효율 핵심 기술
- Evo (2024) — SH로 300B 게놈 토큰 학습
- Evo 2 (2025) — StripedHyena 2(SE/MR/LI) 채택, 40B, 1M 컨텍스트
- Jamba (AI21, 2024) — Mamba + Transformer 하이브리드 병렬 연구
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| Striped 패턴 | Hyena 레이어와 Attention 레이어를 특정 비율로 교차 배치하는 설계 |
| Model Grafting | 사전학습 모델 일부 레이어를 다른 연산자로 교체 후 추가 학습 |
| Targeted Pattern Recall | Attention 특화 기능: 입력 내 특정 위치 정보 정밀 검색 |
| Bulk Sequence Processing | Hyena 특화 기능: 전체 시퀀스 패턴 추출·압축 |
| GQA (Grouped Query Attention) | 여러 쿼리 헤드가 키·값을 공유하는 효율적 멀티헤드 어텐션 |
| SE/MR/LI (SH2) | Short-Explicit / Medium-Regularized / Long-Implicit: SH2의 세 연산자 유형 |
| FlashFFTConv | 게이티드 합성곱용 IO-aware GPU 커널 |
태그
paper #2023 Architecture HybridModel StripedHyena Hyena Attention LongContext SubQuadratic TogetherAI BeyondTransformer ModelGrafting