Digest : GQA(Grouped-Query Attention)는 MHA(Multi-Head Attention)와 MQA(Multi-Query Attention)의 중간 형태 로, Q 헤드를 G개 그룹으로 나누어 각 그룹이 하나의 KV 헤드를 공유 한다. MQA는 KV 헤드 1개로 극단적 압축이지만 품질 저하가 발생하고, MHA는 KV 캐시가 너무 크다. GQA-G는 G개의 KV 헤드로 MHA에 가까운 품질을 유지하면서 MQA에 가까운 추론 속도 를 달성한다. 기존 MHA 체크포인트를 GQA로 **업트레이닝(5% 추가 학습)**할 수 있어 실용적이다. 이후 LLaMA 2(70B), LLaMA 3, Mistral, Qwen, Gemma 등 거의 모든 주요 LLM에 채택되었다.
핵심 개념
Attention 변형 비교
graph TD
subgraph MHA["Multi-Head Attention (MHA)"]
A1["Q₁ K₁ V₁"]
A2["Q₂ K₂ V₂"]
A3["Q₃ K₃ V₃"]
A4["Q₄ K₄ V₄"]
end
subgraph GQA["Grouped-Query Attention (GQA-2)"]
B1["Q₁ Q₂ → K₁ V₁"]
B2["Q₃ Q₄ → K₂ V₂"]
end
subgraph MQA["Multi-Query Attention (MQA)"]
C1["Q₁ Q₂ Q₃ Q₄ → K₁ V₁"]
end
Attention 유형 Q 헤드 KV 헤드 KV 캐시 크기 품질 추론 속도 MHA H H 100% (기준) 최고 1× GQA-G H G G/H × 100% MHA에 근접 MQA에 근접 MQA H 1 1/H × 100% 약간 하락 최고
수식
GQA ( Q , K , V ) : Attention ( Q i , K g ( i ) , V g ( i ) ) where g ( i ) = ⌊ i ⋅ G / H ⌋
H : Q 헤드 수
G : KV 헤드 수 (그룹 수)
g ( i ) : i번째 Q 헤드가 사용하는 KV 그룹 인덱스
업트레이닝 (Uptraining)
기존 MHA 체크포인트를 GQA로 변환:
KV 헤드 병합 : 같은 그룹 내 KV 헤드의 가중치를 mean-pooling
추가 학습 : 원래 학습의 α = 5% 비율만 추가 학습
결과 : 처음부터 GQA로 학습한 것과 거의 동등한 품질
graph LR
A["MHA 체크포인트<br/>(H KV heads)"] --> B["KV 헤드 Mean Pooling<br/>(H → G heads)"]
B --> C["추가 학습<br/>(α × original steps)"]
C --> D["GQA 모델"]
실험 결과
T5 XXL (11B) 기반 실험
모델 KV 헤드 Uptraining MMLU 추론 시간 (상대) T5-XXL MHA 64 — 기준 1.0× T5-XXL MQA 1 5% -0.4% ~4.5× 빠름T5-XXL GQA-8 8 5% -0.1% ~3.5× 빠름
핵심 발견
GQA-8 ≈ MHA 품질 : KV 헤드 8개면 64개와 거의 동일한 품질
GQA-8 ≈ MQA 속도 : MQA에 근접하는 추론 속도
업트레이닝 효과적 : 5% 추가 학습으로 충분
메모리 절감 : GQA-8은 MHA 대비 KV 캐시 87.5% 절감
채택 현황
모델 Q Heads KV Heads GQA 비율 LLaMA 2-70B 64 8 8:1 LLaMA 3-8B 32 8 4:1 LLaMA 3-70B 64 8 8:1 Mistral 7B 32 8 4:1 Mixtral 8x7B 32 8 4:1 Qwen2.5-72B 64 8 8:1 Qwen3-8B 32 8 4:1 Gemma 3-27B 24 4 6:1 DeepSeek-V3 MLA MLA (다른 방식) Falcon-7B 71 1 MQA GPT-3 96 96 MHA BERT 16 16 MHA
→ 현대 LLM에서 GQA with KV=8이 사실상 표준 (DeepSeek의 MLA가 대안)
MLA와의 비교 (DeepSeek-V2/V3)
특성 GQA MLA (Multi-head Latent Attention) KV 캐시 절감 G/H 비율만큼 잠재 벡터 차원으로 결정 (~93%) 품질 MHA에 근접 MHA와 동등 (이론적으로 더 유연) 구현 복잡도 매우 간단 복잡 (down/up projection) 채택도 사실상 표준 DeepSeek 계열만 추가 파라미터 없음 projection 행렬
동시대 비교
특성 GQA (2023.05) MQA (2019) MHA (원본) MLA (2024) 제안자 Google Noam Shazeer Vaswani et al. DeepSeek KV 헤드 수 G (튜닝 가능) 1 H (전체) 압축 벡터 품질 ★★★★ ★★★ ★★★★★ ★★★★★ 추론 속도 ★★★★ ★★★★★ ★★ ★★★★ 구현 간단 ★★★★★ ★★★★★ ★★★★★ ★★ 채택도 거의 모든 LLM Falcon, PaLM-8B BERT, GPT-3 DeepSeek만