GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

Digest: GQA(Grouped-Query Attention)는 MHA(Multi-Head Attention)와 MQA(Multi-Query Attention)의 중간 형태로, Q 헤드를 G개 그룹으로 나누어 각 그룹이 하나의 KV 헤드를 공유한다. MQA는 KV 헤드 1개로 극단적 압축이지만 품질 저하가 발생하고, MHA는 KV 캐시가 너무 크다. GQA-G는 G개의 KV 헤드로 MHA에 가까운 품질을 유지하면서 MQA에 가까운 추론 속도를 달성한다. 기존 MHA 체크포인트를 GQA로 **업트레이닝(5% 추가 학습)**할 수 있어 실용적이다. 이후 LLaMA 2(70B), LLaMA 3, Mistral, Qwen, Gemma 등 거의 모든 주요 LLM에 채택되었다.

핵심 개념

Attention 변형 비교

graph TD
    subgraph MHA["Multi-Head Attention (MHA)"]
        A1["Q₁ K₁ V₁"]
        A2["Q₂ K₂ V₂"]
        A3["Q₃ K₃ V₃"]
        A4["Q₄ K₄ V₄"]
    end

    subgraph GQA["Grouped-Query Attention (GQA-2)"]
        B1["Q₁ Q₂ → K₁ V₁"]
        B2["Q₃ Q₄ → K₂ V₂"]
    end

    subgraph MQA["Multi-Query Attention (MQA)"]
        C1["Q₁ Q₂ Q₃ Q₄ → K₁ V₁"]
    end

Attention 유형	Q 헤드	KV 헤드	KV 캐시 크기	품질	추론 속도
MHA	H	H	100% (기준)	최고	1×
GQA-G	H	G	G/H × 100%	MHA에 근접	MQA에 근접
MQA	H	1	1/H × 100%	약간 하락	최고

수식

$GQA (Q, K, V) : Attention (Q_{i}, K_{g (i)}, V_{g (i)}) where g (i) = ⌊ i \cdot G / H ⌋$

$H$ : Q 헤드 수
$G$ : KV 헤드 수 (그룹 수)
$g (i)$ : i번째 Q 헤드가 사용하는 KV 그룹 인덱스

업트레이닝 (Uptraining)

기존 MHA 체크포인트를 GQA로 변환:

KV 헤드 병합: 같은 그룹 내 KV 헤드의 가중치를 mean-pooling
추가 학습: 원래 학습의 α = 5% 비율만 추가 학습
결과: 처음부터 GQA로 학습한 것과 거의 동등한 품질

graph LR
    A["MHA 체크포인트<br/>(H KV heads)"] --> B["KV 헤드 Mean Pooling<br/>(H → G heads)"]
    B --> C["추가 학습<br/>(α × original steps)"]
    C --> D["GQA 모델"]

실험 결과

T5 XXL (11B) 기반 실험

모델	KV 헤드	Uptraining	MMLU	추론 시간 (상대)
T5-XXL MHA	64	—	기준	1.0×
T5-XXL MQA	1	5%	-0.4%	~4.5× 빠름
T5-XXL GQA-8	8	5%	-0.1%	~3.5× 빠름

핵심 발견

GQA-8 ≈ MHA 품질: KV 헤드 8개면 64개와 거의 동일한 품질
GQA-8 ≈ MQA 속도: MQA에 근접하는 추론 속도
업트레이닝 효과적: 5% 추가 학습으로 충분
메모리 절감: GQA-8은 MHA 대비 KV 캐시 87.5% 절감

채택 현황

모델	Q Heads	KV Heads	GQA 비율
LLaMA 2-70B	64	8	8:1
LLaMA 3-8B	32	8	4:1
LLaMA 3-70B	64	8	8:1
Mistral 7B	32	8	4:1
Mixtral 8x7B	32	8	4:1
Qwen2.5-72B	64	8	8:1
Qwen3-8B	32	8	4:1
Gemma 3-27B	24	4	6:1
DeepSeek-V3	MLA	MLA	(다른 방식)
Falcon-7B	71	1	MQA
GPT-3	96	96	MHA
BERT	16	16	MHA

→ 현대 LLM에서 GQA with KV=8이 사실상 표준 (DeepSeek의 MLA가 대안)

MLA와의 비교 (DeepSeek-V2/V3)

특성	GQA	MLA (Multi-head Latent Attention)
KV 캐시 절감	G/H 비율만큼	잠재 벡터 차원으로 결정 (~93%)
품질	MHA에 근접	MHA와 동등 (이론적으로 더 유연)
구현 복잡도	매우 간단	복잡 (down/up projection)
채택도	사실상 표준	DeepSeek 계열만
추가 파라미터	없음	projection 행렬

동시대 비교

특성	GQA (2023.05)	MQA (2019)	MHA (원본)	MLA (2024)
제안자	Google	Noam Shazeer	Vaswani et al.	DeepSeek
KV 헤드 수	G (튜닝 가능)	1	H (전체)	압축 벡터
품질	★★★★	★★★	★★★★★	★★★★★
추론 속도	★★★★	★★★★★	★★	★★★★
구현 간단	★★★★★	★★★★★	★★★★★	★★
채택도	거의 모든 LLM	Falcon, PaLM-8B	BERT, GPT-3	DeepSeek만

Juhyeon's Blog

탐색기

GQA - Training Generalized Multi-Query Transformer Models

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

핵심 개념

Attention 변형 비교

수식

업트레이닝 (Uptraining)

실험 결과

T5 XXL (11B) 기반 실험

핵심 발견

채택 현황

MLA와의 비교 (DeepSeek-V2/V3)

동시대 비교

그래프 뷰

목차

Properties

백링크