GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

Digest: GQA(Grouped-Query Attention)는 MHA(Multi-Head Attention)와 MQA(Multi-Query Attention)의 중간 형태로, Q 헤드를 G개 그룹으로 나누어 각 그룹이 하나의 KV 헤드를 공유한다. MQA는 KV 헤드 1개로 극단적 압축이지만 품질 저하가 발생하고, MHA는 KV 캐시가 너무 크다. GQA-G는 G개의 KV 헤드로 MHA에 가까운 품질을 유지하면서 MQA에 가까운 추론 속도를 달성한다. 기존 MHA 체크포인트를 GQA로 **업트레이닝(5% 추가 학습)**할 수 있어 실용적이다. 이후 LLaMA 2(70B), LLaMA 3, Mistral, Qwen, Gemma 등 거의 모든 주요 LLM에 채택되었다.


핵심 개념

Attention 변형 비교

graph TD
    subgraph MHA["Multi-Head Attention (MHA)"]
        A1["Q₁ K₁ V₁"]
        A2["Q₂ K₂ V₂"]
        A3["Q₃ K₃ V₃"]
        A4["Q₄ K₄ V₄"]
    end

    subgraph GQA["Grouped-Query Attention (GQA-2)"]
        B1["Q₁ Q₂ → K₁ V₁"]
        B2["Q₃ Q₄ → K₂ V₂"]
    end

    subgraph MQA["Multi-Query Attention (MQA)"]
        C1["Q₁ Q₂ Q₃ Q₄ → K₁ V₁"]
    end
Attention 유형Q 헤드KV 헤드KV 캐시 크기품질추론 속도
MHAHH100% (기준)최고
GQA-GHGG/H × 100%MHA에 근접MQA에 근접
MQAH11/H × 100%약간 하락최고

수식

  • : Q 헤드 수
  • : KV 헤드 수 (그룹 수)
  • : i번째 Q 헤드가 사용하는 KV 그룹 인덱스

업트레이닝 (Uptraining)

기존 MHA 체크포인트를 GQA로 변환:

  1. KV 헤드 병합: 같은 그룹 내 KV 헤드의 가중치를 mean-pooling
  2. 추가 학습: 원래 학습의 α = 5% 비율만 추가 학습
  3. 결과: 처음부터 GQA로 학습한 것과 거의 동등한 품질
graph LR
    A["MHA 체크포인트<br/>(H KV heads)"] --> B["KV 헤드 Mean Pooling<br/>(H → G heads)"]
    B --> C["추가 학습<br/>(α × original steps)"]
    C --> D["GQA 모델"]

실험 결과

T5 XXL (11B) 기반 실험

모델KV 헤드UptrainingMMLU추론 시간 (상대)
T5-XXL MHA64기준1.0×
T5-XXL MQA15%-0.4%~4.5× 빠름
T5-XXL GQA-885%-0.1%~3.5× 빠름

핵심 발견

  1. GQA-8 ≈ MHA 품질: KV 헤드 8개면 64개와 거의 동일한 품질
  2. GQA-8 ≈ MQA 속도: MQA에 근접하는 추론 속도
  3. 업트레이닝 효과적: 5% 추가 학습으로 충분
  4. 메모리 절감: GQA-8은 MHA 대비 KV 캐시 87.5% 절감

채택 현황

모델Q HeadsKV HeadsGQA 비율
LLaMA 2-70B6488:1
LLaMA 3-8B3284:1
LLaMA 3-70B6488:1
Mistral 7B3284:1
Mixtral 8x7B3284:1
Qwen2.5-72B6488:1
Qwen3-8B3284:1
Gemma 3-27B2446:1
DeepSeek-V3MLAMLA(다른 방식)
Falcon-7B711MQA
GPT-39696MHA
BERT1616MHA

→ 현대 LLM에서 GQA with KV=8이 사실상 표준 (DeepSeek의 MLA가 대안)


MLA와의 비교 (DeepSeek-V2/V3)

특성GQAMLA (Multi-head Latent Attention)
KV 캐시 절감G/H 비율만큼잠재 벡터 차원으로 결정 (~93%)
품질MHA에 근접MHA와 동등 (이론적으로 더 유연)
구현 복잡도매우 간단복잡 (down/up projection)
채택도사실상 표준DeepSeek 계열만
추가 파라미터없음projection 행렬

동시대 비교

특성GQA (2023.05)MQA (2019)MHA (원본)MLA (2024)
제안자GoogleNoam ShazeerVaswani et al.DeepSeek
KV 헤드 수G (튜닝 가능)1H (전체)압축 벡터
품질★★★★★★★★★★★★★★★★★
추론 속도★★★★★★★★★★★★★★★
구현 간단★★★★★★★★★★★★★★★★★
채택도거의 모든 LLMFalcon, PaLM-8BBERT, GPT-3DeepSeek만