Gemma Models

Digest: Google DeepMind의 Gemma 시리즈는 Gemini 연구 기술을 기반으로 한 오픈소스 LLM 패밀리이다. Gemma 1(2024.02)은 2B/7B 경량 모델로 LLaMA 2급 성능을 달성했고, Gemma 3(2025.03)은 1B-27B 4개 모델로 SigLIP 비전 인코더, 128K 컨텍스트, 140개 이상 언어를 지원하며 단일 GPU에서 Gemini 1.5 Pro에 근접한 성능을 보인다.


Gemma 1 (2024.02)

Digest: Gemma는 Google DeepMind가 Gemini 연구 기술을 기반으로 만든 오픈소스 소형 LLM 패밀리(2B/7B)이다. Gemini와 동일한 학습 인프라와 데이터 파이프라인을 활용하되 경량화된 모델로, Gemma 7B가 LLaMA 2-7B/13B를 대부분 벤치마크에서 능가한다. 아키텍처적으로 Multi-Query Attention(2B) / Multi-Head Attention(7B), RoPE, GeGLU, RMSNorm을 사용하며, 6T 토큰(주로 영어, 웹·코드·수학)으로 학습되었다.


아키텍처 상세

모델 스펙

모델ParamsLayersd_modelHeadsKV HeadsFFN DimContextVocab
Gemma 2B2.5B18204881 (MQA)163848192256,128
Gemma 7B8.5B2830721616 (MHA)245768192256,128

아키텍처 핵심 구성요소

구성요소설명
Multi-Query Attention (2B)KV 헤드 1개 — 추론 효율 극대화
Multi-Head Attention (7B)KV 헤드 16개 (표준 MHA)
GeGLU — SwiGLU 대신 GELU 기반
RoPE회전 위치 임베딩
RMSNormPre-norm + Post-norm (Gemini 스타일)
Embedding Norm입력 임베딩에 스케일링
SentencePiece256,128 vocab (매우 큰 어휘)
graph TD
    A["입력 토큰"] --> B["SentencePiece<br/>vocab 256,128"]
    B --> C["Token Embedding<br/>× √d_model"]
    C --> D["Transformer Block × N"]

    subgraph TB["Transformer Block"]
        D1["RMSNorm"] --> D2{"2B or 7B?"}
        D2 -->|2B| D3["MQA (KV=1) + RoPE"]
        D2 -->|7B| D4["MHA (KV=16) + RoPE"]
        D3 --> D5["RMSNorm"]
        D4 --> D5
        D5 --> D6["GeGLU FFN"]
    end

    D --> E["RMSNorm"] --> F["LM Head"]

사전 학습

학습 데이터

항목
총 토큰6T (2B), 6T (7B)
데이터 소스웹 문서, 코드, 수학
언어주로 영어
품질 관리Gemini 데이터 파이프라인 활용 (필터링, 중복제거)
안전성 필터PII 제거, 유해 콘텐츠 필터링

학습 하이퍼파라미터

항목Gemma 2BGemma 7B
OptimizerAdamWAdamW
Learning Rate
Batch Size
HardwareTPU v5eTPU v5e
학습 인프라Jax + Flax (Gemini 인프라)동일

상세 하이퍼파라미터는 논문에 미공개


벤치마크 비교

주요 벤치마크

벤치마크Gemma 2BGemma 7BLLaMA 2-7BLLaMA 2-13BMistral 7B
MMLU (5-shot)42.364.345.354.860.1
HellaSwag71.481.277.280.781.3
WinoGrande65.472.369.272.275.3
ARC-Challenge48.553.245.949.755.5
GSM8K (5-shot)17.746.414.628.735.4
HumanEval (0-shot)22.032.312.818.330.5
MATH (4-shot)11.824.32.55.013.1
MBPP (3-shot)29.244.420.831.347.5

핵심 비교

  • Gemma 7B > LLaMA 2-13B: 거의 모든 벤치마크 (절반 크기)
  • Gemma 7B ≈ Mistral 7B: 대등 (MMLU에서 우세, WinoGrande에서 약세)

Gemma Instruction-Tuned (Gemma-IT)

항목
방법SFT + RLHF (선호 데이터 기반)
데이터합성 데이터 + 인간 피드백
특이점Gemini와 동일한 파이프라인으로 alignment

동시대 비교 매트릭스

특성Gemma 7B (2024.02)LLaMA 2-7B (2023.07)Mistral 7B (2023.10)Phi-2 (2023.12)
파라미터8.5B6.7B7.3B2.7B
학습 토큰6T2T미공개1.4T
Context8192409681922048
AttentionMHAMHAGQAMHA
Vocab256K32K32K51K
MMLU64.345.360.156.7
오픈소스✅ (Apache)✅ (MIT)
핵심 기여Gemini 기술 이전오픈 LLM 기반SWA 효율성소형 고성능

Gemma 3 (2025.03)

Digest: Gemma 3는 Google DeepMind의 3세대 오픈소스 LLM 시리즈로, 1B/4B/12B/27B 4개 모델을 제공한다. Gemma 3 27B는 단일 TPU/GPU에서 실행 가능하면서 Gemma 2 27B를 대폭 능가하고, Gemini 1.5 Pro (2024.02)에 근접한 성능을 보인다. 핵심 혁신은 (1) SigLIP 기반 비전 인코더 통합(4B 이상), (2) 128K 컨텍스트 (글로벌+로컬 SWA 교대 구조), (3) 140개 이상 언어 지원이다. 아키텍처는 GQA + RoPE + GeGLU + Pre/Post-RMSNorm 구조로, 이미지는 SigLIP Pan-and-Scan으로 가변 해상도를 처리한다.


아키텍처 상세

모델 스펙

모델ParamsLayersd_modelQ HeadsKV HeadsFFN DimContextVocab
Gemma 3 1B1.0B26115241614432K262,144
Gemma 3 4B4.3B3425608410240128K262,144
Gemma 3 12B12.2B48384016412288128K262,144
Gemma 3 27B27.4B62460824418432128K262,144

아키텍처 핵심 구성요소

구성요소설명
GQA모든 모델에 적용 (KV=1 or 4)
글로벌+로컬 Attention 교대5:1 비율 — 5개 로컬 SWA(1024 window) + 1개 글로벌 full attention
GeGLUGELU 기반 gated FFN
RoPE회전 위치 임베딩 (base freq: 1M for long context)
Pre + Post RMSNormGemini 스타일 이중 정규화
SigLIP Vision EncoderSoViT-400m/14 (4B 이상에 통합)
Pan-and-Scan이미지를 동적으로 최대 4 타일로 분할
Soft Token Merging이미지 토큰 수 압축
Vocab262,144 (SentencePiece)

글로벌+로컬 Attention 패턴

graph LR
    L1["Layer 1: Local SWA<br/>(w=1024)"] --> L2["Layer 2: Local SWA"]
    L2 --> L3["Layer 3: Local SWA"]
    L3 --> L4["Layer 4: Local SWA"]
    L4 --> L5["Layer 5: Local SWA"]
    L5 --> L6["Layer 6: Global<br/>Full Attention"]
    L6 --> L7["Layer 7: Local SWA"]
    L7 --> L8["...반복"]

    style L6 fill:#f9f,stroke:#333

비전 파이프라인

graph TD
    A["입력 이미지"] --> B["Pan-and-Scan<br/>(동적 타일링, 최대 4)"]
    B --> C["SigLIP SoViT-400m/14<br/>(동결된 비전 인코더)"]
    C --> D["Soft Token Merging<br/>(토큰 수 압축)"]
    D --> E["Linear Projection"]
    E --> F["텍스트 토큰과<br/>인터리빙"]
    F --> G["Transformer Decoder"]

사전 학습

학습 데이터

항목
총 토큰14T+ (텍스트), 멀티모달 데이터 추가
언어140개 이상
데이터 소스웹 문서, 코드, 수학, 이미지-텍스트 쌍
Knowledge Cutoff2025년 초

학습 단계

단계설명
1. 텍스트 사전학습대규모 텍스트 코퍼스로 기본 언어 모델 학습
2. 멀티모달 학습SigLIP 인코더 동결 + projection layer 학습
3. 긴 컨텍스트 확장RoPE base freq 조정으로 128K 확장

후훈련

항목
SFT합성 데이터 + 인간 어노테이션
RLHFBOND (RLHF 변형), 온라인 학습
데이터코드, 수학, 추론, 다국어, 안전성
합성 데이터Gemini 모델로 생성된 고품질 데이터

벤치마크 비교

텍스트 벤치마크

벤치마크Gemma 3 27BGemma 2 27BGemma 3 12BQwen 2.5 32BLLaMA 3.1 70BMistral-Small 24B
MMLU (5-shot)75.675.272.379.979.372.5
MMLU-Pro52.345.245.456.353.445.0
MATH (4-shot)79.653.267.481.568.066.9
HumanEval82.962.876.290.280.5
GSM8K92.485.088.090.084.5
GPQA36.430.828.640.039.3

비전 벤치마크 (Gemma 3 4B+)

벤치마크Gemma 3 27BGemma 3 12BGemma 3 4B
MMMU64.256.346.9
MathVista73.265.755.5
AI2D88.383.178.5
DocVQA90.486.076.6

다국어 벤치마크

벤치마크Gemma 3 27BGemma 2 27B
Global-MMLU (56 lang)72.968.0
MGSM (다국어 수학)89.5

동시대 비교 매트릭스

특성Gemma 3 27B (2025.03)Qwen 2.5 32BLLaMA 3.1 70BMistral-Small 24B
파라미터27.4B32.5B70.6B24B
비전✅ (SigLIP)
Context128K128K128K32K
다국어140+ 언어29 언어8 언어
MMLU75.679.979.372.5
MATH79.681.568.066.9
단일 GPU
오픈소스
핵심 기여멀티모달+다국어코드/수학스케일효율성