Gemma Models

Digest: Google DeepMind의 Gemma 시리즈는 Gemini 연구 기술을 기반으로 한 오픈소스 LLM 패밀리이다. Gemma 1(2024.02)은 2B/7B 경량 모델로 LLaMA 2급 성능을 달성했고, Gemma 3(2025.03)은 1B-27B 4개 모델로 SigLIP 비전 인코더, 128K 컨텍스트, 140개 이상 언어를 지원하며 단일 GPU에서 Gemini 1.5 Pro에 근접한 성능을 보인다.

Gemma 1 (2024.02)

Digest: Gemma는 Google DeepMind가 Gemini 연구 기술을 기반으로 만든 오픈소스 소형 LLM 패밀리(2B/7B)이다. Gemini와 동일한 학습 인프라와 데이터 파이프라인을 활용하되 경량화된 모델로, Gemma 7B가 LLaMA 2-7B/13B를 대부분 벤치마크에서 능가한다. 아키텍처적으로 Multi-Query Attention(2B) / Multi-Head Attention(7B), RoPE, GeGLU, RMSNorm을 사용하며, 6T 토큰(주로 영어, 웹·코드·수학)으로 학습되었다.

아키텍처 상세

모델 스펙

모델	Params	Layers	d_model	Heads	KV Heads	FFN Dim	Context	Vocab
Gemma 2B	2.5B	18	2048	8	1 (MQA)	16384	8192	256,128
Gemma 7B	8.5B	28	3072	16	16 (MHA)	24576	8192	256,128

아키텍처 핵심 구성요소

구성요소	설명
Multi-Query Attention (2B)	KV 헤드 1개 — 추론 효율 극대화
Multi-Head Attention (7B)	KV 헤드 16개 (표준 MHA)
GeGLU	$GeGLU (x) = GELU (x W_{1}) \otimes x W_{2}$ — SwiGLU 대신 GELU 기반
RoPE	회전 위치 임베딩
RMSNorm	Pre-norm + Post-norm (Gemini 스타일)
Embedding Norm	입력 임베딩에 $d_{m o d e l}$ 스케일링
SentencePiece	256,128 vocab (매우 큰 어휘)

graph TD
    A["입력 토큰"] --> B["SentencePiece<br/>vocab 256,128"]
    B --> C["Token Embedding<br/>× √d_model"]
    C --> D["Transformer Block × N"]

    subgraph TB["Transformer Block"]
        D1["RMSNorm"] --> D2{"2B or 7B?"}
        D2 -->|2B| D3["MQA (KV=1) + RoPE"]
        D2 -->|7B| D4["MHA (KV=16) + RoPE"]
        D3 --> D5["RMSNorm"]
        D4 --> D5
        D5 --> D6["GeGLU FFN"]
    end

    D --> E["RMSNorm"] --> F["LM Head"]

사전 학습

학습 데이터

항목	값
총 토큰	6T (2B), 6T (7B)
데이터 소스	웹 문서, 코드, 수학
언어	주로 영어
품질 관리	Gemini 데이터 파이프라인 활용 (필터링, 중복제거)
안전성 필터	PII 제거, 유해 콘텐츠 필터링

학습 하이퍼파라미터

항목	Gemma 2B	Gemma 7B
Optimizer	AdamW	AdamW
Learning Rate	—	—
Batch Size	—	—
Hardware	TPU v5e	TPU v5e
학습 인프라	Jax + Flax (Gemini 인프라)	동일

상세 하이퍼파라미터는 논문에 미공개

벤치마크 비교

주요 벤치마크

벤치마크	Gemma 2B	Gemma 7B	LLaMA 2-7B	LLaMA 2-13B	Mistral 7B
MMLU (5-shot)	42.3	64.3	45.3	54.8	60.1
HellaSwag	71.4	81.2	77.2	80.7	81.3
WinoGrande	65.4	72.3	69.2	72.2	75.3
ARC-Challenge	48.5	53.2	45.9	49.7	55.5
GSM8K (5-shot)	17.7	46.4	14.6	28.7	35.4
HumanEval (0-shot)	22.0	32.3	12.8	18.3	30.5
MATH (4-shot)	11.8	24.3	2.5	5.0	13.1
MBPP (3-shot)	29.2	44.4	20.8	31.3	47.5

핵심 비교

Gemma 7B > LLaMA 2-13B: 거의 모든 벤치마크 (절반 크기)
Gemma 7B ≈ Mistral 7B: 대등 (MMLU에서 우세, WinoGrande에서 약세)

Gemma Instruction-Tuned (Gemma-IT)

항목	값
방법	SFT + RLHF (선호 데이터 기반)
데이터	합성 데이터 + 인간 피드백
특이점	Gemini와 동일한 파이프라인으로 alignment

동시대 비교 매트릭스

특성	Gemma 7B (2024.02)	LLaMA 2-7B (2023.07)	Mistral 7B (2023.10)	Phi-2 (2023.12)
파라미터	8.5B	6.7B	7.3B	2.7B
학습 토큰	6T	2T	미공개	1.4T
Context	8192	4096	8192	2048
Attention	MHA	MHA	GQA	MHA
Vocab	256K	32K	32K	51K
MMLU	64.3	45.3	60.1	56.7
오픈소스	✅	✅	✅ (Apache)	✅ (MIT)
핵심 기여	Gemini 기술 이전	오픈 LLM 기반	SWA 효율성	소형 고성능

Gemma 3 (2025.03)

Digest: Gemma 3는 Google DeepMind의 3세대 오픈소스 LLM 시리즈로, 1B/4B/12B/27B 4개 모델을 제공한다. Gemma 3 27B는 단일 TPU/GPU에서 실행 가능하면서 Gemma 2 27B를 대폭 능가하고, Gemini 1.5 Pro (2024.02)에 근접한 성능을 보인다. 핵심 혁신은 (1) SigLIP 기반 비전 인코더 통합(4B 이상), (2) 128K 컨텍스트 (글로벌+로컬 SWA 교대 구조), (3) 140개 이상 언어 지원이다. 아키텍처는 GQA + RoPE + GeGLU + Pre/Post-RMSNorm 구조로, 이미지는 SigLIP Pan-and-Scan으로 가변 해상도를 처리한다.

아키텍처 상세

모델 스펙

모델	Params	Layers	d_model	Q Heads	KV Heads	FFN Dim	Context	Vocab
Gemma 3 1B	1.0B	26	1152	4	1	6144	32K	262,144
Gemma 3 4B	4.3B	34	2560	8	4	10240	128K	262,144
Gemma 3 12B	12.2B	48	3840	16	4	12288	128K	262,144
Gemma 3 27B	27.4B	62	4608	24	4	18432	128K	262,144

아키텍처 핵심 구성요소

구성요소	설명
GQA	모든 모델에 적용 (KV=1 or 4)
글로벌+로컬 Attention 교대	5:1 비율 — 5개 로컬 SWA(1024 window) + 1개 글로벌 full attention
GeGLU	GELU 기반 gated FFN
RoPE	회전 위치 임베딩 (base freq: 1M for long context)
Pre + Post RMSNorm	Gemini 스타일 이중 정규화
SigLIP Vision Encoder	SoViT-400m/14 (4B 이상에 통합)
Pan-and-Scan	이미지를 동적으로 최대 4 타일로 분할
Soft Token Merging	이미지 토큰 수 압축
Vocab	262,144 (SentencePiece)

글로벌+로컬 Attention 패턴

graph LR
    L1["Layer 1: Local SWA<br/>(w=1024)"] --> L2["Layer 2: Local SWA"]
    L2 --> L3["Layer 3: Local SWA"]
    L3 --> L4["Layer 4: Local SWA"]
    L4 --> L5["Layer 5: Local SWA"]
    L5 --> L6["Layer 6: Global<br/>Full Attention"]
    L6 --> L7["Layer 7: Local SWA"]
    L7 --> L8["...반복"]

    style L6 fill:#f9f,stroke:#333

비전 파이프라인

graph TD
    A["입력 이미지"] --> B["Pan-and-Scan<br/>(동적 타일링, 최대 4)"]
    B --> C["SigLIP SoViT-400m/14<br/>(동결된 비전 인코더)"]
    C --> D["Soft Token Merging<br/>(토큰 수 압축)"]
    D --> E["Linear Projection"]
    E --> F["텍스트 토큰과<br/>인터리빙"]
    F --> G["Transformer Decoder"]

사전 학습

학습 데이터

항목	값
총 토큰	14T+ (텍스트), 멀티모달 데이터 추가
언어	140개 이상
데이터 소스	웹 문서, 코드, 수학, 이미지-텍스트 쌍
Knowledge Cutoff	2025년 초

학습 단계

단계	설명
1. 텍스트 사전학습	대규모 텍스트 코퍼스로 기본 언어 모델 학습
2. 멀티모달 학습	SigLIP 인코더 동결 + projection layer 학습
3. 긴 컨텍스트 확장	RoPE base freq 조정으로 128K 확장

후훈련

항목	값
SFT	합성 데이터 + 인간 어노테이션
RLHF	BOND (RLHF 변형), 온라인 학습
데이터	코드, 수학, 추론, 다국어, 안전성
합성 데이터	Gemini 모델로 생성된 고품질 데이터

벤치마크 비교

텍스트 벤치마크

벤치마크	Gemma 3 27B	Gemma 2 27B	Gemma 3 12B	Qwen 2.5 32B	LLaMA 3.1 70B	Mistral-Small 24B
MMLU (5-shot)	75.6	75.2	72.3	79.9	79.3	72.5
MMLU-Pro	52.3	45.2	45.4	56.3	53.4	45.0
MATH (4-shot)	79.6	53.2	67.4	81.5	68.0	66.9
HumanEval	82.9	62.8	76.2	90.2	80.5	—
GSM8K	92.4	85.0	88.0	90.0	84.5	—
GPQA	36.4	30.8	28.6	40.0	39.3	—

비전 벤치마크 (Gemma 3 4B+)

벤치마크	Gemma 3 27B	Gemma 3 12B	Gemma 3 4B
MMMU	64.2	56.3	46.9
MathVista	73.2	65.7	55.5
AI2D	88.3	83.1	78.5
DocVQA	90.4	86.0	76.6

다국어 벤치마크

벤치마크	Gemma 3 27B	Gemma 2 27B
Global-MMLU (56 lang)	72.9	68.0
MGSM (다국어 수학)	89.5	—

동시대 비교 매트릭스

특성	Gemma 3 27B (2025.03)	Qwen 2.5 32B	LLaMA 3.1 70B	Mistral-Small 24B
파라미터	27.4B	32.5B	70.6B	24B
비전	✅ (SigLIP)	❌	❌	❌
Context	128K	128K	128K	32K
다국어	140+ 언어	29 언어	8 언어	—
MMLU	75.6	79.9	79.3	72.5
MATH	79.6	81.5	68.0	66.9
단일 GPU	✅	✅	❌	✅
오픈소스	✅	✅	✅	✅
핵심 기여	멀티모달+다국어	코드/수학	스케일	효율성

Juhyeon's Blog

탐색기

Gemma Models

Gemma Models

Gemma 1 (2024.02)

아키텍처 상세

모델 스펙

아키텍처 핵심 구성요소

사전 학습

학습 데이터

학습 하이퍼파라미터

벤치마크 비교

주요 벤치마크

핵심 비교

Gemma Instruction-Tuned (Gemma-IT)

동시대 비교 매트릭스

Gemma 3 (2025.03)

아키텍처 상세

모델 스펙

아키텍처 핵심 구성요소

글로벌+로컬 Attention 패턴

비전 파이프라인

사전 학습

학습 데이터

학습 단계

후훈련

벤치마크 비교

텍스트 벤치마크

비전 벤치마크 (Gemma 3 4B+)

다국어 벤치마크

동시대 비교 매트릭스

그래프 뷰

목차

Properties

백링크