Digest: Google DeepMind의 Gemma 시리즈는 Gemini 연구 기술을 기반으로 한 오픈소스 LLM 패밀리이다. Gemma 1(2024.02)은 2B/7B 경량 모델로 LLaMA 2급 성능을 달성했고, Gemma 3(2025.03)은 1B-27B 4개 모델로 SigLIP 비전 인코더, 128K 컨텍스트, 140개 이상 언어를 지원하며 단일 GPU에서 Gemini 1.5 Pro에 근접한 성능을 보인다.
Gemma 1 (2024.02)
Digest: Gemma는 Google DeepMind가 Gemini 연구 기술을 기반으로 만든 오픈소스 소형 LLM 패밀리(2B/7B)이다. Gemini와 동일한 학습 인프라와 데이터 파이프라인을 활용하되 경량화된 모델로, Gemma 7B가 LLaMA 2-7B/13B를 대부분 벤치마크에서 능가한다. 아키텍처적으로 Multi-Query Attention(2B) / Multi-Head Attention(7B), RoPE, GeGLU, RMSNorm을 사용하며, 6T 토큰(주로 영어, 웹·코드·수학)으로 학습되었다.
Digest: Gemma 3는 Google DeepMind의 3세대 오픈소스 LLM 시리즈로, 1B/4B/12B/27B 4개 모델을 제공한다. Gemma 3 27B는 단일 TPU/GPU에서 실행 가능하면서 Gemma 2 27B를 대폭 능가하고, Gemini 1.5 Pro (2024.02)에 근접한 성능을 보인다. 핵심 혁신은 (1) SigLIP 기반 비전 인코더 통합(4B 이상), (2) 128K 컨텍스트 (글로벌+로컬 SWA 교대 구조), (3) 140개 이상 언어 지원이다. 아키텍처는 GQA + RoPE + GeGLU + Pre/Post-RMSNorm 구조로, 이미지는 SigLIP Pan-and-Scan으로 가변 해상도를 처리한다.
아키텍처 상세
모델 스펙
모델
Params
Layers
d_model
Q Heads
KV Heads
FFN Dim
Context
Vocab
Gemma 3 1B
1.0B
26
1152
4
1
6144
32K
262,144
Gemma 3 4B
4.3B
34
2560
8
4
10240
128K
262,144
Gemma 3 12B
12.2B
48
3840
16
4
12288
128K
262,144
Gemma 3 27B
27.4B
62
4608
24
4
18432
128K
262,144
아키텍처 핵심 구성요소
구성요소
설명
GQA
모든 모델에 적용 (KV=1 or 4)
글로벌+로컬 Attention 교대
5:1 비율 — 5개 로컬 SWA(1024 window) + 1개 글로벌 full attention
GeGLU
GELU 기반 gated FFN
RoPE
회전 위치 임베딩 (base freq: 1M for long context)
Pre + Post RMSNorm
Gemini 스타일 이중 정규화
SigLIP Vision Encoder
SoViT-400m/14 (4B 이상에 통합)
Pan-and-Scan
이미지를 동적으로 최대 4 타일로 분할
Soft Token Merging
이미지 토큰 수 압축
Vocab
262,144 (SentencePiece)
글로벌+로컬 Attention 패턴
graph LR
L1["Layer 1: Local SWA<br/>(w=1024)"] --> L2["Layer 2: Local SWA"]
L2 --> L3["Layer 3: Local SWA"]
L3 --> L4["Layer 4: Local SWA"]
L4 --> L5["Layer 5: Local SWA"]
L5 --> L6["Layer 6: Global<br/>Full Attention"]
L6 --> L7["Layer 7: Local SWA"]
L7 --> L8["...반복"]
style L6 fill:#f9f,stroke:#333
비전 파이프라인
graph TD
A["입력 이미지"] --> B["Pan-and-Scan<br/>(동적 타일링, 최대 4)"]
B --> C["SigLIP SoViT-400m/14<br/>(동결된 비전 인코더)"]
C --> D["Soft Token Merging<br/>(토큰 수 압축)"]
D --> E["Linear Projection"]
E --> F["텍스트 토큰과<br/>인터리빙"]
F --> G["Transformer Decoder"]