Digest: Google DeepMind의 Gemini 시리즈는 네이티브 멀티모달(텍스트·이미지·오디오·비디오) 처리를 핵심으로 하는 LLM 패밀리이다. Gemini 1.0(2023.12)은 Ultra/Pro/Nano 3단계 구성으로 MMLU 90.0%를 최초로 돌파했고, Gemini 1.5(2024.02)는 MoE 기반으로 최대 10M 토큰 컨텍스트를 지원하며 장문맥 처리의 새로운 기준을 세웠다.
Gemini 1.0 (2023.12)
Digest: Gemini 1.0은 Google DeepMind가 발표한 네이티브 멀티모달(텍스트·이미지·오디오·비디오) 모델 패밀리로, Ultra/Pro/Nano 3개 크기로 구성된다. Gemini Ultra는 MMLU에서 90.0%를 달성하여 최초로 인간 전문가 수준(89.8%)을 초과한 LLM이다. 아키텍처 상세는 공개되지 않았으나, Transformer 기반 디코더-only 구조로 추정되며, 이미지·오디오·비디오를 네이티브로 인터리빙하여 처리한다. TPU v5p에서 학습되었으며, 32K 컨텍스트를 지원한다.
알려진 스펙
모델 패밀리
모델
용도
컨텍스트
파라미터
비고
Gemini Ultra
최고 성능 (복잡한 태스크)
32K
미공개
MMLU 90.0
Gemini Pro
범용 (API/Bard)
32K
미공개
GPT-3.5 Turbo급
Gemini Nano
온디바이스
—
1.8B / 3.25B
Pixel 8 Pro 탑재
아키텍처 (공개된 정보)
구성요소
설명
구조
Transformer decoder-only (추정)
멀티모달
이미지/오디오/비디오를 네이티브 토큰으로 인터리빙
이미지 인코더
별도 비전 인코더 → 토큰화
오디오
16kHz USM(Universal Speech Model) 기반 특성 추출
비디오
프레임 단위 인코딩 + 시간 정보
Context Length
32K
학습 인프라
TPU v5e/v4 다중 데이터센터
graph TD
subgraph Input["멀티모달 입력"]
A1["텍스트"] --> B["토큰화"]
A2["이미지"] --> C["비전 인코더"] --> B
A3["오디오"] --> D["오디오 인코더"] --> B
A4["비디오"] --> E["프레임 인코딩"] --> B
end
B --> F["인터리빙된<br/>토큰 시퀀스"]
F --> G["Transformer Decoder<br/>(Ultra/Pro/Nano)"]
G --> H["텍스트 출력"]
사전 학습
항목
값
데이터
웹 문서, 도서, 코드, 이미지-텍스트 쌍, 오디오, 비디오 (멀티모달)
토큰 수
미공개
언어
다국어
학습 인프라
TPU v5e, TPU v4 (다중 데이터센터)
SentencePiece
256K vocab (추정)
품질 필터
데이터 품질 분류기, 안전성 필터, 중복 제거
벤치마크 비교
텍스트 벤치마크
벤치마크
Gemini Ultra
Gemini Pro
GPT-4
GPT-3.5
Claude 2
PaLM 2-L
MMLU (5-shot)
90.0
71.8
86.4
70.0
78.5
78.3
HellaSwag (10-shot)
87.8
—
95.3
85.5
—
86.8
GSM8K (Maj1@32)
94.4
86.5
92.0
57.1
88.0
80.7
MATH (4-shot)
53.2
32.6
52.9
—
—
—
HumanEval (0-shot)
74.4
67.7
67.0
48.1
70.0
—
BIG-Bench-Hard
83.6
75.0
—
—
—
—
멀티모달 벤치마크
벤치마크
Gemini Ultra
GPT-4V
설명
MMMU
59.4
56.8
대학 수준 멀티모달 이해
MathVista
53.0
49.9
시각적 수학 추론
VQAv2
77.8
—
시각 질의응답
TextVQA
82.3
—
문서 내 텍스트 인식
DocVQA
90.9
—
문서 이해
AI2D
—
—
과학 다이어그램
Gemini Nano (온디바이스)
벤치마크
Nano-1 (1.8B)
Nano-2 (3.25B)
HellaSwag
64.4
71.0
MMLU (5-shot)
31.3
39.7
용도
요약, 자동완성
고품질 온디바이스 추론
안전성
항목
설명
Red teaming
내부 + 외부 전문가
Safety 필터
입출력 필터 적용
정책 평가
Google의 AI Principles 기반
편향 벤치마크
BBQ, WinoBias 등 평가
동시대 비교 매트릭스
특성
Gemini Ultra (2023.12)
GPT-4 (2023.03)
Claude 2 (2023.07)
PaLM 2 (2023.05)
멀티모달
✅ (이미지+오디오+비디오)
✅ (이미지)
❌
❌
비디오 입력
✅
❌
❌
❌
MMLU
90.0
86.4
78.5
78.3
MATH
53.2
52.9
—
—
Context
32K
8K/32K
100K
—
파라미터
미공개
미공개 (~1.8T MoE?)
미공개
미공개
오픈소스
❌
❌
❌
❌
핵심 기여
MMLU 90% 돌파 + 네이티브 멀티모달
전문 시험 성능
Long context
효율적 스케일링
한계
아키텍처 미공개: 재현 불가
MMLU CoT@32: 최고 성능은 32번 샘플링의 majority vote → 실용적 비용 높음
Hallucination: 여전히 존재
벤치마크 과적합 가능성: 일부 벤치마크에서 학습 데이터 오염 우려
Gemini 1.5 (2024.02)
Digest: Gemini 1.5는 Google DeepMind의 MoE 기반 멀티모달 모델로, 최대 10M 토큰 컨텍스트를 지원하는 것이 핵심 혁신이다. Gemini 1.5 Pro는 1M 토큰(표준) / 10M 토큰(실험적)으로, “Needle-in-a-Haystack”에서 10M 토큰 내 99.7% 정확도를 달성했다. 1M 토큰 컨텍스트에서 전체 코드베이스, 1시간 비디오, 11시간 오디오를 한 번에 처리할 수 있다. Gemini 1.0 Ultra와 대등한 성능을 유지하면서 학습·추론 효율성이 크게 개선되었다.
알려진 스펙
모델 패밀리
모델
Context (표준)
Context (최대)
MoE
파라미터
Gemini 1.5 Pro
1M
10M (실험)
✅
미공개
Gemini 1.5 Flash
1M
—
✅
미공개 (소형)
아키텍처 (공개된 정보)
구성요소
설명
구조
MoE Transformer decoder-only
MoE
Sparse Mixture-of-Experts (상세 미공개)
멀티모달
텍스트 + 이미지 + 오디오 + 비디오 (네이티브)
Long Context
Ring Attention 계열 기술 활용 (추정)
효율성
Gemini 1.0 Ultra 대비 학습 비용 대폭 절감
graph LR
A["1M 토큰 Context"] --> B["전체 코드베이스<br/>(~7만 줄)"]
A --> C["1시간 비디오<br/>(프레임+오디오)"]
A --> D["11시간 오디오"]
A --> E["70만 단어 텍스트<br/>(소설 여러 권)"]
F["10M 토큰 (실험)"] --> G["~7시간 비디오"]
F --> H["36시간 오디오"]
Long Context 성능
Needle-in-a-Haystack
Context 길이
정확도 (텍스트)
정확도 (비디오)
정확도 (오디오)
128K
~100%
~100%
~100%
1M
~99.7%
~98%
~99%
10M
~99.7%
—
—
In-context Learning (새 언어 학습)
Kalamang어 (화자 <200명인 파푸아 언어)의 문법서를 컨텍스트에 넣고
영어↔Kalamang 번역 수행
인간 학습자 수준의 번역 품질 달성
벤치마크 비교
텍스트 벤치마크
벤치마크
Gemini 1.5 Pro
Gemini 1.0 Ultra
GPT-4 Turbo
Claude 3 Opus
MMLU (5-shot)
81.9
90.0
86.4
86.8
MATH (4-shot)
58.5
53.2
52.9
—
HumanEval (0-shot)
71.9
74.4
67.0
—
Natural2Code
77.7
74.9
73.4
—
GSM8K
91.7
94.4
92.0
95.0
멀티모달 벤치마크
벤치마크
Gemini 1.5 Pro
Gemini 1.0 Ultra
MMMU
58.5
59.4
MathVista
63.9
53.0
DocVQA
93.1
90.9
AI2D
94.4
—
비디오/오디오 벤치마크
벤치마크
Gemini 1.5 Pro
EgoSchema (video QA)
63.2
Video-MME
높은 성능
FLEURS (ASR, 다국어)
높은 성능
동시대 비교 매트릭스
특성
Gemini 1.5 Pro (2024.02)
Gemini 1.0 Ultra
GPT-4 Turbo
Claude 3 Opus
Context
1M / 10M
32K
128K
200K
MoE
✅
미공개
미공개 (추정 MoE)
미공개
멀티모달
✅ (이미지+오디오+비디오)
✅
✅ (이미지)
✅ (이미지)
MMLU
81.9
90.0
86.4
86.8
MATH
58.5
53.2
52.9
—
Needle@1M
99.7%
—
—
~98%
핵심 기여
초장문맥
MMLU 90%
전문 시험
안전성+추론
한계
MMLU 하락: 1.0 Ultra 대비 낮은 MMLU — MoE 효율성과 절대 성능 간 트레이드오프