Gemini Models

Digest: Google DeepMind의 Gemini 시리즈는 네이티브 멀티모달(텍스트·이미지·오디오·비디오) 처리를 핵심으로 하는 LLM 패밀리이다. Gemini 1.0(2023.12)은 Ultra/Pro/Nano 3단계 구성으로 MMLU 90.0%를 최초로 돌파했고, Gemini 1.5(2024.02)는 MoE 기반으로 최대 10M 토큰 컨텍스트를 지원하며 장문맥 처리의 새로운 기준을 세웠다.

Gemini 1.0 (2023.12)

Digest: Gemini 1.0은 Google DeepMind가 발표한 네이티브 멀티모달(텍스트·이미지·오디오·비디오) 모델 패밀리로, Ultra/Pro/Nano 3개 크기로 구성된다. Gemini Ultra는 MMLU에서 90.0%를 달성하여 최초로 인간 전문가 수준(89.8%)을 초과한 LLM이다. 아키텍처 상세는 공개되지 않았으나, Transformer 기반 디코더-only 구조로 추정되며, 이미지·오디오·비디오를 네이티브로 인터리빙하여 처리한다. TPU v5p에서 학습되었으며, 32K 컨텍스트를 지원한다.

알려진 스펙

모델 패밀리

모델	용도	컨텍스트	파라미터	비고
Gemini Ultra	최고 성능 (복잡한 태스크)	32K	미공개	MMLU 90.0
Gemini Pro	범용 (API/Bard)	32K	미공개	GPT-3.5 Turbo급
Gemini Nano	온디바이스	—	1.8B / 3.25B	Pixel 8 Pro 탑재

아키텍처 (공개된 정보)

구성요소	설명
구조	Transformer decoder-only (추정)
멀티모달	이미지/오디오/비디오를 네이티브 토큰으로 인터리빙
이미지 인코더	별도 비전 인코더 → 토큰화
오디오	16kHz USM(Universal Speech Model) 기반 특성 추출
비디오	프레임 단위 인코딩 + 시간 정보
Context Length	32K
학습 인프라	TPU v5e/v4 다중 데이터센터

graph TD
    subgraph Input["멀티모달 입력"]
        A1["텍스트"] --> B["토큰화"]
        A2["이미지"] --> C["비전 인코더"] --> B
        A3["오디오"] --> D["오디오 인코더"] --> B
        A4["비디오"] --> E["프레임 인코딩"] --> B
    end

    B --> F["인터리빙된<br/>토큰 시퀀스"]
    F --> G["Transformer Decoder<br/>(Ultra/Pro/Nano)"]
    G --> H["텍스트 출력"]

사전 학습

항목	값
데이터	웹 문서, 도서, 코드, 이미지-텍스트 쌍, 오디오, 비디오 (멀티모달)
토큰 수	미공개
언어	다국어
학습 인프라	TPU v5e, TPU v4 (다중 데이터센터)
SentencePiece	256K vocab (추정)
품질 필터	데이터 품질 분류기, 안전성 필터, 중복 제거

벤치마크 비교

텍스트 벤치마크

벤치마크	Gemini Ultra	Gemini Pro	GPT-4	GPT-3.5	Claude 2	PaLM 2-L
MMLU (5-shot)	90.0	71.8	86.4	70.0	78.5	78.3
HellaSwag (10-shot)	87.8	—	95.3	85.5	—	86.8
GSM8K (Maj1@32)	94.4	86.5	92.0	57.1	88.0	80.7
MATH (4-shot)	53.2	32.6	52.9	—	—	—
HumanEval (0-shot)	74.4	67.7	67.0	48.1	70.0	—
BIG-Bench-Hard	83.6	75.0	—	—	—	—

멀티모달 벤치마크

벤치마크	Gemini Ultra	GPT-4V	설명
MMMU	59.4	56.8	대학 수준 멀티모달 이해
MathVista	53.0	49.9	시각적 수학 추론
VQAv2	77.8	—	시각 질의응답
TextVQA	82.3	—	문서 내 텍스트 인식
DocVQA	90.9	—	문서 이해
AI2D	—	—	과학 다이어그램

Gemini Nano (온디바이스)

벤치마크	Nano-1 (1.8B)	Nano-2 (3.25B)
HellaSwag	64.4	71.0
MMLU (5-shot)	31.3	39.7
용도	요약, 자동완성	고품질 온디바이스 추론

안전성

항목	설명
Red teaming	내부 + 외부 전문가
Safety 필터	입출력 필터 적용
정책 평가	Google의 AI Principles 기반
편향 벤치마크	BBQ, WinoBias 등 평가

동시대 비교 매트릭스

특성	Gemini Ultra (2023.12)	GPT-4 (2023.03)	Claude 2 (2023.07)	PaLM 2 (2023.05)
멀티모달	✅ (이미지+오디오+비디오)	✅ (이미지)	❌	❌
비디오 입력	✅	❌	❌	❌
MMLU	90.0	86.4	78.5	78.3
MATH	53.2	52.9	—	—
Context	32K	8K/32K	100K	—
파라미터	미공개	미공개 (~1.8T MoE?)	미공개	미공개
오픈소스	❌	❌	❌	❌
핵심 기여	MMLU 90% 돌파 + 네이티브 멀티모달	전문 시험 성능	Long context	효율적 스케일링

한계

아키텍처 미공개: 재현 불가
MMLU CoT@32: 최고 성능은 32번 샘플링의 majority vote → 실용적 비용 높음
Hallucination: 여전히 존재
벤치마크 과적합 가능성: 일부 벤치마크에서 학습 데이터 오염 우려

Gemini 1.5 (2024.02)

Digest: Gemini 1.5는 Google DeepMind의 MoE 기반 멀티모달 모델로, 최대 10M 토큰 컨텍스트를 지원하는 것이 핵심 혁신이다. Gemini 1.5 Pro는 1M 토큰(표준) / 10M 토큰(실험적)으로, “Needle-in-a-Haystack”에서 10M 토큰 내 99.7% 정확도를 달성했다. 1M 토큰 컨텍스트에서 전체 코드베이스, 1시간 비디오, 11시간 오디오를 한 번에 처리할 수 있다. Gemini 1.0 Ultra와 대등한 성능을 유지하면서 학습·추론 효율성이 크게 개선되었다.

알려진 스펙

모델 패밀리

모델	Context (표준)	Context (최대)	MoE	파라미터
Gemini 1.5 Pro	1M	10M (실험)	✅	미공개
Gemini 1.5 Flash	1M	—	✅	미공개 (소형)

아키텍처 (공개된 정보)

구성요소	설명
구조	MoE Transformer decoder-only
MoE	Sparse Mixture-of-Experts (상세 미공개)
멀티모달	텍스트 + 이미지 + 오디오 + 비디오 (네이티브)
Long Context	Ring Attention 계열 기술 활용 (추정)
효율성	Gemini 1.0 Ultra 대비 학습 비용 대폭 절감

graph LR
    A["1M 토큰 Context"] --> B["전체 코드베이스<br/>(~7만 줄)"]
    A --> C["1시간 비디오<br/>(프레임+오디오)"]
    A --> D["11시간 오디오"]
    A --> E["70만 단어 텍스트<br/>(소설 여러 권)"]

    F["10M 토큰 (실험)"] --> G["~7시간 비디오"]
    F --> H["36시간 오디오"]

Long Context 성능

Needle-in-a-Haystack

Context 길이	정확도 (텍스트)	정확도 (비디오)	정확도 (오디오)
128K	~100%	~100%	~100%
1M	~99.7%	~98%	~99%
10M	~99.7%	—	—

In-context Learning (새 언어 학습)

Kalamang어 (화자 <200명인 파푸아 언어)의 문법서를 컨텍스트에 넣고
영어↔Kalamang 번역 수행
인간 학습자 수준의 번역 품질 달성

벤치마크 비교

텍스트 벤치마크

벤치마크	Gemini 1.5 Pro	Gemini 1.0 Ultra	GPT-4 Turbo	Claude 3 Opus
MMLU (5-shot)	81.9	90.0	86.4	86.8
MATH (4-shot)	58.5	53.2	52.9	—
HumanEval (0-shot)	71.9	74.4	67.0	—
Natural2Code	77.7	74.9	73.4	—
GSM8K	91.7	94.4	92.0	95.0

멀티모달 벤치마크

벤치마크	Gemini 1.5 Pro	Gemini 1.0 Ultra
MMMU	58.5	59.4
MathVista	63.9	53.0
DocVQA	93.1	90.9
AI2D	94.4	—

비디오/오디오 벤치마크

벤치마크	Gemini 1.5 Pro
EgoSchema (video QA)	63.2
Video-MME	높은 성능
FLEURS (ASR, 다국어)	높은 성능

동시대 비교 매트릭스

특성	Gemini 1.5 Pro (2024.02)	Gemini 1.0 Ultra	GPT-4 Turbo	Claude 3 Opus
Context	1M / 10M	32K	128K	200K
MoE	✅	미공개	미공개 (추정 MoE)	미공개
멀티모달	✅ (이미지+오디오+비디오)	✅	✅ (이미지)	✅ (이미지)
MMLU	81.9	90.0	86.4	86.8
MATH	58.5	53.2	52.9	—
Needle@1M	99.7%	—	—	~98%
핵심 기여	초장문맥	MMLU 90%	전문 시험	안전성+추론

한계

MMLU 하락: 1.0 Ultra 대비 낮은 MMLU — MoE 효율성과 절대 성능 간 트레이드오프
10M 추론 비용: 극장문 컨텍스트의 계산 비용
아키텍처 미공개: MoE 구조 상세 미공개

Juhyeon's Blog

탐색기

Gemini Models

Gemini Models

Gemini 1.0 (2023.12)

알려진 스펙

모델 패밀리

아키텍처 (공개된 정보)

사전 학습

벤치마크 비교

텍스트 벤치마크

멀티모달 벤치마크

Gemini Nano (온디바이스)

안전성

동시대 비교 매트릭스

한계

Gemini 1.5 (2024.02)

알려진 스펙

모델 패밀리

아키텍처 (공개된 정보)

Long Context 성능

Needle-in-a-Haystack

In-context Learning (새 언어 학습)

벤치마크 비교

텍스트 벤치마크

멀티모달 벤치마크

비디오/오디오 벤치마크

동시대 비교 매트릭스

한계

그래프 뷰

목차

Properties

백링크