Gemini Models

Digest: Google DeepMind의 Gemini 시리즈는 네이티브 멀티모달(텍스트·이미지·오디오·비디오) 처리를 핵심으로 하는 LLM 패밀리이다. Gemini 1.0(2023.12)은 Ultra/Pro/Nano 3단계 구성으로 MMLU 90.0%를 최초로 돌파했고, Gemini 1.5(2024.02)는 MoE 기반으로 최대 10M 토큰 컨텍스트를 지원하며 장문맥 처리의 새로운 기준을 세웠다.


Gemini 1.0 (2023.12)

Digest: Gemini 1.0은 Google DeepMind가 발표한 네이티브 멀티모달(텍스트·이미지·오디오·비디오) 모델 패밀리로, Ultra/Pro/Nano 3개 크기로 구성된다. Gemini Ultra는 MMLU에서 90.0%를 달성하여 최초로 인간 전문가 수준(89.8%)을 초과한 LLM이다. 아키텍처 상세는 공개되지 않았으나, Transformer 기반 디코더-only 구조로 추정되며, 이미지·오디오·비디오를 네이티브로 인터리빙하여 처리한다. TPU v5p에서 학습되었으며, 32K 컨텍스트를 지원한다.


알려진 스펙

모델 패밀리

모델용도컨텍스트파라미터비고
Gemini Ultra최고 성능 (복잡한 태스크)32K미공개MMLU 90.0
Gemini Pro범용 (API/Bard)32K미공개GPT-3.5 Turbo급
Gemini Nano온디바이스1.8B / 3.25BPixel 8 Pro 탑재

아키텍처 (공개된 정보)

구성요소설명
구조Transformer decoder-only (추정)
멀티모달이미지/오디오/비디오를 네이티브 토큰으로 인터리빙
이미지 인코더별도 비전 인코더 → 토큰화
오디오16kHz USM(Universal Speech Model) 기반 특성 추출
비디오프레임 단위 인코딩 + 시간 정보
Context Length32K
학습 인프라TPU v5e/v4 다중 데이터센터
graph TD
    subgraph Input["멀티모달 입력"]
        A1["텍스트"] --> B["토큰화"]
        A2["이미지"] --> C["비전 인코더"] --> B
        A3["오디오"] --> D["오디오 인코더"] --> B
        A4["비디오"] --> E["프레임 인코딩"] --> B
    end

    B --> F["인터리빙된<br/>토큰 시퀀스"]
    F --> G["Transformer Decoder<br/>(Ultra/Pro/Nano)"]
    G --> H["텍스트 출력"]

사전 학습

항목
데이터웹 문서, 도서, 코드, 이미지-텍스트 쌍, 오디오, 비디오 (멀티모달)
토큰 수미공개
언어다국어
학습 인프라TPU v5e, TPU v4 (다중 데이터센터)
SentencePiece256K vocab (추정)
품질 필터데이터 품질 분류기, 안전성 필터, 중복 제거

벤치마크 비교

텍스트 벤치마크

벤치마크Gemini UltraGemini ProGPT-4GPT-3.5Claude 2PaLM 2-L
MMLU (5-shot)90.071.886.470.078.578.3
HellaSwag (10-shot)87.895.385.586.8
GSM8K (Maj1@32)94.486.592.057.188.080.7
MATH (4-shot)53.232.652.9
HumanEval (0-shot)74.467.767.048.170.0
BIG-Bench-Hard83.675.0

멀티모달 벤치마크

벤치마크Gemini UltraGPT-4V설명
MMMU59.456.8대학 수준 멀티모달 이해
MathVista53.049.9시각적 수학 추론
VQAv277.8시각 질의응답
TextVQA82.3문서 내 텍스트 인식
DocVQA90.9문서 이해
AI2D과학 다이어그램

Gemini Nano (온디바이스)

벤치마크Nano-1 (1.8B)Nano-2 (3.25B)
HellaSwag64.471.0
MMLU (5-shot)31.339.7
용도요약, 자동완성고품질 온디바이스 추론

안전성

항목설명
Red teaming내부 + 외부 전문가
Safety 필터입출력 필터 적용
정책 평가Google의 AI Principles 기반
편향 벤치마크BBQ, WinoBias 등 평가

동시대 비교 매트릭스

특성Gemini Ultra (2023.12)GPT-4 (2023.03)Claude 2 (2023.07)PaLM 2 (2023.05)
멀티모달✅ (이미지+오디오+비디오)✅ (이미지)
비디오 입력
MMLU90.086.478.578.3
MATH53.252.9
Context32K8K/32K100K
파라미터미공개미공개 (~1.8T MoE?)미공개미공개
오픈소스
핵심 기여MMLU 90% 돌파 + 네이티브 멀티모달전문 시험 성능Long context효율적 스케일링

한계

  • 아키텍처 미공개: 재현 불가
  • MMLU CoT@32: 최고 성능은 32번 샘플링의 majority vote → 실용적 비용 높음
  • Hallucination: 여전히 존재
  • 벤치마크 과적합 가능성: 일부 벤치마크에서 학습 데이터 오염 우려

Gemini 1.5 (2024.02)

Digest: Gemini 1.5는 Google DeepMind의 MoE 기반 멀티모달 모델로, 최대 10M 토큰 컨텍스트를 지원하는 것이 핵심 혁신이다. Gemini 1.5 Pro는 1M 토큰(표준) / 10M 토큰(실험적)으로, “Needle-in-a-Haystack”에서 10M 토큰 내 99.7% 정확도를 달성했다. 1M 토큰 컨텍스트에서 전체 코드베이스, 1시간 비디오, 11시간 오디오를 한 번에 처리할 수 있다. Gemini 1.0 Ultra와 대등한 성능을 유지하면서 학습·추론 효율성이 크게 개선되었다.


알려진 스펙

모델 패밀리

모델Context (표준)Context (최대)MoE파라미터
Gemini 1.5 Pro1M10M (실험)미공개
Gemini 1.5 Flash1M미공개 (소형)

아키텍처 (공개된 정보)

구성요소설명
구조MoE Transformer decoder-only
MoESparse Mixture-of-Experts (상세 미공개)
멀티모달텍스트 + 이미지 + 오디오 + 비디오 (네이티브)
Long ContextRing Attention 계열 기술 활용 (추정)
효율성Gemini 1.0 Ultra 대비 학습 비용 대폭 절감
graph LR
    A["1M 토큰 Context"] --> B["전체 코드베이스<br/>(~7만 줄)"]
    A --> C["1시간 비디오<br/>(프레임+오디오)"]
    A --> D["11시간 오디오"]
    A --> E["70만 단어 텍스트<br/>(소설 여러 권)"]

    F["10M 토큰 (실험)"] --> G["~7시간 비디오"]
    F --> H["36시간 오디오"]

Long Context 성능

Needle-in-a-Haystack

Context 길이정확도 (텍스트)정확도 (비디오)정확도 (오디오)
128K~100%~100%~100%
1M~99.7%~98%~99%
10M~99.7%

In-context Learning (새 언어 학습)

  • Kalamang어 (화자 <200명인 파푸아 언어)의 문법서를 컨텍스트에 넣고
  • 영어↔Kalamang 번역 수행
  • 인간 학습자 수준의 번역 품질 달성

벤치마크 비교

텍스트 벤치마크

벤치마크Gemini 1.5 ProGemini 1.0 UltraGPT-4 TurboClaude 3 Opus
MMLU (5-shot)81.990.086.486.8
MATH (4-shot)58.553.252.9
HumanEval (0-shot)71.974.467.0
Natural2Code77.774.973.4
GSM8K91.794.492.095.0

멀티모달 벤치마크

벤치마크Gemini 1.5 ProGemini 1.0 Ultra
MMMU58.559.4
MathVista63.953.0
DocVQA93.190.9
AI2D94.4

비디오/오디오 벤치마크

벤치마크Gemini 1.5 Pro
EgoSchema (video QA)63.2
Video-MME높은 성능
FLEURS (ASR, 다국어)높은 성능

동시대 비교 매트릭스

특성Gemini 1.5 Pro (2024.02)Gemini 1.0 UltraGPT-4 TurboClaude 3 Opus
Context1M / 10M32K128K200K
MoE미공개미공개 (추정 MoE)미공개
멀티모달✅ (이미지+오디오+비디오)✅ (이미지)✅ (이미지)
MMLU81.990.086.486.8
MATH58.553.252.9
Needle@1M99.7%~98%
핵심 기여초장문맥MMLU 90%전문 시험안전성+추론

한계

  • MMLU 하락: 1.0 Ultra 대비 낮은 MMLU — MoE 효율성과 절대 성능 간 트레이드오프
  • 10M 추론 비용: 극장문 컨텍스트의 계산 비용
  • 아키텍처 미공개: MoE 구조 상세 미공개