Yi: Open Foundation Models by 01.AI

Digest: Yi는 01.AI가 개발한 이중언어(영어-중국어) 오픈소스 LLM 시리즈(6B/34B)로, 데이터 엔지니어링의 중요성을 강조한다. 3.1T 토큰의 고품질 영어-중국어 코퍼스로 학습되었으며, LLaMA 아키텍처를 기반으로 GQA를 채택했다. Yi-34B는 MMLU 76.3으로 LLaMA 2-70B(68.9)를 크게 능가하고, 절반 크기에서 더 나은 성능을 보인다. 아키텍처적 혁신보다 **데이터 파이프라인(cascaded dedup, quality filtering)**이 핵심 기여이다. Yi-Vision, Yi-Coder 등 확장 모델도 발표되었다.


아키텍처 상세

모델 스펙

모델ParamsLayersd_modelQ HeadsKV HeadsFFN DimContextVocab
Yi-6B6.0B324096324 (GQA)110084K/200K64,000
Yi-34B34.4B607168568 (GQA)204804K/200K64,000

아키텍처 핵심 구성요소

구성요소설명
GQAYi-6B: KV=4, Yi-34B: KV=8
SwiGLUFFN 활성 함수
RoPE회전 위치 임베딩 (ABF=500,000으로 long context 확장)
RMSNormPre-normalization
TokenizerSentencePiece BPE, 64,000 vocab (영어+중국어 균형)

사전 학습

데이터 파이프라인 (핵심 기여)

graph TD
    A["CommonCrawl +<br/>기타 소스"] --> B["Heuristic Filtering<br/>(URL, 언어, 길이)"]
    B --> C["Learned Filtering<br/>(품질 분류기)"]
    C --> D["Cascaded Deduplication<br/>(문서→단락→문장)"]
    D --> E["Toxicity Filter"]
    E --> F["고품질 코퍼스<br/>3.1T tokens"]
항목
총 토큰3.1T
언어영어 + 중국어 (이중언어 균형)
중복 제거Cascaded dedup: 문서→단락→문장 수준 3단계
품질 필터학습된 분류기 + 휴리스틱
코드GitHub 코드 포함

학습 하이퍼파라미터

항목
OptimizerAdamW (β₁=0.9, β₂=0.95)
Learning RatePeak 3×10⁻⁴ (cosine decay)
Warmup2000 steps
Weight Decay0.1
Batch Size4M tokens
Context Length4K (기본) → 200K (ABF + NTK-aware 확장)
Hardware

벤치마크 비교

벤치마크Yi-6BYi-34BLLaMA 2-7BLLaMA 2-70BMistral 7BFalcon-40B
MMLU (5-shot)63.276.345.368.960.155.4
HellaSwag73.081.577.281.3
ARC-Challenge53.463.445.955.554.5
WinoGrande72.076.069.275.3
GSM8K32.667.614.656.835.4
HumanEval14.626.212.829.930.5
C-Eval (중국어)73.581.4
CMMLU (중국어)72.482.6

핵심 비교

  • Yi-34B(34B) > LLaMA 2-70B(70B): 절반 크기로 MMLU 76.3 vs 68.9
  • 이중언어 강점: C-Eval/CMMLU에서 중국어 특화 성능

동시대 비교 매트릭스

특성Yi-34B (2024.03)LLaMA 2-70B (2023.07)Mistral 7B (2023.10)Qwen-14B (2023.09)
파라미터34.4B70B7.3B14B
학습 토큰3.1T2T미공개3T
Context4K/200K4K8K8K/32K
MMLU76.368.960.166.3
중국어✅ (이중언어)약함약함✅ (이중언어)
GQA✅ (70B)
핵심 기여데이터 품질+이중언어오픈 RLHFSWA이중언어