Digest: Yi는 01.AI가 개발한 이중언어(영어-중국어) 오픈소스 LLM 시리즈(6B/34B)로, 데이터 엔지니어링의 중요성을 강조한다. 3.1T 토큰의 고품질 영어-중국어 코퍼스로 학습되었으며, LLaMA 아키텍처를 기반으로 GQA를 채택했다. Yi-34B는 MMLU 76.3으로 LLaMA 2-70B(68.9)를 크게 능가하고, 절반 크기에서 더 나은 성능을 보인다. 아키텍처적 혁신보다 **데이터 파이프라인(cascaded dedup, quality filtering)**이 핵심 기여이다. Yi-Vision, Yi-Coder 등 확장 모델도 발표되었다.
아키텍처 상세
모델 스펙
모델
Params
Layers
d_model
Q Heads
KV Heads
FFN Dim
Context
Vocab
Yi-6B
6.0B
32
4096
32
4 (GQA)
11008
4K/200K
64,000
Yi-34B
34.4B
60
7168
56
8 (GQA)
20480
4K/200K
64,000
아키텍처 핵심 구성요소
구성요소
설명
GQA
Yi-6B: KV=4, Yi-34B: KV=8
SwiGLU
FFN 활성 함수
RoPE
회전 위치 임베딩 (ABF=500,000으로 long context 확장)
RMSNorm
Pre-normalization
Tokenizer
SentencePiece BPE, 64,000 vocab (영어+중국어 균형)
사전 학습
데이터 파이프라인 (핵심 기여)
graph TD
A["CommonCrawl +<br/>기타 소스"] --> B["Heuristic Filtering<br/>(URL, 언어, 길이)"]
B --> C["Learned Filtering<br/>(품질 분류기)"]
C --> D["Cascaded Deduplication<br/>(문서→단락→문장)"]
D --> E["Toxicity Filter"]
E --> F["고품질 코퍼스<br/>3.1T tokens"]
항목
값
총 토큰
3.1T
언어
영어 + 중국어 (이중언어 균형)
중복 제거
Cascaded dedup: 문서→단락→문장 수준 3단계
품질 필터
학습된 분류기 + 휴리스틱
코드
GitHub 코드 포함
학습 하이퍼파라미터
항목
값
Optimizer
AdamW (β₁=0.9, β₂=0.95)
Learning Rate
Peak 3×10⁻⁴ (cosine decay)
Warmup
2000 steps
Weight Decay
0.1
Batch Size
4M tokens
Context Length
4K (기본) → 200K (ABF + NTK-aware 확장)
Hardware
—
벤치마크 비교
벤치마크
Yi-6B
Yi-34B
LLaMA 2-7B
LLaMA 2-70B
Mistral 7B
Falcon-40B
MMLU (5-shot)
63.2
76.3
45.3
68.9
60.1
55.4
HellaSwag
73.0
81.5
77.2
—
81.3
—
ARC-Challenge
53.4
63.4
45.9
—
55.5
54.5
WinoGrande
72.0
76.0
69.2
—
75.3
—
GSM8K
32.6
67.6
14.6
56.8
35.4
—
HumanEval
14.6
26.2
12.8
29.9
30.5
—
C-Eval (중국어)
73.5
81.4
—
—
—
—
CMMLU (중국어)
72.4
82.6
—
—
—
—
핵심 비교
Yi-34B(34B) > LLaMA 2-70B(70B): 절반 크기로 MMLU 76.3 vs 68.9