Yi: Open Foundation Models by 01.AI

Digest: Yi는 01.AI가 개발한 이중언어(영어-중국어) 오픈소스 LLM 시리즈(6B/34B)로, 데이터 엔지니어링의 중요성을 강조한다. 3.1T 토큰의 고품질 영어-중국어 코퍼스로 학습되었으며, LLaMA 아키텍처를 기반으로 GQA를 채택했다. Yi-34B는 MMLU 76.3으로 LLaMA 2-70B(68.9)를 크게 능가하고, 절반 크기에서 더 나은 성능을 보인다. 아키텍처적 혁신보다 **데이터 파이프라인(cascaded dedup, quality filtering)**이 핵심 기여이다. Yi-Vision, Yi-Coder 등 확장 모델도 발표되었다.

아키텍처 상세

모델 스펙

모델	Params	Layers	d_model	Q Heads	KV Heads	FFN Dim	Context	Vocab
Yi-6B	6.0B	32	4096	32	4 (GQA)	11008	4K/200K	64,000
Yi-34B	34.4B	60	7168	56	8 (GQA)	20480	4K/200K	64,000

아키텍처 핵심 구성요소

구성요소	설명
GQA	Yi-6B: KV=4, Yi-34B: KV=8
SwiGLU	FFN 활성 함수
RoPE	회전 위치 임베딩 (ABF=500,000으로 long context 확장)
RMSNorm	Pre-normalization
Tokenizer	SentencePiece BPE, 64,000 vocab (영어+중국어 균형)

사전 학습

데이터 파이프라인 (핵심 기여)

graph TD
    A["CommonCrawl +<br/>기타 소스"] --> B["Heuristic Filtering<br/>(URL, 언어, 길이)"]
    B --> C["Learned Filtering<br/>(품질 분류기)"]
    C --> D["Cascaded Deduplication<br/>(문서→단락→문장)"]
    D --> E["Toxicity Filter"]
    E --> F["고품질 코퍼스<br/>3.1T tokens"]

항목	값
총 토큰	3.1T
언어	영어 + 중국어 (이중언어 균형)
중복 제거	Cascaded dedup: 문서→단락→문장 수준 3단계
품질 필터	학습된 분류기 + 휴리스틱
코드	GitHub 코드 포함

학습 하이퍼파라미터

항목	값
Optimizer	AdamW (β₁=0.9, β₂=0.95)
Learning Rate	Peak 3×10⁻⁴ (cosine decay)
Warmup	2000 steps
Weight Decay	0.1
Batch Size	4M tokens
Context Length	4K (기본) → 200K (ABF + NTK-aware 확장)
Hardware	—

벤치마크 비교

벤치마크	Yi-6B	Yi-34B	LLaMA 2-7B	LLaMA 2-70B	Mistral 7B	Falcon-40B
MMLU (5-shot)	63.2	76.3	45.3	68.9	60.1	55.4
HellaSwag	73.0	81.5	77.2	—	81.3	—
ARC-Challenge	53.4	63.4	45.9	—	55.5	54.5
WinoGrande	72.0	76.0	69.2	—	75.3	—
GSM8K	32.6	67.6	14.6	56.8	35.4	—
HumanEval	14.6	26.2	12.8	29.9	30.5	—
C-Eval (중국어)	73.5	81.4	—	—	—	—
CMMLU (중국어)	72.4	82.6	—	—	—	—

핵심 비교

Yi-34B(34B) > LLaMA 2-70B(70B): 절반 크기로 MMLU 76.3 vs 68.9
이중언어 강점: C-Eval/CMMLU에서 중국어 특화 성능

동시대 비교 매트릭스

특성	Yi-34B (2024.03)	LLaMA 2-70B (2023.07)	Mistral 7B (2023.10)	Qwen-14B (2023.09)
파라미터	34.4B	70B	7.3B	14B
학습 토큰	3.1T	2T	미공개	3T
Context	4K/200K	4K	8K	8K/32K
MMLU	76.3	68.9	60.1	66.3
중국어	✅ (이중언어)	약함	약함	✅ (이중언어)
GQA	✅	✅ (70B)	✅	✅
핵심 기여	데이터 품질+이중언어	오픈 RLHF	SWA	이중언어

Juhyeon's Blog

탐색기

Yi - Open Foundation Models by 01.AI

Yi: Open Foundation Models by 01.AI

아키텍처 상세

모델 스펙

아키텍처 핵심 구성요소

사전 학습

데이터 파이프라인 (핵심 기여)

학습 하이퍼파라미터

벤치마크 비교

핵심 비교

동시대 비교 매트릭스

그래프 뷰

목차

Properties

백링크