Digest: PaLM(Pathways Language Model)은 Google이 Pathways 시스템을 활용하여 6144 TPU v4 칩에서 학습한 540B 파라미터 Dense Transformer이다. 780B 토큰으로 학습되었으며, 29개 NLP 벤치마크 중 28개에서 SOTA를 달성했다. 핵심 기여는 (1) BIG-Bench에서 인간 평균 성능 초과, (2) 5-shot MMLU 69.3으로 당시 SOTA, (3) 스케일링에 따른 **chain-of-thought 추론 능력의 불연속적 출현(emergent abilities)**을 보인 점이다. 아키텍처적으로 SwiGLU, Multi-Query Attention, RoPE(부분), 병렬 Attention-FFN 구조를 채택했다.
아키텍처 상세
모델 스펙
모델
Params
Layers
Heads
KV Heads
d_model
FFN Dim
Context
PaLM-8B
8B
32
16
16 (MHA)
4096
16384
2048
PaLM-62B
62B
64
32
32 (MHA)
8192
32768
2048
PaLM-540B
540B
118
48
48 (MHA)
18432
73728
2048
아키텍처 핵심 구성요소
구성요소
설명
Parallel Attention + FFN
Attention과 FFN을 병렬로 실행: y=x+Attn(Norm(x))+FFN(Norm(x)) → 학습 속도 ~15% 향상
Multi-Query Attention
KV 헤드 1개를 모든 Q 헤드가 공유 (추론 시 메모리 절약) — 8B/62B에서 사용
SwiGLU
FFN 활성 함수
RoPE
회전 위치 임베딩
No Bias
Attention, FFN에 bias 제거
SentencePiece
256,000 vocab
Normalization
Pre-LayerNorm
graph TD
A["입력 x"] --> B["LayerNorm"]
B --> C["Multi-Head Attention<br/>(MQA for 8B/62B)<br/>+ RoPE"]
B --> D["SwiGLU FFN"]
C --> E["x + Attn(Norm(x)) + FFN(Norm(x))"]
D --> E
style E fill:#e8f5e9
병렬 Attention+FFN: 순차적(Attn→FFN) 대신 병렬 실행으로 TPU 활용률 극대화
사전 학습
학습 데이터
데이터셋
비율
설명
Social media conversations
50%
필터링된 대화 데이터
Filtered webpages
27%
웹 크롤링 + 품질 필터
Books
13%
영어 도서
Wikipedia
4%
다국어
Code
5%
GitHub 코드
News
1%
뉴스 기사
합계
100%
780B 토큰 (영어 중심)
학습 하이퍼파라미터
항목
PaLM-540B
Optimizer
Adafactor (β₂ decay)
Learning Rate
Peak 1×10⁻² (540B), inverse sqrt schedule
Warmup
10,000 steps
Weight Decay
— (Adafactor 내장)
Batch Size
2048 sequences × 2048 tokens = 4M tokens → 점진적 증가
Dropout
0 (없음)
Hardware
TPU v4 6144 chips (2 pods)
Pathways
다중 TPU pod 간 분산 학습 시스템
학습 시간
~1200 TPU v4 core-days
벤치마크 비교
주요 벤치마크
벤치마크
PaLM-540B
PaLM-62B
GPT-3 (175B)
Chinchilla (70B)
Gopher (280B)
MMLU (5-shot)
69.3
53.7
43.9
67.6
60.0
HellaSwag
83.4
79.7
78.9
80.8
79.2
WinoGrande
77.0
72.4
70.2
73.7
70.1
TriviaQA
81.4
72.4
—
72.3
—
NaturalQuestions
29.3
21.5
—
16.6
—
BIG-Bench Avg
대부분 SOTA
—
—
—
—
BIG-Bench 주요 결과
BIG-Bench 전체: 인간 평균 성능 초과 (58개 태스크 중)
Emergent abilities: 8B→62B에서는 나타나지 않던 능력이 540B에서 불연속적으로 출현
예: 3-digit addition, logical deduction, word unscrambling