PaLM: Scaling Language Modeling with Pathways

Digest: PaLM(Pathways Language Model)은 Google이 Pathways 시스템을 활용하여 6144 TPU v4 칩에서 학습한 540B 파라미터 Dense Transformer이다. 780B 토큰으로 학습되었으며, 29개 NLP 벤치마크 중 28개에서 SOTA를 달성했다. 핵심 기여는 (1) BIG-Bench에서 인간 평균 성능 초과, (2) 5-shot MMLU 69.3으로 당시 SOTA, (3) 스케일링에 따른 **chain-of-thought 추론 능력의 불연속적 출현(emergent abilities)**을 보인 점이다. 아키텍처적으로 SwiGLU, Multi-Query Attention, RoPE(부분), 병렬 Attention-FFN 구조를 채택했다.

아키텍처 상세

모델 스펙

모델	Params	Layers	Heads	KV Heads	d_model	FFN Dim	Context
PaLM-8B	8B	32	16	16 (MHA)	4096	16384	2048
PaLM-62B	62B	64	32	32 (MHA)	8192	32768	2048
PaLM-540B	540B	118	48	48 (MHA)	18432	73728	2048

아키텍처 핵심 구성요소

구성요소	설명
Parallel Attention + FFN	Attention과 FFN을 병렬로 실행: $y = x + Attn (Norm (x)) + FFN (Norm (x))$ → 학습 속도 ~15% 향상
Multi-Query Attention	KV 헤드 1개를 모든 Q 헤드가 공유 (추론 시 메모리 절약) — 8B/62B에서 사용
SwiGLU	FFN 활성 함수
RoPE	회전 위치 임베딩
No Bias	Attention, FFN에 bias 제거
SentencePiece	256,000 vocab
Normalization	Pre-LayerNorm

graph TD
    A["입력 x"] --> B["LayerNorm"]
    B --> C["Multi-Head Attention<br/>(MQA for 8B/62B)<br/>+ RoPE"]
    B --> D["SwiGLU FFN"]
    C --> E["x + Attn(Norm(x)) + FFN(Norm(x))"]
    D --> E

    style E fill:#e8f5e9

병렬 Attention+FFN: 순차적(Attn→FFN) 대신 병렬 실행으로 TPU 활용률 극대화

사전 학습

학습 데이터

데이터셋	비율	설명
Social media conversations	50%	필터링된 대화 데이터
Filtered webpages	27%	웹 크롤링 + 품질 필터
Books	13%	영어 도서
Wikipedia	4%	다국어
Code	5%	GitHub 코드
News	1%	뉴스 기사
합계	100%	780B 토큰 (영어 중심)

학습 하이퍼파라미터

항목	PaLM-540B
Optimizer	Adafactor (β₂ decay)
Learning Rate	Peak 1×10⁻² (540B), inverse sqrt schedule
Warmup	10,000 steps
Weight Decay	— (Adafactor 내장)
Batch Size	2048 sequences × 2048 tokens = 4M tokens → 점진적 증가
Dropout	0 (없음)
Hardware	TPU v4 6144 chips (2 pods)
Pathways	다중 TPU pod 간 분산 학습 시스템
학습 시간	~1200 TPU v4 core-days

벤치마크 비교

주요 벤치마크

벤치마크	PaLM-540B	PaLM-62B	GPT-3 (175B)	Chinchilla (70B)	Gopher (280B)
MMLU (5-shot)	69.3	53.7	43.9	67.6	60.0
HellaSwag	83.4	79.7	78.9	80.8	79.2
WinoGrande	77.0	72.4	70.2	73.7	70.1
TriviaQA	81.4	72.4	—	72.3	—
NaturalQuestions	29.3	21.5	—	16.6	—
BIG-Bench Avg	대부분 SOTA	—	—	—	—

BIG-Bench 주요 결과

BIG-Bench 전체: 인간 평균 성능 초과 (58개 태스크 중)
Emergent abilities: 8B→62B에서는 나타나지 않던 능력이 540B에서 불연속적으로 출현
- 예: 3-digit addition, logical deduction, word unscrambling

Chain-of-Thought 추론

벤치마크	PaLM-540B (standard)	PaLM-540B (CoT)	GPT-3 (CoT)
GSM8K	17.9 (8-shot)	56.9	46.9
MATH	8.8	—	—
MGSM (다국어 수학)	—	78.5	—

동시대 비교 매트릭스

특성	PaLM (2022.04)	Chinchilla (2022.04)	GPT-3 (2020.05)	Gopher (2021.12)
파라미터	540B	70B	175B	280B
학습 토큰	780B	1.4T	300B	300B
학습 시스템	Pathways (6144 TPU)	—	—	—
MMLU	69.3	67.6	43.9	60.0
Attention	MHA/MQA	—	MHA	MHA
FFN	SwiGLU	—	GELU	GELU
병렬 Attn+FFN	✅	—	❌	❌
핵심 기여	스케일+Emergent abilities	스케일링 법칙	퓨샷	안전성/분석

한계

Chinchilla-suboptimal: 540B에 780B 토큰 → 스케일링 법칙상 under-trained
Context 2048: 짧은 컨텍스트
비공개: 가중치 미공개
탄소 배출: 6144 TPU 학습의 환경 비용

Juhyeon's Blog

탐색기

PaLM - Scaling Language Modeling with Pathways

PaLM: Scaling Language Modeling with Pathways

아키텍처 상세

모델 스펙

아키텍처 핵심 구성요소

사전 학습

학습 데이터

학습 하이퍼파라미터

벤치마크 비교

주요 벤치마크

BIG-Bench 주요 결과

Chain-of-Thought 추론

동시대 비교 매트릭스

한계

그래프 뷰

목차

Properties

백링크