신경망 언어 모델의 스케일링 법칙

Digest: 언어 모델의 성능은 아키텍처 세부사항(depth, width, head 수)이 아닌 세 가지 스케일 요인 — 모델 파라미터 수(N), 학습 데이터 크기(D), 학습 연산량(C) — 에 의해 결정되며, 각각 멱법칙(power law, 두 변수의 로그가 선형 관계를 따르는 함수적 관계) 을 따른다. 이 관계는 7자릿수 이상의 범위에서 일탈 없이 성립한다(Figure 1). 핵심 통찰은 큰 모델이 더 적은 데이터로 동일한 성능에 도달하는 “샘플 효율성” 을 보인다는 것이다. 이로부터 컴퓨트 효율적 학습의 최적 전략 이 도출되는데, 고정된 연산 예산에서 N ∝ C^0.73으로 모델 크기에 대부분의 자원을 투입하고, 비교적 적은 데이터에서 수렴 전에 조기 중단해야 한다(Section 6). 실험 결과, 파라미터 수를 2배로 늘리면 loss가 약 5% 감소하며(Figure 1), 아키텍처의 깊이-너비 비율을 40배 변화시켜도 성능 차이는 3% 이내였다(Figure 5). 그러나 이 결론은 WebText2라는 단일 데이터셋에서 도출 되었으며, 다운스트림 태스크로의 전이 가능성은 검증되지 않았다. 또한 후속 연구인 Chinchilla(Hoffmann et al., 2022)는 모델과 데이터를 동등하게 확장해야 compute-optimal이라 반박하여, Kaplan의 “모델 크기 우선” 결론이 학습률 스케줄링 등 실험 조건의 차이에 기인할 가능성이 남아 있다. 이 논문이 열어놓은 미해결 질문은: 멱법칙이 어디서 끝나는가? 저자들이 추정한 이론적 한계점(C* ~ 10⁴ PF-days, L* ~ 1.7 nats/token)은 자연어의 정보량 한계인가, 아니면 Transformer 아키텍처의 한계인가?

섹션별 요약

Introduction

언어 모델링에서 cross-entropy loss가 모델 크기, 데이터, 컴퓨트 각각과 매끄러운 멱법칙 관계를 따른다는 것을 발견했다. 이 관계는 아키텍처 세부사항(depth vs width, attention head 수)과 거의 무관하며, 총 파라미터 수 N만이 결정적이다. 이러한 단순한 관계로부터 과적합(overfitting) 발생 조건과 학습 속도를 예측하는 공식을 도출하고, 주어진 컴퓨트 예산에서 최적의 모델 크기·데이터·학습 시간 배분 전략을 제시한다.

Methods

Transformer 언어 모델을 WebText2(20.3M 문서, 2.29×10¹⁰ 토큰) 데이터셋에서 학습하며, 모델 크기를 768 파라미터에서 15억 파라미터까지(임베딩 제외), 데이터를 22M에서 23B 토큰까지 체계적으로 변화시켰다. 아키텍처 형태(n_layer, d_model)는 (2, 128)부터 (207, 768)까지 탐색했다. 옵티마이저는 Adam(표준)과 Adafactor(10억+ 파라미터)를 사용했고, 학습률은 3000스텝 선형 웜업 후 코사인 감쇠를 적용했다. 컨텍스트 길이 1024 토큰, 배치 크기 512 시퀀스가 기본 설정이며, 전이 학습 검증을 위해 Books Corpus, Common Crawl, Wikipedia, Internet Books에서도 평가했다.

Results

핵심 스케일링 법칙 수식:

$L (N) = (N_{c} / N)_{N}^{α}, α_{N} \approx 0.076$ , $N_{c} \approx$ 8.8×10¹³ (Figure 1)
$L (D) = (D_{c} / D)_{D}^{α}, α_{D} \approx 0.095$ , $D_{c} \approx$ 5.4×10¹³ (Figure 1)
$L (C_{m} in) = (C_{c} / C_{m} in)_{C}^{α}, α_{C} \approx 0.050$ (Figure 1)

최적 컴퓨트 할당 (Section 6):

N(C_min) ∝ C_min^0.73 → 모델 크기가 컴퓨트의 대부분을 차지
B(C_min) ∝ C_min^0.24 → 배치 크기는 완만하게 증가
S(C_min) ∝ C_min^0.03 → 학습 스텝은 거의 증가하지 않음

과적합 조건: 성능 저하가 N^0.74/D 비율에 의존. 과적합을 피하려면 D ≳ 5×10³ × N^0.74 필요(Section 4).

아키텍처 독립성: 동일 파라미터 수에서 depth-width 비율을 40배 변화시켜도 성능 차이 ~3% (Figure 5).

전이 학습: WebText2에서 학습한 모델의 loss가 다른 분포(Books, Common Crawl 등)에서도 거의 일정한 오프셋으로 상관관계를 보임(Section 3.2.2).

스케일링 변수	멱법칙 지수	의미
파라미터 수 N	α_N ≈ 0.076	N을 10배 늘리면 loss ~17% 감소
데이터 크기 D	α_D ≈ 0.095	D를 10배 늘리면 loss ~20% 감소
컴퓨트 C	α_C ≈ 0.050	C를 10배 늘리면 loss ~11% 감소
임계 배치 크기	α_B ≈ 0.21	loss 13% 감소마다 배치 크기 2배

Discussion

스케일링 법칙이 성립하는 이론적 이유는 미해명. 저자들은 loss의 이론적 하한(C* ~ 10⁴ PF-days, N* ~ 10¹² 파라미터, D* ~ 10¹² 토큰, L* ~ 1.7 nats/token)을 추정하며, 이것이 자연어 데이터의 정보량 한계일 수 있다고 추측. 또한 매끄러운 loss 감소가 질적 능력 변화를 가릴 수 있다는 점과, WebText2 외 도메인으로의 일반화 한계를 인정.

Insights

주목할 점: 아키텍처 세부사항이 아닌 스케일 자체가 성능의 지배적 요인이라는 발견은, 이후 “Bitter Lesson”(Sutton, 2019)의 실증적 근거가 됨
연결 고리: GPT-3(Brown et al., 2020)는 이 스케일링 법칙을 직접 활용하여 1750억 파라미터 모델을 설계한 결과물
시사점: “좋은 아키텍처를 찾는 것”보다 “규모를 키우는 것”이 더 효율적이라는 패러다임 전환의 시작점
비판적 코멘트: $α_{N} < α_{D} (0.076 < 0.095)$ 임에도 “모델 크기 우선” 결론을 내린 것은 compute-optimal 분석 시 특정 실험 조건(학습률 스케줄, early stopping)에 의존적일 수 있음

Discussion Points

논쟁점: Kaplan의 $N \propto C^{0} .73$ (모델 크기 우선) vs Chinchilla의 $N \propto C^{0} .5$ (모델-데이터 균등) — 이 차이가 실험 설계의 차이에서 기인하는지, 근본적 방법론 차이인지 아직 완전히 해소되지 않음
검증 필요 가정: “smooth power-law improvements in loss translate to qualitative task improvements” — 이 가정은 이후 “emergent abilities” 연구에서 도전받음
후속 연구: Chinchilla(2022), Llama(2023) 등이 Kaplan의 결론을 수정하며 “데이터 품질”이라는 새로운 스케일링 축을 추가

메타데이터

항목	내용
제목	Scaling Laws for Neural Language Models
저자	Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei
소속	Johns Hopkins University, OpenAI
연도	2020
발표	arXiv:2001.08361
링크	arXiv
키워드	scaling laws, power law, language models, compute efficiency, sample efficiency

왜 이 연구를 하는가?

핵심 질문

신경망 언어 모델의 성능은 모델 크기, 데이터, 컴퓨트에 어떻게 의존하며, 이 관계를 수학적으로 예측할 수 있는가?

기존 접근법의 한계

한계	설명
경험적 시행착오	모델 설계가 직관과 실험에 의존, 체계적 예측 불가능
아키텍처 중심 사고	성능 향상을 위해 새로운 아키텍처를 탐색하는 데 과도한 자원 투입
스케일링 예측 부재	더 큰 모델의 성능을 작은 모델 실험에서 예측하는 방법론 부재
불완전한 선행 연구	Hestness et al.(2017)이 멱법칙의 존재를 보였으나, 언어 모델 특화 공식과 최적 자원 배분까지 도달하지 못함

핵심 통찰

성능은 아키텍처 형태가 아닌 총 파라미터 수에 의해 결정됨 — 깊이와 너비의 비율은 거의 무관
세 가지 스케일링 변수(N, D, C)가 각각 독립적인 멱법칙을 따르며, 이를 결합한 통합 공식으로 과적합과 학습 속도까지 예측 가능
큰 모델이 더 적은 샘플로 동일 성능에 도달하므로, 컴퓨트 효율성은 “작은 모델을 오래 학습”이 아니라 “큰 모델을 짧게 학습”에서 달성됨

방법 (Method)

프레임워크 개요

graph TD
    A["입력 데이터<br/>(WebText2, 2.29×10¹⁰ 토큰)"] --> B["BPE 토크나이저<br/>(vocab=50,257)"]
    B --> C["Transformer LM<br/>(768 ~ 1.5B params)"]
    C --> D["Cross-Entropy Loss<br/>L(N, D, C)"]

    D --> E1["L(N) = (Nc/N)^0.076<br/>파라미터 스케일링"]
    D --> E2["L(D) = (Dc/D)^0.095<br/>데이터 스케일링"]
    D --> E3["L(C) = (Cc/C)^0.050<br/>컴퓨트 스케일링"]

    E1 --> F["통합 공식<br/>L(N,D) 도출"]
    E2 --> F
    E3 --> F

    F --> G["최적 컴퓨트 할당<br/>N ∝ C^0.73"]
    G --> H["결론: 큰 모델,<br/>적은 데이터, 조기 중단"]

핵심 구성요소

체계적 변수 분리 실험: 세 스케일링 변수(N, D, C) 각각의 효과를 독립적으로 측정하기 위해, 나머지 두 변수가 병목이 되지 않도록 충분히 큰 값으로 고정한 상태에서 실험을 수행했다. 예를 들어 N의 효과를 측정할 때는 데이터(D)와 학습 시간(S)을 충분히 크게 설정하여 데이터 부족이나 학습 부족이 결과에 영향을 미치지 않도록 했다.

통합 손실 함수: 개별 스케일링 법칙을 결합하여 $L (N, D) = [(N_{c} / N)^{(} α_{N} / α_{D}) + D_{c} / D]_{D}^{α}$ 라는 통합 공식을 도출했다. 이 공식은 “환원 불가능한 loss”(irreducible loss)와 모델 크기·데이터 크기 각각에 의한 loss 기여분의 합으로 구성된다.

임계 배치 크기(Critical Batch Size): $B_{c} r i t (L) = B * / L^{(} 1/ α_{B})$ 로 정의되며, 이 배치 크기에서 학습이 시간 효율과 컴퓨트 효율의 최적 균형점에 위치한다. loss가 13% 감소할 때마다 최적 배치 크기가 약 2배로 증가한다.

발견 (Findings)

주요 결과

실험	핵심 결과	출처
파라미터 스케일링	L(N) = $(8.8 \times 1 0^{13} / N)^{0.076}$ , 7자릿수 범위에서 멱법칙 성립	Figure 1
데이터 스케일링	L(D) = $(5.4 \times 1 0^{13} / D)^{0.095}$ , 데이터가 모델 크기보다 약간 더 효과적	Figure 1
컴퓨트 스케일링	$L (C_{m} in) \propto C^{- 0.050}$ , 최소 컴퓨트 frontier 정의	Figure 1
아키텍처 독립성	depth-width 비율 40배 변화 → loss 차이 ~3%	Figure 5
최적 할당	$N \propto C^{0.73}$ , 모델 크기에 73% 투자가 최적	Section 6
과적합 임계	$D ≳ 5 \times 1 0^{3} \times N^{0.74}$ 로 과적합 방지	Section 4
전이 학습	분포 간 loss 상관관계 거의 일정한 오프셋 유지	Section 3.2.2

핵심 발견

첫째, 스케일이 아키텍처를 압도한다. 동일 파라미터 수에서 Transformer의 깊이, 너비, attention head 수를 크게 변화시켜도 성능 차이는 미미하다(Figure 5). 이는 “더 좋은 아키텍처 탐색”보다 “더 큰 모델 학습”이 우선이라는 실용적 함의를 갖는다.

둘째, 큰 모델은 더 적은 데이터로 학습할 수 있다. 이것은 직관에 반하는 결과로, 보통 “큰 모델은 과적합에 취약하므로 더 많은 데이터가 필요하다”는 통념을 뒤집는다. 실제로 과적합은 N^0.74/D 비율에 의존하므로, 모델이 10배 커지면 데이터는 ~5.5배만 늘리면 된다(Section 4).

셋째, 컴퓨트 효율적 학습은 수렴 전에 중단해야 한다. 최적 효율에서 학습을 중단하면 수렴 loss 대비 약 10% 높은 지점에서 멈추게 된다. 이는 “학습을 끝까지 돌리는” 관행이 자원 낭비임을 시사한다(Section 6).

이론적 의의

예측적 과학으로서의 언어 모델 연구

이 논문 이전에 언어 모델 개발은 본질적으로 경험적 시행착오였다. Kaplan et al.의 스케일링 법칙은 “작은 모델에서 실험하고, 큰 모델의 성능을 예측”하는 방법론을 확립함으로써, 수십억 달러 규모의 학습 비용을 투자하기 전에 결과를 추정할 수 있게 했다. GPT-3(Brown et al., 2020)는 이 법칙을 직접 활용하여 1750억 파라미터 모델을 설계한 첫 번째 사례다.

”Bitter Lesson”의 실증적 근거

Rich Sutton(2019)의 “Bitter Lesson” — 일반적 방법(더 많은 컴퓨트)이 특수한 방법(도메인 지식)을 항상 이긴다 — 은 오랫동안 직관적 주장에 머물렀다. Kaplan et al.은 이를 7자릿수 범위의 실증 데이터로 뒷받침하며, 아키텍처 혁신보다 스케일 확장이 더 효율적이라는 것을 수학적으로 보여주었다.

모델-데이터 트레이드오프의 시작점

이 논문의 “모델 크기 우선” 결론은 2년 후 Chinchilla에 의해 수정되었지만, 트레이드오프 자체를 수학적으로 정의하고 측정한 것은 Kaplan이 최초다. Chinchilla의 반박 역시 Kaplan의 프레임워크(멱법칙 기반 최적화) 위에서 이루어졌으며, 이 프레임워크 자체는 현재까지 유효하다.

재현성 및 신뢰도 평가

항목	등급	비고
코드 공개	❌	공식 코드 미공개. 커뮤니티 재현 시도 존재
데이터 공개	❌	WebText2는 미공개 데이터셋 (OpenAI 내부)
하이퍼파라미터	✅	Adam/Adafactor 설정, 학습률 스케줄, 배치 크기 등 상세 보고
실험 환경	⚠️	GPU 종류 미명시, 총 컴퓨트량은 PF-days로 보고
통계적 신뢰도	⚠️	다중 실행 표준편차 미보고, 단 수천 개 모델 학습으로 트렌드 자체는 강건
종합 등급	C	하이퍼파라미터는 충분하나, 코드·데이터 미공개로 독립 재현 사실상 불가

주장별 신뢰도

#	주장	근거	신뢰도
1	Loss가 N, D, C 각각과 멱법칙을 따름	7자릿수 범위 실험, Figure 1의 매끄러운 직선	🟢
2	아키텍처 세부사항은 성능에 거의 무관	Figure 5에서 40배 aspect ratio 변화, 3% 차이	🟢
3	N ∝ C^0.73이 compute-optimal	Section 6 분석, 단 학습률 스케줄에 의존적	🟡
4	큰 모델이 더 sample-efficient	여러 모델 크기에서 일관된 결과, Section 4	🟢
5	이론적 한계 L* ~ 1.7 nats/token	외삽 기반 추정, 실험적 검증 없음	🔴

읽기 난이도: ⭐⭐

통계역학 배경 없이도 읽을 수 있으나, 멱법칙 피팅과 compute-optimal 분석 부분은 수리적 이해 필요. 필요 배경지식: Transformer 기본 구조, cross-entropy loss, 로그-로그 플롯 해석.

축	본 논문 (Kaplan 2020)	Chinchilla (Hoffmann 2022)	GPT-3 (Brown 2020)	Hestness et al. (2017)
핵심 접근	실증적 멱법칙 도출 (N, D, C)	3가지 방법으로 compute-optimal 재분석	Kaplan 법칙 적용한 대규모 모델 학습	4개 도메인에서 멱법칙 존재 확인
문제 정의	스케일링 법칙 발견 및 최적 자원 배분	Kaplan의 최적 배분 결론 수정	대규모 LM의 few-shot 능력 검증	딥러닝 스케일링의 예측 가능성
데이터	WebText2 (23B tokens, 비공개)	MassiveText (다양한 소스)	300B tokens (CommonCrawl 등)	MT, LM, CV, Speech 각각
핵심 메트릭	멱법칙 지수 α_N=0.076, α_D=0.095	최적 비율: ~20 tokens/parameter	Few-shot accuracy on 42+ benchmarks	도메인별 멱법칙 지수
최적 할당	N ∝ C^0.73 (모델 크기 우선)	N ∝ C^0.50 (모델-데이터 균등)	Kaplan 법칙 따름 (175B params, 300B tokens)	구체적 할당 공식 없음
확장성	10¹² 파라미터까지 외삽	직접 실험으로 1-67B 검증	175B 단일 모델	수백만 파라미터 범위
한계	단일 데이터셋, 코드 미공개	단일 아키텍처 (Transformer)	비용 $12M+, 재현 어려움	도메인 간 지수 차이 미설명
코드 공개	❌	❌	❌	❌

원자적 인사이트 (Zettelkasten)

💡 스케일이 아키텍처를 압도한다 (Scale Trumps Architecture)

출처: Scaling Laws for Neural Language Models (Kaplan et al., 2020)
유형: 실험적

Transformer 언어 모델에서 동일 파라미터 수를 유지하면서 depth-width 비율을 40배 변화시켜도 loss 차이는 3% 이내였다(Figure 5). 이는 아키텍처 탐색의 한계수익 체감을 정량적으로 보여주며, 동일 컴퓨트를 “더 좋은 아키텍처 찾기”보다 “더 큰 모델 학습”에 투자하는 것이 효율적임을 시사한다.

핵심 조건/맥락: Transformer 아키텍처 내에서, 파라미터 수가 충분히 큰 경우(768+). 근본적으로 다른 아키텍처(예: SSM, RWKV)와의 비교에는 직접 적용 불가.
연결: Training Compute-Optimal Large Language Models, Bitter Lesson (Sutton, 2019)
활용 가능성: 새로운 아키텍처 제안 시, 스케일링 효율성 비교가 필수적인 평가 기준이 되어야 함

💡 큰 모델의 역설적 샘플 효율성

출처: Scaling Laws for Neural Language Models (Kaplan et al., 2020)
유형: 이론적

“큰 모델은 과적합에 취약하므로 더 많은 데이터가 필요하다”는 통념과 달리, 큰 모델이 동일 성능에 더 적은 데이터로 도달한다. 과적합은 N^0.74/D에 의존하므로, 모델 크기 10배 증가 시 데이터는 ~5.5배만 필요(D ∝ N^0.74). 이는 과적합이 “파라미터 대비 데이터 부족”이 아닌 “유효 차원(effective dimensionality) 대비 데이터 부족”에 의한 현상임을 시사한다.

핵심 조건/맥락: 언어 모델링 태스크, cross-entropy loss 기준. 분류 태스크 등 다른 설정에서 동일한 지수가 성립하는지는 미검증.
연결: Double descent 현상, 과파라미터화(overparameterization) 이론
활용 가능성: 데이터 부족 환경에서 의외로 큰 모델이 유리할 수 있음을 시사 — 소규모 도메인 특화 LM 설계 시 참고

💡 Compute-Optimal ≠ 수렴까지 학습

출처: Scaling Laws for Neural Language Models (Kaplan et al., 2020)
유형: 방법론적

컴퓨트 효율적 학습의 최적점은 수렴 loss 대비 약 10% 높은 지점에서의 조기 중단이다(Section 6). 이는 “학습을 끝까지 돌리는” 관행이 동일 컴퓨트로 더 큰 모델을 짧게 학습하는 것보다 비효율적임을 의미한다. 다만 이 결론은 Chinchilla(2022)에 의해 수정되어, 실제 최적점은 모델과 데이터를 균등하게 확장하는 방향으로 이동했다.

핵심 조건/맥락: 고정 컴퓨트 예산 하에서의 최적화. 추론 비용까지 고려하면 더 작은 모델을 더 오래 학습하는 것이 총 비용에서 유리할 수 있음.
연결: Training Compute-Optimal Large Language Models, inference-time compute scaling
활용 가능성: 학습 예산 기획 시, 모델 크기와 학습 기간의 트레이드오프를 정량적으로 분석하는 프레임워크로 활용

핵심 용어 정리

용어	정의
멱법칙 (Power Law)	y = ax^b 형태의 함수 관계. 로그-로그 플롯에서 직선으로 나타남. 스케일링 법칙의 수학적 형태
스케일링 법칙 (Scaling Law)	모델 성능이 특정 변수(크기, 데이터, 컴퓨트)에 대해 예측 가능한 수학적 관계를 따르는 현상
Cross-Entropy Loss	모델이 예측한 확률 분포와 실제 분포 사이의 차이를 측정하는 손실 함수. 언어 모델의 표준 평가 지표
Compute-Optimal	고정된 연산 예산에서 최소 loss를 달성하는 모델 크기, 데이터, 학습 시간의 최적 조합
Sample Efficiency	동일 성능에 도달하기 위해 필요한 학습 데이터의 양. 큰 모델일수록 더 적은 샘플로 동일 성능 달성
임계 배치 크기 (Critical Batch Size)	학습의 시간 효율과 컴퓨트 효율이 균형을 이루는 배치 크기. 이보다 크면 컴퓨트 낭비, 작으면 시간 낭비
PF-day (PetaFLOP-day)	10¹⁵ 부동소수점 연산을 하루(86,400초) 동안 수행하는 연산량 단위. 약 8.64×10¹⁹ FLOP
WebText2	OpenAI가 내부적으로 사용한 웹 텍스트 데이터셋. Reddit에서 3개 이상의 karma를 받은 링크의 텍스트를 수집
BPE (Byte Pair Encoding)	빈도 기반으로 문자 쌍을 반복적으로 병합하여 subword 단위의 어휘를 구축하는 토크나이제이션 알고리즘
Adafactor	Adam의 메모리 효율적 변형. 2차 모멘트를 행-열 분해하여 메모리 사용량을 줄인 옵티마이저

Scaling Laws for Neural Language Models