신경망 언어 모델의 스케일링 법칙
Digest: 언어 모델의 성능은 아키텍처 세부사항(depth, width, head 수)이 아닌 세 가지 스케일 요인 — 모델 파라미터 수(N), 학습 데이터 크기(D), 학습 연산량(C) — 에 의해 결정되며, 각각 멱법칙(power law, 두 변수의 로그가 선형 관계를 따르는 함수적 관계) 을 따른다. 이 관계는 7자릿수 이상의 범위에서 일탈 없이 성립한다(Figure 1). 핵심 통찰은 큰 모델이 더 적은 데이터로 동일한 성능에 도달하는 “샘플 효율성” 을 보인다는 것이다. 이로부터 컴퓨트 효율적 학습의 최적 전략 이 도출되는데, 고정된 연산 예산에서 N ∝ C^0.73으로 모델 크기에 대부분의 자원을 투입하고, 비교적 적은 데이터에서 수렴 전에 조기 중단해야 한다(Section 6). 실험 결과, 파라미터 수를 2배로 늘리면 loss가 약 5% 감소하며(Figure 1), 아키텍처의 깊이-너비 비율을 40배 변화시켜도 성능 차이는 3% 이내였다(Figure 5). 그러나 이 결론은 WebText2라는 단일 데이터셋에서 도출 되었으며, 다운스트림 태스크로의 전이 가능성은 검증되지 않았다. 또한 후속 연구인 Chinchilla(Hoffmann et al., 2022)는 모델과 데이터를 동등하게 확장해야 compute-optimal이라 반박하여, Kaplan의 “모델 크기 우선” 결론이 학습률 스케줄링 등 실험 조건의 차이에 기인할 가능성이 남아 있다. 이 논문이 열어놓은 미해결 질문은: 멱법칙이 어디서 끝나는가? 저자들이 추정한 이론적 한계점(C* ~ 10⁴ PF-days, L* ~ 1.7 nats/token)은 자연어의 정보량 한계인가, 아니면 Transformer 아키텍처의 한계인가?
섹션별 요약
Introduction
언어 모델링에서 cross-entropy loss가 모델 크기, 데이터, 컴퓨트 각각과 매끄러운 멱법칙 관계를 따른다는 것을 발견했다. 이 관계는 아키텍처 세부사항(depth vs width, attention head 수)과 거의 무관하며, 총 파라미터 수 N만이 결정적이다. 이러한 단순한 관계로부터 과적합(overfitting) 발생 조건과 학습 속도를 예측하는 공식을 도출하고, 주어진 컴퓨트 예산에서 최적의 모델 크기·데이터·학습 시간 배분 전략을 제시한다.
Methods
Transformer 언어 모델을 WebText2(20.3M 문서, 2.29×10¹⁰ 토큰) 데이터셋에서 학습하며, 모델 크기를 768 파라미터에서 15억 파라미터까지(임베딩 제외), 데이터를 22M에서 23B 토큰까지 체계적으로 변화시켰다. 아키텍처 형태(n_layer, d_model)는 (2, 128)부터 (207, 768)까지 탐색했다. 옵티마이저는 Adam(표준)과 Adafactor(10억+ 파라미터)를 사용했고, 학습률은 3000스텝 선형 웜업 후 코사인 감쇠를 적용했다. 컨텍스트 길이 1024 토큰, 배치 크기 512 시퀀스가 기본 설정이며, 전이 학습 검증을 위해 Books Corpus, Common Crawl, Wikipedia, Internet Books에서도 평가했다.
Results
핵심 스케일링 법칙 수식:
- , 8.8×10¹³ (Figure 1)
- , 5.4×10¹³ (Figure 1)
- (Figure 1)
최적 컴퓨트 할당 (Section 6):
- N(C_min) ∝ C_min^0.73 → 모델 크기가 컴퓨트의 대부분을 차지
- B(C_min) ∝ C_min^0.24 → 배치 크기는 완만하게 증가
- S(C_min) ∝ C_min^0.03 → 학습 스텝은 거의 증가하지 않음
과적합 조건: 성능 저하가 N^0.74/D 비율에 의존. 과적합을 피하려면 D ≳ 5×10³ × N^0.74 필요(Section 4).
아키텍처 독립성: 동일 파라미터 수에서 depth-width 비율을 40배 변화시켜도 성능 차이 ~3% (Figure 5).
전이 학습: WebText2에서 학습한 모델의 loss가 다른 분포(Books, Common Crawl 등)에서도 거의 일정한 오프셋으로 상관관계를 보임(Section 3.2.2).
| 스케일링 변수 | 멱법칙 지수 | 의미 |
|---|---|---|
| 파라미터 수 N | α_N ≈ 0.076 | N을 10배 늘리면 loss ~17% 감소 |
| 데이터 크기 D | α_D ≈ 0.095 | D를 10배 늘리면 loss ~20% 감소 |
| 컴퓨트 C | α_C ≈ 0.050 | C를 10배 늘리면 loss ~11% 감소 |
| 임계 배치 크기 | α_B ≈ 0.21 | loss 13% 감소마다 배치 크기 2배 |
Discussion
스케일링 법칙이 성립하는 이론적 이유는 미해명. 저자들은 loss의 이론적 하한(C* ~ 10⁴ PF-days, N* ~ 10¹² 파라미터, D* ~ 10¹² 토큰, L* ~ 1.7 nats/token)을 추정하며, 이것이 자연어 데이터의 정보량 한계일 수 있다고 추측. 또한 매끄러운 loss 감소가 질적 능력 변화를 가릴 수 있다는 점과, WebText2 외 도메인으로의 일반화 한계를 인정.
Insights
- 주목할 점: 아키텍처 세부사항이 아닌 스케일 자체가 성능의 지배적 요인이라는 발견은, 이후 “Bitter Lesson”(Sutton, 2019)의 실증적 근거가 됨
- 연결 고리: GPT-3(Brown et al., 2020)는 이 스케일링 법칙을 직접 활용하여 1750억 파라미터 모델을 설계한 결과물
- 시사점: “좋은 아키텍처를 찾는 것”보다 “규모를 키우는 것”이 더 효율적이라는 패러다임 전환의 시작점
- 비판적 코멘트: 임에도 “모델 크기 우선” 결론을 내린 것은 compute-optimal 분석 시 특정 실험 조건(학습률 스케줄, early stopping)에 의존적일 수 있음
Discussion Points
- 논쟁점: Kaplan의 (모델 크기 우선) vs Chinchilla의 (모델-데이터 균등) — 이 차이가 실험 설계의 차이에서 기인하는지, 근본적 방법론 차이인지 아직 완전히 해소되지 않음
- 검증 필요 가정: “smooth power-law improvements in loss translate to qualitative task improvements” — 이 가정은 이후 “emergent abilities” 연구에서 도전받음
- 후속 연구: Chinchilla(2022), Llama(2023) 등이 Kaplan의 결론을 수정하며 “데이터 품질”이라는 새로운 스케일링 축을 추가
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | Scaling Laws for Neural Language Models |
| 저자 | Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei |
| 소속 | Johns Hopkins University, OpenAI |
| 연도 | 2020 |
| 발표 | arXiv:2001.08361 |
| 링크 | arXiv |
| 키워드 | scaling laws, power law, language models, compute efficiency, sample efficiency |
왜 이 연구를 하는가?
핵심 질문
신경망 언어 모델의 성능은 모델 크기, 데이터, 컴퓨트에 어떻게 의존하며, 이 관계를 수학적으로 예측할 수 있는가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| 경험적 시행착오 | 모델 설계가 직관과 실험에 의존, 체계적 예측 불가능 |
| 아키텍처 중심 사고 | 성능 향상을 위해 새로운 아키텍처를 탐색하는 데 과도한 자원 투입 |
| 스케일링 예측 부재 | 더 큰 모델의 성능을 작은 모델 실험에서 예측하는 방법론 부재 |
| 불완전한 선행 연구 | Hestness et al.(2017)이 멱법칙의 존재를 보였으나, 언어 모델 특화 공식과 최적 자원 배분까지 도달하지 못함 |
핵심 통찰
- 성능은 아키텍처 형태가 아닌 총 파라미터 수에 의해 결정됨 — 깊이와 너비의 비율은 거의 무관
- 세 가지 스케일링 변수(N, D, C)가 각각 독립적인 멱법칙을 따르며, 이를 결합한 통합 공식으로 과적합과 학습 속도까지 예측 가능
- 큰 모델이 더 적은 샘플로 동일 성능에 도달하므로, 컴퓨트 효율성은 “작은 모델을 오래 학습”이 아니라 “큰 모델을 짧게 학습”에서 달성됨
방법 (Method)
프레임워크 개요
graph TD A["입력 데이터<br/>(WebText2, 2.29×10¹⁰ 토큰)"] --> B["BPE 토크나이저<br/>(vocab=50,257)"] B --> C["Transformer LM<br/>(768 ~ 1.5B params)"] C --> D["Cross-Entropy Loss<br/>L(N, D, C)"] D --> E1["L(N) = (Nc/N)^0.076<br/>파라미터 스케일링"] D --> E2["L(D) = (Dc/D)^0.095<br/>데이터 스케일링"] D --> E3["L(C) = (Cc/C)^0.050<br/>컴퓨트 스케일링"] E1 --> F["통합 공식<br/>L(N,D) 도출"] E2 --> F E3 --> F F --> G["최적 컴퓨트 할당<br/>N ∝ C^0.73"] G --> H["결론: 큰 모델,<br/>적은 데이터, 조기 중단"]
핵심 구성요소
체계적 변수 분리 실험: 세 스케일링 변수(N, D, C) 각각의 효과를 독립적으로 측정하기 위해, 나머지 두 변수가 병목이 되지 않도록 충분히 큰 값으로 고정한 상태에서 실험을 수행했다. 예를 들어 N의 효과를 측정할 때는 데이터(D)와 학습 시간(S)을 충분히 크게 설정하여 데이터 부족이나 학습 부족이 결과에 영향을 미치지 않도록 했다.
통합 손실 함수: 개별 스케일링 법칙을 결합하여 라는 통합 공식을 도출했다. 이 공식은 “환원 불가능한 loss”(irreducible loss)와 모델 크기·데이터 크기 각각에 의한 loss 기여분의 합으로 구성된다.
임계 배치 크기(Critical Batch Size): 로 정의되며, 이 배치 크기에서 학습이 시간 효율과 컴퓨트 효율의 최적 균형점에 위치한다. loss가 13% 감소할 때마다 최적 배치 크기가 약 2배로 증가한다.
발견 (Findings)
주요 결과
| 실험 | 핵심 결과 | 출처 |
|---|---|---|
| 파라미터 스케일링 | L(N) = , 7자릿수 범위에서 멱법칙 성립 | Figure 1 |
| 데이터 스케일링 | L(D) = , 데이터가 모델 크기보다 약간 더 효과적 | Figure 1 |
| 컴퓨트 스케일링 | , 최소 컴퓨트 frontier 정의 | Figure 1 |
| 아키텍처 독립성 | depth-width 비율 40배 변화 → loss 차이 ~3% | Figure 5 |
| 최적 할당 | , 모델 크기에 73% 투자가 최적 | Section 6 |
| 과적합 임계 | 로 과적합 방지 | Section 4 |
| 전이 학습 | 분포 간 loss 상관관계 거의 일정한 오프셋 유지 | Section 3.2.2 |
핵심 발견
첫째, 스케일이 아키텍처를 압도한다. 동일 파라미터 수에서 Transformer의 깊이, 너비, attention head 수를 크게 변화시켜도 성능 차이는 미미하다(Figure 5). 이는 “더 좋은 아키텍처 탐색”보다 “더 큰 모델 학습”이 우선이라는 실용적 함의를 갖는다.
둘째, 큰 모델은 더 적은 데이터로 학습할 수 있다. 이것은 직관에 반하는 결과로, 보통 “큰 모델은 과적합에 취약하므로 더 많은 데이터가 필요하다”는 통념을 뒤집는다. 실제로 과적합은 N^0.74/D 비율에 의존하므로, 모델이 10배 커지면 데이터는 ~5.5배만 늘리면 된다(Section 4).
셋째, 컴퓨트 효율적 학습은 수렴 전에 중단해야 한다. 최적 효율에서 학습을 중단하면 수렴 loss 대비 약 10% 높은 지점에서 멈추게 된다. 이는 “학습을 끝까지 돌리는” 관행이 자원 낭비임을 시사한다(Section 6).
이론적 의의
예측적 과학으로서의 언어 모델 연구
이 논문 이전에 언어 모델 개발은 본질적으로 경험적 시행착오였다. Kaplan et al.의 스케일링 법칙은 “작은 모델에서 실험하고, 큰 모델의 성능을 예측”하는 방법론을 확립함으로써, 수십억 달러 규모의 학습 비용을 투자하기 전에 결과를 추정할 수 있게 했다. GPT-3(Brown et al., 2020)는 이 법칙을 직접 활용하여 1750억 파라미터 모델을 설계한 첫 번째 사례다.
”Bitter Lesson”의 실증적 근거
Rich Sutton(2019)의 “Bitter Lesson” — 일반적 방법(더 많은 컴퓨트)이 특수한 방법(도메인 지식)을 항상 이긴다 — 은 오랫동안 직관적 주장에 머물렀다. Kaplan et al.은 이를 7자릿수 범위의 실증 데이터로 뒷받침하며, 아키텍처 혁신보다 스케일 확장이 더 효율적이라는 것을 수학적으로 보여주었다.
모델-데이터 트레이드오프의 시작점
이 논문의 “모델 크기 우선” 결론은 2년 후 Chinchilla에 의해 수정되었지만, 트레이드오프 자체를 수학적으로 정의하고 측정한 것은 Kaplan이 최초다. Chinchilla의 반박 역시 Kaplan의 프레임워크(멱법칙 기반 최적화) 위에서 이루어졌으며, 이 프레임워크 자체는 현재까지 유효하다.
재현성 및 신뢰도 평가
| 항목 | 등급 | 비고 |
|---|---|---|
| 코드 공개 | ❌ | 공식 코드 미공개. 커뮤니티 재현 시도 존재 |
| 데이터 공개 | ❌ | WebText2는 미공개 데이터셋 (OpenAI 내부) |
| 하이퍼파라미터 | ✅ | Adam/Adafactor 설정, 학습률 스케줄, 배치 크기 등 상세 보고 |
| 실험 환경 | ⚠️ | GPU 종류 미명시, 총 컴퓨트량은 PF-days로 보고 |
| 통계적 신뢰도 | ⚠️ | 다중 실행 표준편차 미보고, 단 수천 개 모델 학습으로 트렌드 자체는 강건 |
| 종합 등급 | C | 하이퍼파라미터는 충분하나, 코드·데이터 미공개로 독립 재현 사실상 불가 |
주장별 신뢰도
| # | 주장 | 근거 | 신뢰도 |
|---|---|---|---|
| 1 | Loss가 N, D, C 각각과 멱법칙을 따름 | 7자릿수 범위 실험, Figure 1의 매끄러운 직선 | 🟢 |
| 2 | 아키텍처 세부사항은 성능에 거의 무관 | Figure 5에서 40배 aspect ratio 변화, 3% 차이 | 🟢 |
| 3 | N ∝ C^0.73이 compute-optimal | Section 6 분석, 단 학습률 스케줄에 의존적 | 🟡 |
| 4 | 큰 모델이 더 sample-efficient | 여러 모델 크기에서 일관된 결과, Section 4 | 🟢 |
| 5 | 이론적 한계 L* ~ 1.7 nats/token | 외삽 기반 추정, 실험적 검증 없음 | 🔴 |
읽기 난이도: ⭐⭐
통계역학 배경 없이도 읽을 수 있으나, 멱법칙 피팅과 compute-optimal 분석 부분은 수리적 이해 필요. 필요 배경지식: Transformer 기본 구조, cross-entropy loss, 로그-로그 플롯 해석.
관련 연구 비교 매트릭스
| 축 | 본 논문 (Kaplan 2020) | Chinchilla (Hoffmann 2022) | GPT-3 (Brown 2020) | Hestness et al. (2017) |
|---|---|---|---|---|
| 핵심 접근 | 실증적 멱법칙 도출 (N, D, C) | 3가지 방법으로 compute-optimal 재분석 | Kaplan 법칙 적용한 대규모 모델 학습 | 4개 도메인에서 멱법칙 존재 확인 |
| 문제 정의 | 스케일링 법칙 발견 및 최적 자원 배분 | Kaplan의 최적 배분 결론 수정 | 대규모 LM의 few-shot 능력 검증 | 딥러닝 스케일링의 예측 가능성 |
| 데이터 | WebText2 (23B tokens, 비공개) | MassiveText (다양한 소스) | 300B tokens (CommonCrawl 등) | MT, LM, CV, Speech 각각 |
| 핵심 메트릭 | 멱법칙 지수 α_N=0.076, α_D=0.095 | 최적 비율: ~20 tokens/parameter | Few-shot accuracy on 42+ benchmarks | 도메인별 멱법칙 지수 |
| 최적 할당 | N ∝ C^0.73 (모델 크기 우선) | N ∝ C^0.50 (모델-데이터 균등) | Kaplan 법칙 따름 (175B params, 300B tokens) | 구체적 할당 공식 없음 |
| 확장성 | 10¹² 파라미터까지 외삽 | 직접 실험으로 1-67B 검증 | 175B 단일 모델 | 수백만 파라미터 범위 |
| 한계 | 단일 데이터셋, 코드 미공개 | 단일 아키텍처 (Transformer) | 비용 $12M+, 재현 어려움 | 도메인 간 지수 차이 미설명 |
| 코드 공개 | ❌ | ❌ | ❌ | ❌ |
관련 연구
- Training Compute-Optimal Large Language Models — Chinchilla 논문. Kaplan의 compute-optimal 결론(모델 크기 우선)을 “모델-데이터 균등 확장”으로 수정한 핵심 후속 연구
- PaLM - Scaling Language Modeling with Pathways — 5400억 파라미터에서 스케일링 법칙의 연장을 검증
- Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters — 학습 시간이 아닌 추론 시간의 컴퓨트 스케일링이라는 새로운 축을 탐구
원자적 인사이트 (Zettelkasten)
💡 스케일이 아키텍처를 압도한다 (Scale Trumps Architecture)
출처: Scaling Laws for Neural Language Models (Kaplan et al., 2020)
유형: 실험적
Transformer 언어 모델에서 동일 파라미터 수를 유지하면서 depth-width 비율을 40배 변화시켜도 loss 차이는 3% 이내였다(Figure 5). 이는 아키텍처 탐색의 한계수익 체감을 정량적으로 보여주며, 동일 컴퓨트를 “더 좋은 아키텍처 찾기”보다 “더 큰 모델 학습”에 투자하는 것이 효율적임을 시사한다.
핵심 조건/맥락: Transformer 아키텍처 내에서, 파라미터 수가 충분히 큰 경우(768+). 근본적으로 다른 아키텍처(예: SSM, RWKV)와의 비교에는 직접 적용 불가.
연결: Training Compute-Optimal Large Language Models, Bitter Lesson (Sutton, 2019)
활용 가능성: 새로운 아키텍처 제안 시, 스케일링 효율성 비교가 필수적인 평가 기준이 되어야 함
💡 큰 모델의 역설적 샘플 효율성
출처: Scaling Laws for Neural Language Models (Kaplan et al., 2020)
유형: 이론적
“큰 모델은 과적합에 취약하므로 더 많은 데이터가 필요하다”는 통념과 달리, 큰 모델이 동일 성능에 더 적은 데이터로 도달한다. 과적합은 N^0.74/D에 의존하므로, 모델 크기 10배 증가 시 데이터는 ~5.5배만 필요(D ∝ N^0.74). 이는 과적합이 “파라미터 대비 데이터 부족”이 아닌 “유효 차원(effective dimensionality) 대비 데이터 부족”에 의한 현상임을 시사한다.
핵심 조건/맥락: 언어 모델링 태스크, cross-entropy loss 기준. 분류 태스크 등 다른 설정에서 동일한 지수가 성립하는지는 미검증.
연결: Double descent 현상, 과파라미터화(overparameterization) 이론
활용 가능성: 데이터 부족 환경에서 의외로 큰 모델이 유리할 수 있음을 시사 — 소규모 도메인 특화 LM 설계 시 참고
💡 Compute-Optimal ≠ 수렴까지 학습
출처: Scaling Laws for Neural Language Models (Kaplan et al., 2020)
유형: 방법론적
컴퓨트 효율적 학습의 최적점은 수렴 loss 대비 약 10% 높은 지점에서의 조기 중단이다(Section 6). 이는 “학습을 끝까지 돌리는” 관행이 동일 컴퓨트로 더 큰 모델을 짧게 학습하는 것보다 비효율적임을 의미한다. 다만 이 결론은 Chinchilla(2022)에 의해 수정되어, 실제 최적점은 모델과 데이터를 균등하게 확장하는 방향으로 이동했다.
핵심 조건/맥락: 고정 컴퓨트 예산 하에서의 최적화. 추론 비용까지 고려하면 더 작은 모델을 더 오래 학습하는 것이 총 비용에서 유리할 수 있음.
연결: Training Compute-Optimal Large Language Models, inference-time compute scaling
활용 가능성: 학습 예산 기획 시, 모델 크기와 학습 기간의 트레이드오프를 정량적으로 분석하는 프레임워크로 활용
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| 멱법칙 (Power Law) | y = ax^b 형태의 함수 관계. 로그-로그 플롯에서 직선으로 나타남. 스케일링 법칙의 수학적 형태 |
| 스케일링 법칙 (Scaling Law) | 모델 성능이 특정 변수(크기, 데이터, 컴퓨트)에 대해 예측 가능한 수학적 관계를 따르는 현상 |
| Cross-Entropy Loss | 모델이 예측한 확률 분포와 실제 분포 사이의 차이를 측정하는 손실 함수. 언어 모델의 표준 평가 지표 |
| Compute-Optimal | 고정된 연산 예산에서 최소 loss를 달성하는 모델 크기, 데이터, 학습 시간의 최적 조합 |
| Sample Efficiency | 동일 성능에 도달하기 위해 필요한 학습 데이터의 양. 큰 모델일수록 더 적은 샘플로 동일 성능 달성 |
| 임계 배치 크기 (Critical Batch Size) | 학습의 시간 효율과 컴퓨트 효율이 균형을 이루는 배치 크기. 이보다 크면 컴퓨트 낭비, 작으면 시간 낭비 |
| PF-day (PetaFLOP-day) | 10¹⁵ 부동소수점 연산을 하루(86,400초) 동안 수행하는 연산량 단위. 약 8.64×10¹⁹ FLOP |
| WebText2 | OpenAI가 내부적으로 사용한 웹 텍스트 데이터셋. Reddit에서 3개 이상의 karma를 받은 링크의 텍스트를 수집 |
| BPE (Byte Pair Encoding) | 빈도 기반으로 문자 쌍을 반복적으로 병합하여 subword 단위의 어휘를 구축하는 토크나이제이션 알고리즘 |
| Adafactor | Adam의 메모리 효율적 변형. 2차 모멘트를 행-열 분해하여 메모리 사용량을 줄인 옵티마이저 |
태그
paper #2020 scaling_laws power_law language_models compute_efficiency OpenAI AGI