계산 최적 대규모 언어 모델 학습

Digest: **계산 최적 스케일링 법칙(Compute-Optimal Scaling Law)**이라는 새로운 관점을 제시한 연구이다. [Context] 기존 Kaplan et al. (2020)의 스케일링 법칙은 모델 크기를 우선적으로 키우는 것이 효율적이라고 주장했으나(지수 a=0.73, b=0.27), 대규모 LLM 학습에서 데이터 양의 중요성이 과소평가되어 있었다. [Insight] 400개 이상의 모델(70M~~16B 파라미터, 5B~~500B 토큰)을 학습시킨 결과, 모델 크기와 학습 토큰 수는 동등하게 스케일링(a≈0.50, b≈0.50)되어야 한다는 핵심 발견을 도출했다. [Solution] 세 가지 독립적 접근법 — (1) 고정 모델 크기에서 토큰 변화, (2) IsoFLOP 프로파일링(동일 연산량 곡선 분석), (3) 파라메트릭 손실 함수 피팅 — 이 모두 동일한 결론으로 수렴했다. [Evidence] 이 원칙에 따라 학습된 Chinchilla(70B 파라미터, 1.4T 토큰)는 Gopher(280B)와 동일한 계산 예산(5.76×10²³ FLOPs)을 사용하면서도 MMLU에서 67.6% (Table 8)로 Gopher의 60.0%를 7.6%p 상회했다. [Limitations] 학습 데이터 품질의 영향은 체계적으로 분석되지 않았으며, 10B 이하 모델에서 주로 도출된 법칙이 100B+ 규모에서도 정확히 성립하는지는 외삽(extrapolation)에 의존한다. [Open Questions] 데이터 품질과 다양성이 스케일링 법칙에 미치는 영향, 다국어 및 멀티모달 설정에서의 최적 배분 비율, 그리고 학습 후 미세조정(fine-tuning) 성능과의 관계는 미해결 과제로 남아 있다.

섹션별 요약

Introduction

대규모 언어 모델(LLM)의 성능 향상을 위해 지속적으로 모델 크기가 증가해왔다. GPT-3 (175B, Brown et al. 2020), Jurassic-1 (178B, Lieber et al. 2021), Gopher (280B, Rae et al. 2021), Megatron-Turing NLG (530B, Smith et al. 2022) 등이 대표적이다. 그러나 Kaplan et al. (2020)의 스케일링 법칙(Scaling Law)은 모델 크기에 지수 0.73을, 데이터 양에 지수 0.27을 부여하여 모델 크기를 우선적으로 키울 것을 권장했다. 본 논문은 이 가정을 재검토하여, 현재의 대형 모델들이 실제로는 “과대 파라미터화되고 과소 학습(over-parametrized and under-trained)“되었음을 보인다.

Methods

세 가지 독립적 접근법으로 계산 최적 스케일링 관계를 도출했다.

접근법 1 — 고정 모델 크기, 가변 토큰 수: 70M~10B 파라미터 모델을 네 가지 학습 토큰 수에서 학습시키고, 각 계산 예산별 최소 손실 모델을 선택하여 손실 포락선(loss envelope)을 구축했다.

접근법 2 — IsoFLOP 프로파일: 9개의 고정 계산 예산(6×10¹⁸ ~ 3×10²¹ FLOPs)에서 다양한 크기의 모델(최대 16B)을 학습시키고, 각 IsoFLOP 곡선에 포물선을 피팅하여 최적점을 찾았다.

접근법 3 — 파라메트릭 손실 모델링: 모든 학습 결과의 최종 손실을 다음 함수로 모델링했다:

$\hat{L} (N, D) = E + \frac{A}{N ^{α}} + \frac{B}{D ^{β}}$

여기서 $N$ 은 파라미터 수, $D$ 는 학습 토큰 수이다. Huber 손실과 L-BFGS 알고리즘으로 피팅한 결과 (Equation 10):

$α = 0.34$ , $β = 0.28$
$E = 1.69$ (환원 불가능한 손실, irreducible loss)
$A = 406.4$ , $B = 410.7$

Results

세 접근법 모두 최적 스케일링 지수가 거의 동일함을 확인했다:

접근법	$a$ (모델 크기 지수)	$b$ (데이터 지수)
접근법 1	0.50	0.50
접근법 2	0.49	0.51
접근법 3	0.46	0.54

최적 모델 크기와 토큰 수는 계산 예산 $C$ 의 함수로 다음과 같이 결정된다 (Section 3.3):

$N_{o pt} (C) = G \cdot (\frac{C}{6})^{a}, D_{o pt} (C) = G^{- 1} \cdot (\frac{C}{6})^{b}$

여기서 $G = (\frac{α A}{βB})^{1/ (α + β)}$ 이다.

Chinchilla(70B 파라미터, 1.4T 토큰)는 Gopher(280B 파라미터, 300B 토큰)와 동일한 계산 예산(5.76×10²³ FLOPs)으로 학습되었으며, 거의 모든 벤치마크에서 Gopher를 상회했다.

주요 벤치마크 비교 (Table 8, 7, 9):

벤치마크	Chinchilla (70B)	Gopher (280B)	GPT-3 (175B)	MT-NLG (530B)
MMLU (5-shot)	67.6%	60.0%	43.9%	—
HellaSwag	80.8%	79.2%	78.9%	80.2%
PIQA	81.8%	81.8%	81.0%	82.0%
Winogrande	74.9%	70.1%	70.2%	73.0%
BoolQ	83.7%	79.3%	60.5%	78.2%
LAMBADA (0-shot)	77.4%	74.5%	76.2%	76.6%
RACE-m (few-shot)	86.8%	75.1%	58.1%	—
RACE-h (few-shot)	82.3%	71.6%	46.8%	47.9%
TriviaQA (0-shot)	67.0%	52.8%	—	—
Natural Questions (5-shot)	31.5%	24.5%	—	—

언어 모델링에서도 Wikitext103 퍼플렉시티(perplexity)가 Chinchilla 7.16 vs Gopher 7.75로 개선되었다 (Section 4.2).

계산 예산별 최적 모델 크기 예측 (Table 3):

파라미터 수	FLOPs	최적 토큰 수
1B	1.21×10²⁰	20.2B
10B	1.23×10²²	205.1B
67B	5.76×10²³	1.5T
175B	3.85×10²⁴	3.7T
280B	9.90×10²⁴	5.9T

Discussion

본 연구의 핵심 시사점은 현재 대부분의 대형 LLM이 “과소 학습(undertrained)” 상태라는 것이다. 예를 들어, GPT-3(175B)가 최적으로 학습되려면 300B가 아닌 3.7T 토큰이 필요하다 (Table 3). 이는 모델 크기만 키우는 것이 아니라 고품질 학습 데이터를 대규모로 확보하는 것이 동등하게 중요함을 의미한다. 다만, 데이터 품질 및 반복(epoch) 효과는 본 연구에서 체계적으로 분석되지 않았으며, 이는 후속 연구의 과제로 남겨졌다.

Insights

주목할 점: Chinchilla는 Gopher의 1/4 크기(70B vs 280B)이면서도 동일 계산 예산에서 일관되게 우수한 성능을 보였다. 이는 추론(inference) 비용도 크게 절감할 수 있음을 의미한다.
연결 고리: 이 발견은 이후 Meta의 LLaMA (Touvron et al. 2023)가 “추론 최적(inference-optimal)” 관점에서 더 작은 모델을 더 많은 데이터로 학습하는 전략을 채택하는 직접적 계기가 되었다.
시사점: 스케일링 법칙 연구는 단순히 “더 크면 더 좋다”가 아니라, 주어진 자원에서의 최적 배분 문제로 전환되었다. 이는 학계와 산업 모두에서 LLM 학습 전략을 근본적으로 재편했다.
비판적 코멘트: 스케일링 법칙이 10B 이하 모델에서 주로 도출되었으므로, 100B+ 규모에서의 정확도는 외삽에 의존한다. 또한 MoE(Mixture of Experts) 등 다른 아키텍처에서도 동일한 비율이 적용되는지는 확인되지 않았다.

Discussion Points

논쟁점: Kaplan et al. (2020)은 모델 크기 지수 a=0.73을 제시했으나, 본 논문은 a≈0.50으로 수정했다. 이 차이의 핵심 원인은 Kaplan et al.이 학습률 스케줄을 고정하여 대형 모델에 유리한 편향을 도입했기 때문이다.
검증 필요 가정: 스케일링 법칙이 학습 데이터의 품질, 도메인 분포, 중복(deduplication) 수준에 무관하게 성립한다는 암묵적 가정. 실제로 데이터 품질이 달라지면 최적 비율도 변할 수 있다.
후속 연구: LLaMA (2023)는 Chinchilla 스케일링을 넘어 추론 비용 최적화를 위해 의도적으로 “과학습(overtrain)“하는 전략을 채택했다. 또한 Muennighoff et al. (2023) “Scaling Data-Constrained Language Models”는 데이터 반복 학습 시의 스케일링 법칙을 탐구했다.

메타데이터

항목	내용
제목	Training Compute-Optimal Large Language Models
저자	Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch 등 22명
소속	DeepMind
발표	NeurIPS 2022
arXiv	2203.15556 (2022년 3월)
핵심 모델	Chinchilla (70B params, 1.4T tokens)
계산 예산	5.76×10²³ FLOPs (Gopher와 동일)
실험 규모	400+ 모델, 70M~~16B params, 5B~~500B tokens

왜 이 연구를 하는가?

핵심 질문

주어진 계산 예산(compute budget) $C$ 하에서, 모델 파라미터 수 $N$ 과 학습 토큰 수 $D$ 를 어떻게 최적으로 배분해야 최소 손실(loss)을 달성할 수 있는가?

기존 접근법의 한계

측면	Kaplan et al. (2020)	본 논문
모델 크기 지수 ( $a$ )	0.73	~0.50
데이터 지수 ( $b$ )	0.27	~0.50
권장 전략	모델 크기 우선 확대	모델-데이터 균등 확대
학습률 스케줄	고정 (대형 모델 유리)	코사인 스케줄 적용
결과적 편향	과대 파라미터화 유도	균형 잡힌 스케일링

Kaplan et al.의 법칙을 따른 결과, Gopher(280B)나 GPT-3(175B) 같은 모델들은 파라미터 수에 비해 학습 토큰이 부족한 “과소 학습” 상태가 되었다.

핵심 통찰

계산 예산을 두 배로 늘릴 때, 모델 크기와 학습 토큰 수를 모두 약 $2$ 배씩 동등하게 늘려야 한다. 이 원칙에 따르면 현재의 대형 모델 대부분은 같은 예산으로 더 작은 모델을 더 많은 데이터로 학습시키는 것이 최적이었다.

방법 (Method)

프레임워크 개요

graph TD
    A[400+ 모델 학습<br>70M-16B params<br>5B-500B tokens] --> B[접근법 1<br>고정 모델 크기<br>가변 토큰 수]
    A --> C[접근법 2<br>IsoFLOP<br>프로파일링]
    A --> D[접근법 3<br>파라메트릭<br>손실 피팅]
    B --> E[a=0.50, b=0.50]
    C --> F[a=0.49, b=0.51]
    D --> G[a=0.46, b=0.54]
    E --> H{수렴 결론}
    F --> H
    G --> H
    H --> I["N_opt ∝ C^0.5<br>D_opt ∝ C^0.5<br>모델-데이터 균등 스케일링"]
    I --> J[Chinchilla 70B<br>1.4T tokens 학습<br>Gopher 동일 예산]

핵심 구성요소

접근법 1 — 고정 모델 크기, 가변 토큰: 70M에서 10B까지의 모델을 각각 4가지 학습 길이로 학습시켰다. 각 계산 예산 수준에서 최소 손실을 달성한 모델을 선택하여 포락선(envelope)을 구축하고, 이에 거듭제곱 법칙(power law)을 피팅하여 $N_{o pt} \propto C^{0.50}$ , $D_{o pt} \propto C^{0.50}$ 을 도출했다.

접근법 2 — IsoFLOP 프로파일: 9개의 고정 FLOPs 예산(6×10¹⁸ ~ 3×10²¹)에 대해 다양한 크기의 모델을 학습시키고, 각 IsoFLOP 곡선의 최솟값에 포물선을 피팅했다. 결과: $N_{o pt} \propto C^{0.49}$ , $D_{o pt} \propto C^{0.51}$ .

접근법 3 — 파라메트릭 손실 함수: 전체 실험 데이터를 아래 함수에 피팅했다:

$\hat{L} (N, D) = E + \frac{A}{N ^{α}} + \frac{B}{D ^{β}}$

이 함수는 세 가지 구성요소로 분해된다:

$E = 1.69$ : 이상적 생성 과정(ideal generative process)의 엔트로피로, 무한 모델과 무한 데이터에서도 줄일 수 없는 손실
$A / N^{α}$ : 완벽한 모델(true distribution)과 유한 크기 모델 간의 근사 오차
$B / D^{β}$ : 유한 데이터 샘플링으로 인한 추정 오차

제약 조건 $C \approx 6 N D$ (FLOPs ≈ 6 × 파라미터 수 × 토큰 수) 하에서 라그랑주 승수법(Lagrange multiplier)으로 최적화하면 $N_{o pt} \propto C^{0.46}$ , $D_{o pt} \propto C^{0.54}$ 를 얻는다.

발견 (Findings)

주요 결과

Chinchilla(70B)는 4배 큰 Gopher(280B)와 동일한 5.76×10²³ FLOPs로 학습되었으며, 추론 시에도 메모리와 계산이 1/4로 줄어든다.

벤치마크 카테고리	벤치마크	Chinchilla (70B)	Gopher (280B)	차이
언어 이해	MMLU (5-shot)	67.6% (Table 8)	60.0%	+7.6%p
상식 추론	HellaSwag	80.8% (Table 8)	79.2%	+1.6%p
상식 추론	PIQA	81.8% (Table 8)	81.8%	0%p
상식 추론	Winogrande	74.9% (Table 8)	70.1%	+4.8%p
상식 추론	BoolQ	83.7% (Table 8)	79.3%	+4.4%p
독해력	RACE-m (few-shot)	86.8% (Table 7)	75.1%	+11.7%p
독해력	RACE-h (few-shot)	82.3% (Table 7)	71.6%	+10.7%p
질의응답	TriviaQA (0-shot)	67.0% (Table 9)	52.8%	+14.2%p
질의응답	NQ (5-shot)	31.5% (Table 9)	24.5%	+7.0%p
언어 모델링	Wikitext103 PPL	7.16 (Section 4.2)	7.75	-0.59

핵심 발견

동등 스케일링 법칙: 세 가지 독립적 방법론이 모두 $N_{o pt} \propto C^{a}$ , $D_{o pt} \propto C^{b}$ 에서 $a \approx b \approx 0.5$ 로 수렴했다. 이는 Kaplan et al. (2020)의 $a = 0.73$ , $b = 0.27$ 과 극명하게 대비된다.
현존 모델의 과소 학습: GPT-3(175B)는 300B 토큰으로 학습되었으나, 최적 학습을 위해서는 3.7T 토큰이 필요하다 (Table 3). 즉, 기존 모델들은 약 10배 이상 데이터가 부족했다.
효율성 이점: Chinchilla는 Gopher 대비 1/4 크기이므로, 추론 비용(inference cost)과 미세조정(fine-tuning) 비용이 크게 절감된다. 동일 예산에서 더 나은 성능과 더 낮은 운영 비용을 동시에 달성했다.

이론적 의의

Chinchilla 스케일링 법칙은 LLM 학습 패러다임을 근본적으로 전환시켰다. 이 논문 이전에는 “더 큰 모델이 더 좋다”는 것이 지배적 통념이었으나, 이후에는 “최적 배분”이 핵심 원칙이 되었다.

직접적 영향:

LLaMA (Touvron et al. 2023): 7B~~65B 모델을 1T~~1.4T 토큰으로 학습시켜 Chinchilla 법칙을 적용하되, 추론 효율을 위해 의도적으로 더 오래 학습(overtrain)하는 전략을 채택했다.
LLaMA 2 (Touvron et al. 2023): 2T 토큰으로 학습량을 더 늘렸다.
산업계 전반: Google PaLM, Anthropic Claude 등 후속 모델들이 학습 토큰 수를 대폭 증가시키는 방향으로 전환했다.

이론적 기여:

파라메트릭 손실 함수 $\hat{L} (N, D) = E + A / N^{α} + B / D^{β}$ 는 LLM 학습 비용을 사전에 예측할 수 있는 실용적 도구를 제공했다.
“계산 예산 → 최적 모델 크기/데이터 양” 매핑은 LLM 개발의 자원 계획에 직접 활용된다.

재현성 및 신뢰도 평가

평가 항목	등급	근거
증거 품질 (Evidence Quality)	A	400+ 모델, 세 가지 독립 방법론의 수렴
재현성 (Reproducibility)	B	학습 설정은 상세하나, DeepMind 규모의 계산 자원 필요
방법론 투명성	A	세 접근법, 피팅 파라미터, 하이퍼파라미터 모두 공개
통계적 엄밀성	A-	다수 모델의 일관된 패턴이나, 신뢰구간은 일부만 제공
일반화 가능성	B+	Transformer 디코더에 한정, MoE 등 다른 아키텍처 미검증

주장별 신뢰도

주장	신뢰도	근거
모델 크기-데이터 동등 스케일링 (a≈0.5, b≈0.5)	높음	세 가지 독립 방법론이 수렴
Chinchilla > Gopher (동일 예산)	매우 높음	다수 벤치마크에서 일관된 개선 (Table 7, 8, 9)
기존 대형 모델은 과소 학습 상태	높음	Table 3의 최적 토큰 예측이 실제 학습량의 10배 이상
스케일링 법칙의 100B+ 외삽 정확성	중간	실험은 16B 이하, 외삽 의존
데이터 품질 무관 가정	낮음	체계적 검증 없음

읽기 난이도: ⭐⭐

수학적 내용(파라메트릭 손실 함수, 라그랑주 최적화)이 포함되어 있으나, 핵심 메시지는 직관적이며 실험 설계도 명료하다. 스케일링 법칙 분야의 입문 논문으로 적합하다.

논문	연도	핵심 주장	모델 크기	토큰 수	MMLU	Chinchilla와의 관계
Kaplan et al. “Scaling Laws for Neural Language Models”	2020	a=0.73, b=0.27 (모델 우선)	~1.5B까지	가변	—	Chinchilla가 직접 반박, a≈0.5로 수정
Brown et al. “GPT-3”	2020	규모 확대로 few-shot 학습 가능	175B	300B	43.9%	과소 학습 상태, 최적은 3.7T 토큰 필요
Rae et al. “Gopher”	2021	대형 모델로 다양한 벤치마크 개선	280B	300B	60.0%	동일 예산의 Chinchilla가 7.6%p 상회
Touvron et al. “LLaMA”	2023	추론 최적화를 위한 소형 모델 + 대량 데이터	7B~65B	1T~1.4T	63.4% (65B)	Chinchilla 법칙 적용 + 의도적 과학습

원자적 인사이트 (Zettelkasten)

인사이트 1: 동등 스케일링 법칙 — 모델 크기와 데이터의 대칭성

계산 예산을 두 배로 늘릴 때 모델 파라미터와 학습 토큰을 각각 $2$ 배씩 늘리는 것이 최적이다. 이 대칭성( $a \approx b \approx 0.5$ )은 세 가지 독립적 방법론에서 모두 확인되었으며, 이전의 비대칭 법칙(Kaplan et al., $a = 0.73$ )을 정면으로 반박한다. 이는 “모델 크기가 성능의 주된 결정 요인”이라는 기존 통념을 뒤집는 핵심 결과이다.

인사이트 2: 현존 대형 모델은 과소 학습 상태

GPT-3(175B)의 최적 토큰 수는 3.7T인데 실제로는 300B 토큰만으로 학습되었다 (Table 3). 이는 12배의 데이터 부족을 의미한다. 이 관찰은 단순히 학술적 발견을 넘어, 산업계에서 모델 크기 경쟁(parameter race)이 아닌 데이터 품질/양 경쟁으로의 전환을 촉발했다.

인사이트 3: 추론 효율성의 부수적 이점

계산 최적 학습은 더 작은 모델로 더 나은 성능을 달성하므로, 학습 비용뿐 아니라 추론(inference) 비용도 크게 절감된다. Chinchilla(70B)는 Gopher(280B)의 1/4 크기이므로 추론 시 메모리와 FLOPs가 약 4배 감소한다. 이는 대규모 서비스 배포에서 직접적인 경제적 이점을 제공한다.

인사이트 4: 파라메트릭 손실 함수의 실용적 가치

$\hat{L} (N, D) = E + A / N^{α} + B / D^{β}$ 공식은 모델 학습 전에 예상 성능을 추정할 수 있게 해준다. 이는 수백만 달러 규모의 학습 실험을 실행하기 전에 자원 배분을 최적화하는 실질적 도구가 되며, LLM 개발의 “예측 과학(predictive science)” 전환을 상징한다.

핵심 용어 정리

용어	정의
스케일링 법칙 (Scaling Law)	모델 크기, 데이터 양, 계산 예산과 성능 간의 거듭제곱 관계를 기술하는 경험적 법칙
계산 최적 (Compute-Optimal)	주어진 계산 예산에서 손실을 최소화하는 모델 크기와 데이터 양의 조합
IsoFLOP	동일한 부동소수점 연산량(FLOPs)에서 다양한 모델 크기의 성능을 비교하는 분석 방법
FLOPs	부동소수점 연산 수(Floating Point Operations). 모델 학습의 계산 비용 척도. $C \approx 6 N D$
파라메트릭 손실 함수	$\hat{L} (N, D) = E + A / N^{α} + B / D^{β}$ 형태로, 모델 크기와 데이터 양의 함수로 손실을 예측하는 모델
환원 불가능 손실 (Irreducible Loss)	무한 모델과 무한 데이터에서도 줄일 수 없는 최소 손실 ( $E = 1.69$ )
손실 포락선 (Loss Envelope)	각 계산 예산에서 달성 가능한 최소 손실들을 연결한 곡선
과소 학습 (Undertrained)	모델 크기에 비해 학습 토큰 수가 최적보다 부족한 상태
코사인 학습률 스케줄	학습률을 코사인 함수 형태로 점진적으로 감소시키는 방법
Chinchilla	DeepMind의 70B 파라미터 모델. 계산 최적 원칙에 따라 1.4T 토큰으로 학습됨

Juhyeon's Blog

탐색기

Training Compute-Optimal Large Language Models