자기 증류가 지속적 학습을 가능하게 한다

Digest: 대형 언어 모델을 새로운 기술로 파인튜닝하면 기존 능력이 손상되는 파국적 망각(catastrophic forgetting) 문제가 발생한다. 기존 SFT(지도 학습 파인튜닝)는 전문가 데모를 그대로 모방하는 오프-폴리시(off-policy) 방식이어서, 학습 분포와 실제 생성 분포 간 불일치가 누적 오류를 야기한다. 본 논문은 모델이 이미 보유한 인-컨텍스트 학습(ICL, 예시를 프롬프트에 넣으면 파라미터 업데이트 없이도 행동을 조정하는 능력) 능력에 주목하여, 데모를 조건부 입력으로 받는 동일 모델을 Teacher로, 데모 없이 동작하는 동일 모델을 Student로 두고 Student 자신이 생성한 샘플(온-폴리시) 위에서 KL 발산을 최소화하는 **SDFT(Self-Distillation Fine-Tuning)**를 제안한다. 이론적으로 SDFT는 역강화학습(Inverse RL)과 동치이며, 암묵적 보상 $r = l o g π (y ∣ x, c) - l o g π_{k} (y ∣ x)$ 를 최대화하는 온-폴리시 RL로 해석된다. 실험 결과, 지식 습득 태스크에서 SDFT는 strict accuracy 89% (Table 1)로 SFT(80%)를 크게 상회하며 Oracle RAG(91%)에 근접하였고, OOD 질문에서 98% (Table 1) 정확도를 달성하여 단순 암기가 아닌 진정한 지식 통합을 입증하였다. 스킬 학습에서도 Tool Use 신규 태스크 70.6% (Table 5) 대비 SFT 63.2%를 기록하면서 이전 능력 평균 65.4% (Table 5)로 베이스 모델(65.5%)과 거의 동일한 수준을 유지하였다.

섹션별 요약

Introduction

대형 언어 모델은 배포 후 정적(static)으로 고정되어, 새로운 기술이나 지식을 추가하려면 파인튜닝이 필요하다. 그러나 기존 SFT는 off-policy 학습으로 인해 (1) 학습-생성 분포 불일치로 compounding error가 발생하고, (2) 기존 능력이 망각된다. SDFT는 “데모를 본 모델이 이미 더 나은 행동을 안다”는 관찰에서 출발하여, 명시적 보상 함수나 외부 Teacher 없이 자기 자신의 ICL 능력을 증류 신호로 전환한다.

Methods

SDFT의 핵심 구조:

Teacher: 동일 모델에 전문가 데모 c를 프롬프트로 조건부 입력 → π(·|x,c)
Student: 데모 없이 동작하는 동일 모델 → π_θ(·|x)
손실 함수: ℒ(θ) = D_KL(π_θ(·|x) ∥ π(·|x,c)) (역방향 KL)
Teacher 업데이트: Student 파라미터의 EMA(지수이동평균)

이론적으로 “In-Context Assumption”(데모 조건부 모델 ≈ 최적 다음 정책)을 도입하여, SDFT가 암묵적 보상 r(y,x,c) = log π(y|x,c) − log π_k(y|x)를 최대화하는 온-폴리시 RL과 동치임을 증명하였다.

Results

지식 습득: SDFT 89% strict / 100% lenient / 98% OOD vs. SFT 80/95/80 (Table 1)
스킬 학습 (Tool Use): SDFT 70.6% 신규 / 65.4% 이전 vs. SFT 63.2/56.0 (Table 5)
추론 모델: Olmo-3-7B-Think에서 SFT는 정확도 하락(31.2→23.5), SDFT는 상승(31.2→43.7) (Table 2)
스케일링: 3B에서는 ICL 부족으로 SDFT < SFT, 7B에서 +4점, 14B에서 +7점 (Figure 5)

Discussion

컴퓨팅 비용: SFT 대비 ~2.5배 FLOPs, ~4배 wall-clock. 단, 다단계 파이프라인(SFT + re-invocation) 대비 총 비용은 유사
학습된 아티팩트: Teacher의 “Based on the text…” 같은 문구가 Student에 전이되는 문제 → 초기 토큰 loss masking으로 완화 가능하나 근본적 해결 필요
ICL 의존성: 소규모 모델(3B 이하)에서는 효과 제한적

Insights

주목할 점: 별도의 RLHF 파이프라인이나 외부 Teacher 없이, 모델 자신의 ICL 능력만으로 on-policy 학습 신호를 생성하는 발상이 단순하면서도 강력하다. MoCo/BYOL의 momentum encoder 전략과 개념적으로 유사.
연결 고리: Constitutional AI(자기 비평), SPIN(Self-Play Fine-Tuning), DPO(직접 선호 최적화) 등 자기 참조적 학습 패러다임과 연결. Context Distillation의 on-policy 확장으로도 볼 수 있다.
시사점: 기존 지속적 학습은 EWC, 리플레이 버퍼, LoRA 분리 등 복잡한 메커니즘에 의존했으나, SDFT는 단일 학습 루프로 망각 억제. 프로덕션 모델 순차 업데이트에 직접 적용 가능.
비판적 코멘트: In-Context Assumption이 단일 데이터셋(ToolAlpaca)에서만 검증됨. 다양한 도메인/모델에서의 일반성 추가 검증 필요. 장기 다중 태스크(10+) 시나리오에서 EMA Teacher 품질 유지 여부도 미검증.

Discussion Points

논쟁점: SDFT 효과가 on-policy 샘플링에서 오는지, KL 정규화 효과에서 오는지 완전히 분리되지 않음. Ablation에서 offline distillation < on-policy SDFT를 보였지만, “KL 제약 추가 SFT”와의 엄밀한 분리가 부족할 수 있음.
검증 필요 가정: In-Context Assumption의 도메인 일반성 (수학 증명, 코드 생성 등 ICL이 약한 영역에서의 유효성)
후속 연구: (1) SDFT + RL 순차/동시 결합, (2) LoRA/어댑터와 결합한 극단적 다중 태스크 시나리오, (3) 멀티모달 모델 적용, (4) 비전문가/노이즈 데모 환경으로의 확장

메타데이터

항목	내용
제목	Self-Distillation Enables Continual Learning
저자	Idan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal
소속	MIT Improbable AI Lab, ETH Zurich
연도	2026
발표	arXiv:2601.19897
링크	arXiv, Project
키워드	Self-Distillation, Continual Learning, On-Policy Learning, Inverse RL, In-Context Learning, Catastrophic Forgetting

왜 이 연구를 하는가?

핵심 질문

전문가 데모만 있고 명시적 보상 함수가 없는 상황에서, 모델이 새 기술을 습득하면서 기존 능력을 유지할 수 있는가?

기존 접근법의 한계

한계	설명
SFT의 off-policy 문제	전문가 궤적만 학습하여 테스트 시 모델 자신의 분포에서 벗어나면 오류가 누적됨 (compounding error)
SFT의 파국적 망각	새 태스크 학습 시 기존 능력이 심각하게 저하 (Tool Use: 65.5→56.0, Table 5)
IRL의 확장성 문제	전통적 역강화학습은 보상 구조에 대한 강한 가정이 필요하며 대규모 모델에 확장 어려움
다단계 파이프라인	SFT 후 re-invocation 등 추가 단계가 필요하여 복잡하고 비용 증가
추론 모델의 취약성	답만 있는(chain-of-thought 없는) 데이터로 SFT하면 추론 깊이가 붕괴 (4612→3273 tokens, Table 2)

핵심 통찰

모델은 이미 답을 알고 있다: 데모를 프롬프트에 넣으면 ICL로 즉시 더 나은 행동을 보이는데, 이 능력을 파라미터에 영구적으로 증류할 수 있다
On-policy 학습이 망각을 억제한다: Student 자신이 생성한 분포 위에서 학습하면 기존 생성 패턴에서 크게 벗어나지 않아 이전 능력이 보존된다

방법 (Method)

프레임워크 개요

graph TD
    A["입력 질문 x"] --> B["Teacher 모델<br/>(데모 c 조건부)"]
    A --> C["Student 모델<br/>(조건 없음)"]
    D["전문가 데모 c"] --> B
    B --> E["Teacher 분포<br/>π(y|x,c)"]
    C --> F["Student 분포<br/>π_θ(y|x)"]
    F --> G["On-Policy 샘플 생성<br/>(Student가 직접 생성)"]
    G --> H["역방향 KL 손실 계산<br/>D_KL(Student ∥ Teacher)"]
    E --> H
    H --> I["파라미터 업데이트 θ"]
    I --> C
    I --> J["EMA 업데이트<br/>φ = α·θ + (1-α)·φ"]
    J --> B

    style B fill:#e1f5fe
    style C fill:#fff3e0
    style G fill:#e8f5e9
    style H fill:#fce4ec

핵심 구성요소

1. Teacher-Student 이중 역할

동일한 사전학습 모델이 두 가지 역할을 수행한다. Teacher는 질문 x와 전문가 데모 c를 함께 받아 “이 데모를 참고하여 자신만의 답변을 생성”하라는 프롬프트로 조건화된다. Student는 질문 x만 받고 답변을 생성한다.

Teacher 프롬프트 템플릿:

<Question>
This is an example for a response to the question:
<Demonstration>
Now answer with a response of your own, including the thinking process:

2. 역방향 KL 발산 최소화

손실 함수: ℒ(θ) = D_KL(π_θ(·|x) ∥ π(·|x,c))

역방향 KL(reverse KL)을 사용하는 이유: Student 분포가 Teacher 분포의 모드를 잘 커버하도록 유도하면서, Student 자신의 분포에서 샘플링하여 on-policy 학습이 자연스럽게 이루어진다.

3. EMA Teacher 업데이트

Teacher 가중치 φ = α·θ + (1−α)·φ로 Student의 EMA를 유지한다. 이를 통해 Teacher가 Student의 발전을 점진적으로 반영하면서도, 급격한 파라미터 변화에 의한 불안정성을 방지한다. Frozen base를 Teacher로 쓰면 성능이 낮고, Student 자체를 Teacher로 쓰면 불안정해진다 (Figure 8).

4. Inverse RL로서의 해석

“In-Context Assumption”: π*_{k+1}(y|x) ≈ π(y|x,c) (데모 조건부 모델이 최적 다음 정책을 근사)

이 가정 하에 암묵적 보상이 도출됨:

r(y,x,c) = log π(y|x,c) − log π_k(y|x)
토큰 수준: r_t = log(π(y_t|y_{<t},x,c) / π_k(y_t|y_{<t},x))

검증: Qwen-2.5-7B-Instruct + ToolAlpaca에서 데모 없이 42% → 데모 조건부 100% 성공. KL 거리도 SFT(1.26 nats) 대비 Teacher(0.68 nats)로 절반 수준, 두 조건(Optimality + Minimal Deviation) 모두 충족.

알고리즘 요약

Input: 데모 데이터셋 D = {(x_i, c_i)}, 모델 π_θ, EMA율 α

Teacher 가중치 φ = θ로 초기화

매 학습 스텝:
  1. 미니배치 B ~ D 샘플링
  2. 각 (x_i, c_i)에 대해:
     - Student가 y_i ~ π_θ(·|x_i) 생성 (on-policy rollout)
     - Teacher/Student 토큰별 logprob 계산
  3. Analytic per-token KL 기울기 계산
  4. θ ← θ − η·g (파라미터 업데이트)
  5. φ ← α·θ + (1−α)·φ (EMA 업데이트)

발견 (Findings)

주요 결과

지식 습득 (Knowledge Acquisition, Table 1)

Method	Strict Acc	Lenient Acc	OOD Acc
Base	0	0	0
Oracle RAG	91	100	100
CPT	9	37	7
SFT	80	95	80
SDFT	89	100	98

스킬 학습 - Tool Use (Table 5)

Method	New Task	Avg Previous	망각률
Base	42.9	65.5	—
SFT	63.2	56.0	−9.5
SFT + Re-invoke	63.1	63.7	−1.8
DFT	64.2	60.8	−4.7
SDFT	70.6	65.4	−0.1

추론 모델 보존 (Table 2, Olmo-3-7B-Think)

Method	Accuracy	Avg Tokens	추론 깊이 보존
Base	31.2	4612	—
SFT	23.5	3273	붕괴 (−29%)
SDFT	43.7	4180	보존 (−9%)

핵심 발견

1. SDFT는 새 태스크 성능과 기존 능력 보존을 동시에 달성한다. Tool Use에서 SDFT의 이전 태스크 평균 65.4%는 베이스 모델 65.5%와 거의 동일하여 망각이 사실상 발생하지 않았다. SFT는 동일 조건에서 −9.5%p 하락하였다.

2. OOD 일반화에서 SDFT가 탁월하다. 지식 습득의 OOD 정확도 98%(SFT 80%)는 모델이 단순 QA 암기가 아닌 지식의 구조적 통합을 달성했음을 시사한다.

3. 추론 모델에서 SFT는 해롭고 SDFT는 유익하다. 답만 있는 데이터로 SFT하면 추론 깊이가 붕괴되지만, SDFT는 Teacher가 모델 자신의 추론 스타일을 유지한 분포를 제공하여 사고 과정을 보존한다.

4. On-policy가 핵심이다. 동일 Teacher에서 offline distillation vs. on-policy SDFT를 비교한 결과, on-policy가 일관되게 우수 (Figure 6). Teacher 품질만으로는 설명 불가.

5. ICL 능력에 비례하여 효과 증가. 3B → 7B → 14B로 모델이 커질수록 SDFT-SFT 격차가 확대 (−, +4, +7점, Figure 5).

이론적 의의

자기 참조적 학습의 실용적 구현

SDFT는 “모델이 스스로를 가르친다”는 자기 참조적 학습 패러다임의 최초 실용적 구현 중 하나이다. Constitutional AI(자기 비평), SPIN(자기 대국), Self-Refine(자기 개선) 등이 유사한 철학을 공유하지만, SDFT는 이를 Inverse RL의 수학적 프레임워크로 정당화하고 지속적 학습이라는 구체적 문제에 적용했다는 점에서 차별화된다.

보상 함수 없는 On-Policy 학습

전통적으로 on-policy 학습은 명시적 보상 함수(RLHF)나 선호 데이터(DPO)를 필요로 했다. SDFT는 데모만으로 암묵적 보상을 도출하여 on-policy 업데이트를 수행할 수 있음을 보였다. 이는 “보상 설계” 문제를 우회하면서도 on-policy의 이점(분포 일치, 망각 억제)을 누릴 수 있게 한다.

RAG 대안으로서의 지식 내재화

SDFT의 지식 습득 결과(strict 89%, OOD 98%)는 Oracle RAG에 근접한다. 이는 추론 시 검색 비용 없이 새 지식을 파라미터에 영구 통합하는 경로가 실용적임을 시사하며, RAG vs. 파인튜닝의 선택지에서 SDFT가 유력한 대안이 될 수 있음을 보여준다.

핵심 용어 정리

용어	정의
SDFT (Self-Distillation Fine-Tuning)	동일 모델을 Teacher/Student로 이중 활용하여 on-policy 자기 증류를 수행하는 학습 방법
Catastrophic Forgetting (파국적 망각)	새로운 태스크 학습 시 이전에 습득한 능력이 급격히 손실되는 현상
On-Policy Learning (온-폴리시 학습)	학습 중인 모델 자신이 생성한 데이터 분포 위에서 학습하는 방식. Off-policy(전문가 데이터만 사용)의 반대
In-Context Learning (ICL)	파라미터 업데이트 없이 프롬프트에 예시를 넣는 것만으로 모델 행동이 조정되는 현상
Reverse KL Divergence	D_KL(q∥p): q 분포가 p의 모드를 집중적으로 커버하도록 유도. Student가 Teacher의 핵심 행동을 포착하는 데 적합
EMA (Exponential Moving Average)	파라미터의 지수가중이동평균. Teacher가 Student의 발전을 안정적으로 추적
Inverse RL (역강화학습)	전문가 행동에서 암묵적 보상 함수를 추론하는 프레임워크
Context Distillation	추가 컨텍스트로 조건화된 모델의 지식을 조건 없는 모델로 증류하는 기법
Compounding Error (누적 오류)	Off-policy 학습에서 모델이 학습 분포에서 벗어나면 오류가 연쇄적으로 증폭되는 문제
DFT (Distribution-Corrected Fine-Tuning)	중요도 샘플링으로 off-policy 데이터를 on-policy처럼 보정하는 기법

Juhyeon's Blog

탐색기

Self-Distillation Enables Continual Learning