Inductive Bias
Summary
Inductive bias는 모델이 학습 데이터 밖으로 일반화할 때 깔고 들어가는 사전 가정이다. 데이터만으로는 가능한 해석이 너무 많기 때문에, 모델은 반드시 어떤 방향으로 추측해야 한다. 이때 모델이 선호하는 해석 방식, 구조, 규칙성이 inductive bias다.
한 문장으로 이해하기
Inductive bias는 모델이 “이런 식으로 일반화하면 맞을 것이다”라고 미리 가정하는 방향성이다.
예를 들어 고양이 사진 몇 장만 보고 새로운 고양이를 알아보려면, 모델은 보지 못한 이미지에 대해 추측해야 한다. 이때 “가까운 픽셀끼리는 관련이 크다”, “같은 패턴은 위치가 조금 바뀌어도 같은 의미일 수 있다” 같은 가정이 필요하다.
CNN의 convolution은 이런 가정을 구조에 넣는다. 그래서 CNN은 이미지에 대해 강한 inductive bias를 가진 모델이라고 말할 수 있다.
왜 필요한가?
학습 데이터만으로는 항상 여러 설명이 가능하다. 관찰한 데이터에 완벽히 맞는 함수는 무수히 많다. 모델이 그중 하나를 골라 보지 못한 데이터에 적용하려면, 어떤 해석을 더 그럴듯하다고 볼지에 대한 기준이 필요하다.
그 기준이 inductive bias다.
flowchart LR DATA["Training data<br/>관찰한 사례"] HYP["가능한 가설들<br/>many functions"] BIAS["Inductive bias<br/>선호하는 가정"] GEN["Generalization<br/>보지 못한 데이터 예측"] DATA --> HYP BIAS --> HYP HYP --> GEN
Bias가 전혀 없으면 일반화도 어렵다. 따라서 여기서 bias는 나쁜 의미의 편향이라기보다, 학습을 가능하게 하는 방향성에 가깝다.
용어 분해
| 표현 | 뜻 |
|---|---|
| Induction | 관찰한 사례에서 일반 규칙을 추론하는 것 |
| Bias | 그 추론이 특정 방향으로 기울어져 있다는 것 |
| Inductive bias | 보지 못한 데이터에 일반화할 때 모델이 선호하는 가정 |
한국어로는 “귀납 편향”이라고 번역할 수 있지만, AI 맥락에서는 보통 영어 그대로 inductive bias라고 많이 쓴다.
주로 쓰이는 맥락
1. 모델 구조
모델 아키텍처 자체가 특정한 세계 구조를 가정할 수 있다.
| 모델 | Inductive bias |
|---|---|
| CNN | 가까운 픽셀끼리는 관련이 크고, 같은 패턴은 위치가 바뀌어도 의미가 유지될 수 있다. |
| RNN / LSTM | 데이터는 순서가 중요하며, 이전 상태가 다음 상태에 영향을 준다. |
| Transformer | token 사이의 관계를 attention으로 동적으로 조합할 수 있다. |
| GNN | 그래프에서 이웃 노드와 edge 구조가 중요한 정보를 담는다. |
| Linear model | 입력과 출력 사이의 관계가 선형에 가깝다고 가정한다. |
모델 구조의 inductive bias가 데이터 구조와 잘 맞으면 적은 데이터로도 잘 일반화한다. 반대로 맞지 않으면 더 많은 데이터와 계산이 필요하거나, 잘못된 shortcut을 배울 수 있다.
2. 손실 함수와 학습 목표
손실 함수도 모델이 무엇을 중요하게 보아야 하는지 정한다.
| 학습 목표 | 들어가는 가정 |
|---|---|
| Cross-entropy | 정답 class의 확률을 높이는 것이 좋은 분류기다. |
| Contrastive loss | 같은 의미의 view는 가깝고, 다른 sample은 멀어야 한다. |
| Reconstruction loss | 입력을 잘 복원하는 표현은 유용한 정보를 담고 있다. |
| Next-token prediction | 다음 token 예측을 잘하면 언어 구조와 세계 지식을 일부 배울 수 있다. |
따라서 self-supervised learning에서 어떤 pretext task를 고르느냐도 inductive bias 선택이다.
3. Regularization
Regularization은 모델이 어떤 해를 더 선호하게 만든다.
| 방법 | 선호하는 해 |
|---|---|
| L2 regularization | weight가 너무 커지지 않는 해 |
| L1 regularization | sparse한 해 |
| Dropout | 특정 neuron 조합에 과하게 의존하지 않는 해 |
| Early stopping | 지나치게 복잡한 fitting으로 가기 전의 해 |
이런 regularization은 단순히 overfitting을 막는 기술이 아니라, 모델이 어떤 종류의 함수를 더 그럴듯하게 볼지 정하는 bias다.
4. Optimization
학습 알고리즘도 inductive bias를 만든다. 예를 들어 SGD는 모든 가능한 해를 균등하게 탐색하지 않는다. 초기화, batch noise, learning rate, optimizer 선택에 따라 특정한 종류의 해로 수렴하기 쉽다.
딥러닝에서 “SGD는 비교적 단순하거나 평평한 해를 선호하는 경향이 있다”는 식의 논의가 나오는 이유도 여기에 있다. 이것은 모델 구조가 아니라 optimization process가 주는 inductive bias다.
5. Data augmentation
Data augmentation은 매우 명시적인 inductive bias다.
예를 들어 이미지를 좌우 반전해도 label이 같다고 두면, 모델에게 “이 변환은 의미를 바꾸지 않는다”는 가정을 넣는 것이다. Random crop, color jitter, blur도 마찬가지다.
하지만 augmentation bias가 항상 맞는 것은 아니다. 숫자 6을 뒤집거나 회전하면 9가 될 수 있다. 의료 이미지에서도 좌우 반전이 임상적 의미를 바꿀 수 있다. 이 경우 잘못된 augmentation은 잘못된 inductive bias가 된다.
6. 사전학습 모델
사전학습된 모델은 이미 강한 inductive bias를 가진다.
LLM은 next-token prediction으로 학습되었기 때문에, downstream task를 언어적 패턴과 문맥 추론으로 풀려는 경향이 있다. Vision foundation model은 이미지의 객체, texture, layout, viewpoint 등에 대한 표현을 이미 가지고 있다.
즉 pretraining은 모델에 거대한 prior를 심는 과정이고, fine-tuning은 그 prior를 특정 task에 맞추는 과정으로 볼 수 있다.
Chollet의 prior와의 관계
On the Measure of Intelligence에서 Chollet은 지능을 평가할 때 priors, experience, generalization difficulty를 통제해야 한다고 말한다. 여기서 priors는 inductive bias와 매우 가깝다.
| Chollet의 용어 | Inductive bias와의 관계 |
|---|---|
| Priors | 시스템이 학습 전에 이미 가진 정보나 가정 |
| Experience | 학습 중 받은 데이터와 피드백 |
| Generalization difficulty | 훈련 사례에서 평가 사례로 넘어가는 데 필요한 변화량 |
| Inductive bias | priors가 모델의 일반화 방향으로 드러난 것 |
ARC에서 말하는 Core Knowledge prior도 inductive bias로 볼 수 있다. 인간은 objectness, agentness, numbers, geometry 같은 기본 가정을 가지고 문제를 본다. 이 prior가 있기 때문에 적은 예시만 보고도 ARC 퍼즐의 규칙을 추론할 수 있다.
좋은 bias와 나쁜 bias
Inductive bias는 좋거나 나쁜 것이 아니라, task와 data distribution에 맞는지가 중요하다.
| 경우 | 결과 |
|---|---|
| Bias가 task 구조와 잘 맞음 | 적은 데이터로도 좋은 일반화 |
| Bias가 너무 약함 | 많은 데이터가 필요하고 sample efficiency가 낮음 |
| Bias가 잘못됨 | shortcut 학습, spurious correlation, distribution shift 취약성 |
| Bias가 너무 강함 | 실제 데이터의 복잡성을 놓치고 underfitting |
예를 들어 CNN의 locality bias는 자연 이미지에는 잘 맞는다. 하지만 멀리 떨어진 patch 사이의 관계가 중요한 문제에서는 Transformer가 더 유리할 수 있다.
반대로 Transformer는 CNN보다 이미지에 대한 hand-crafted bias가 약하다. 그래서 대규모 데이터와 pretraining을 통해 bias를 데이터에서 배워야 하는 경우가 많다.
Engineering heuristic인가?
짧게 말하면, 대부분은 맞다. 많은 inductive bias는 사람이 설계한 engineering heuristic에서 나온다.
예를 들어 CNN은 이미지에서 가까운 픽셀끼리 관련이 크고, 같은 패턴은 위치가 조금 달라도 같은 의미를 가질 수 있다는 가정을 넣은 구조다. Transformer도 마찬가지다. Transformer는 token들이 attention을 통해 서로를 참고하면 유용한 표현을 만들 수 있고, sequence 안의 관계를 pairwise interaction으로 조합할 수 있다는 가정을 넣은 구조다.
다만 inductive bias를 단순한 “임시방편 heuristic”으로만 보면 조금 좁다. Inductive bias는 다음처럼 여러 층위에서 생긴다.
| 층위 | 사람이 직접 설계했는가? | 예시 |
|---|---|---|
| 명시적 engineering heuristic | 강함 | CNN의 Convolution, GNN의 message passing, data augmentation |
| 수학적/통계적 가정 | 강함 | Bayesian prior, linearity, smoothness, sparsity |
| 학습 알고리즘의 암묵적 성질 | 중간 | SGD가 특정 종류의 해로 수렴하기 쉬운 경향 |
| 데이터와 사전학습에서 생긴 bias | 약하거나 간접적 | LLM이 next-token prediction을 통해 얻은 언어적 prior |
따라서 Transformer 구조도 inductive bias다. 다만 CNN처럼 “이미지는 local pattern이 중요하다”는 강한 hand-crafted bias보다, token 사이의 관계를 attention으로 유연하게 조합하자는 더 약하고 범용적인 bias에 가깝다. 이 약한 bias 덕분에 다양한 modality에 적용하기 쉽지만, 대신 많은 데이터와 compute가 필요해지는 경우가 많다.
핵심은 이것이다.
Inductive bias는 “사람이 넣은 꼼수”라기보다, 모델이 데이터 밖으로 일반화할 수 있도록 넣은 설계상의 세계관이다.
자주 헷갈리는 표현
| 표현 | 차이 |
|---|---|
| Inductive bias | 모델이 일반화할 때 선호하는 가정 |
| Prior | 학습 전에 이미 들어 있는 정보나 믿음. Bayesian 맥락에서는 명시적 확률분포일 수 있다. |
| Assumption | 더 넓은 말. 모델링, 데이터, 평가 전반의 가정 |
| Regularization | 특정 해를 선호하게 만드는 학습 기법. inductive bias를 구현하는 한 방식 |
| Social bias / harmful bias | 성별, 인종, 계층 등 사회적 편향. inductive bias와 단어는 같지만 맥락이 다르다. |
Question
그러면 해볼만한 시도는 prior를 잘 모델링해서 inductive bias 형식으로 넣어봐야 하나?
예시로 보는 inductive bias
이미지 분류
고양이 사진을 분류할 때 CNN은 다음을 가정한다.
- 가까운 pixel은 함께 의미를 만든다.
- edge, texture, shape 같은 local pattern이 중요하다.
- 같은 pattern은 위치가 달라도 비슷한 의미를 가진다.
이 bias 덕분에 CNN은 fully-connected network보다 이미지에서 훨씬 효율적으로 학습한다.
언어 모델
Transformer 기반 LLM은 다음을 가정한다.
- token 사이의 관계는 고정된 거리보다 attention으로 동적으로 정해진다.
- 문맥 안의 앞뒤 token이 다음 token 예측에 중요하다.
- 언어적 패턴을 예측하는 과정에서 추론, 지식, 스타일을 일부 학습할 수 있다.
이 bias는 언어 task에는 강하지만, 순수한 물리 시뮬레이션이나 실시간 embodied control에는 별도 구조가 필요할 수 있다.
ARC와 AGI 평가
ARC를 푸는 인간은 grid를 그냥 pixel 배열로 보지 않는다. 인간은 “같은 색 덩어리는 object일 수 있다”, “어떤 변화는 goal-directed process일 수 있다”, “개수를 세야 할 수 있다”, “대칭이나 회전이 규칙일 수 있다”는 prior를 가지고 본다.
이것이 ARC 맥락의 inductive bias다. 완전한 tabula rasa 모델은 이런 해석 틀이 없기 때문에 적은 예시로 규칙을 찾기 어렵다.
핵심 요약
| 질문 | 답 |
|---|---|
| Inductive bias란? | 모델이 보지 못한 데이터에 일반화할 때 사용하는 사전 가정 |
| 왜 필요한가? | 데이터만으로는 가능한 해석이 너무 많기 때문에 |
| 어디서 생기는가? | 모델 구조, 손실 함수, optimizer, regularization, augmentation, pretraining |
| 좋은 bias란? | task와 data distribution의 구조에 잘 맞는 bias |
| Chollet의 prior와 관계는? | prior가 일반화 방향으로 드러난 것이 inductive bias라고 볼 수 있다. |
관련 노트
- On the Measure of Intelligence
- Agentness
- Data Augmentation
- CNN
- Transformer
- Graph Neural Networks
- Regularization
- Overfitting
- Types of Learning
태그
AI MachineLearning Generalization InductiveBias Prior LearningTheory AGI