Deep Learning Fundamentals

What is Deep Learning?

Optimization algorithm for complex function ==complex== function
- 우리가 알아내고자 하는 함수이며, 이가 실제 현실에서 매우 복잡하게 생길 수 있기에 DL의 존재 가치가 있음.
Deep? → MLP(Multi Layer Perceptron) :
- 특징을 추출하는 층이 다층 구조라. (보통 3층 이상의 구조를 깊다고 표현)
predict(forward pass), back-propagation(backward pass)의 과정을 반복 수행.
- 이 과정에서 Loss 값을 이용해서 함수를 fitting하는 거지.
최종 목적은 우리가 알아내고자 하는 함수를 근사하는 것.

그렇다면 왜 이걸 사용하는 걸까? 어떠한 강점이 있나?

1. Solid performance(탁월하다)
  e.g. Image classification task - MNIST
Acc of various models
1. Good adaptable(이식성이 좋다)
- 전통적 방식은 특징을 추출하고 이를 분류하는 과정으로 진행되었지만, DL의 경우, 특징 추출이 ML 대비 크게 중요하지 않다. 그 과정조차 신경망이 알아서 학습할 거다.
1. Highly customizable in design
- 건드릴 수 있는 부분이 많다.

==즉, 일반화가 되지 않는 모델들은 정확도가 아무리 높아봐야 의미가 없다.==

모델의 complexity가 증가할수록 Train Error Rate은 줄어들 수 있지만, Test Error Rate은 높아지는 경향이 있다.(Trade-Off)

모델의 복잡도가 올라가면, 더 복잡한(고차원) 함수로 피팅한다는 말이고, 복잡한 함수일수록 모든 데이터 포인트 하나하나 맞출 수 있다.(High Variance) → 훈련 오류율이 낮은 이유
반면, 이렇게 지나치게 고차원 함수로 피팅한다면, 모델은 ==훈련 데이터만 잘 설명할 수 있고, 그 주변은 설명할 수 없다. → 즉, 일반성을 잃는다.== → 테스트 오류율이 높은 이유.

모델의 일반화 성능을 표현하기 위한 하나의 지표
DL 이전의 traditional 한 방법론들에서 주로 이야기되었음.
주어진 ==함수 집합(function class)이 random noise에 얼마나 잘 fitting될 수 있는지== 나타내는 지표
- 즉, ‘아무 의미 없는’ 패턴도 얼마나 잘 학습할 수 있는지.

$R_{s} (F) = E_{σ} [sup_{f \in F} \frac{1}{m} \sum_{i = 1}^{m} σ_{i} f (x_{i})]$

여기서 $F$ 는 model function space
$f$ 는 trained model
$σ_{i}$ 는 independent 이고 uniform하게 1 또는 -1 의 값을 가지는 Rademacher random variable
즉, $P (σ_{i} = 1) = P (σ_{i} = - 1) = 1/2$
$E_{σ} [\cdot]$ 는 모든 가능한 $σ = (σ_{1}, \dots, σ_{n})$ 시퀀스에 대한 expected value를 의미.
$sup_{f \in F} \frac{1}{n} \sum_{i = 1}^{n} σ_{i} f (x_{i})$ 는 함수 집합 $F$ 내에서, random하게 1 또는 -1이 부여된 데이터 포인트 $x_{i}$ 에 대해 가장 강한 correlation를 보이는 함수 $f$ 를 찾는 것
Concept:
- model complexity 혹은 ==expressive power==를 측정한다.
  - R-complexity가 높다는 건 더 복잡한 함수를 fitting할 수 있어 noise까지도 학습 가능함을 말한다.
- generalization performance
  - generalized error의 ==upper bound==를 추정할 수 있게 해줌.

$ϵ_{T es t E rror} \leq ϵ_{T r ain E rror} + \frac{h log ( n ) + log ( 1/ δ )}{n}$
이걸 식 변형해보면,

$ϵ_{T es t E rror} - ϵ_{T r ain E rror} \leq \frac{h log ( n ) + log ( 1/ δ )}{n}$

에러 간 upper bound를 추정할 수 있음.

(a)에서는 실제 데이터셋의 label을 조작한 거다.
- true: 원본 dataset 그대로 학습시킨거고,
- random은 label끼리 섞은거지
- pixel을 조작한 건 random noise를 뿌린거고
- 결과는 보는대로 random label이 loss