MLE(Maximum Likelihood Estimation)

MLE는 모수적(parametric, 데이터 분포를 가정하고 파리미터로 이를 설명) 데이터 밀도 추정 방법으로 파라미터 $θ = (θ_{1}, θ_{2}, θ_{3}, \dots, θ_{m})$ 으로 구성된 어떤 확률 밀도 함수 $P (x ∣ θ)$ 에서 관측된 표본 데이터 집합을 $x = (x_{1}, x_{2}, x_{3}, \dots, x_{n})$ 이라 할 때, 이 표본들에서 파라미터 $θ = (θ_{1}, θ_{2}, θ_{3}, \dots, θ_{m})$ 를 추정하는 방법이다. (from 공돌이의 수학 노트)

Toy example

---
title: MLE
xLabel: X
yLabel: Y=normal
bounds: [-3,5,-0.2,1]
disableZoom: false
grid: true
---
(y1) = 1/sqrt(2*PI)E^(-1/2((x-0)/1)^2)
(y1) = 1/sqrt(2*PI)E^(-1/2((x-2)/1)^2)

데이터가 $[0, 0.1, 0.2, 0.4]$ 이렇게 존재한다고 해보자.
위와 같은 2개의 p.d.f.(probability density function) 중 위의 데이터가 뽑혔을 가능성이 높은 분포는 어떠한 것인가? → MLE

Likelihood

Likelihood

이 데이터가 특정 분포로 부터 나왔을 가능성.
“각 데이터 샘플에서 후보 분포에 대한 높이(likelihood contribution)을 계산하여 다 곱한 것.”
$P (X ∣ θ) = \prod_{x \in X} P (x ∣ θ)$

log Likelihood

일반적으로 Log 사용해서 log-likelihood 사용한다.
$L (θ ∣ X) = l o g P (X ∣ θ) = \sum_{x \in X} l o g (P (x ∣ θ))$

곱 연산을 합 연산으로 바꿀 수 있다는 게 포인트!

원본 링크

MLE 를 다시 정리해보면, 주어진 데이터로부터 이 데이터의 source로 가장 합당한 분포를 찾는 방법으로, likelihood를 고려한 방법!

MLE - optimization

MLE는 결국, Likelihood 함수의 최대값을 찾는 방법.
log는 monotonic하니, 보통 log-likelihood를 optimize 함.
이는 결국 미분으로 찾음.
$\frac{\partial}{\partial θ} L (θ ∣ X) = \frac{\partial}{\partial θ} log P (X ∣ θ) = \sum_{x \in X} \frac{\partial}{\partial θ} log P (x ∣ θ) = 0$

비슷한 개념이 MAP랑 비교해서 공부하고 정리할 것.
https://velog.io/@claude_ssim/%EA%B8%B0%EA%B3%84%ED%95%99%EC%8A%B5-Parametric-Density-Estimation-Maximum-A-Posteriori-EstimationMAP