ML(Maximum Likelihood)와 MAP(maximum a posterior)

머신 러닝 관련 글 목록

참조 : 패턴인식(오일석)
이번 글에서는 MLE(Maximum Likelihood Estimation)와 MAP(maximum a posterior)에 대하여 알아보도록 하겠습니다.

ML(Maximum Likelihood)에 대한 개념적 설명

먼저 ML(Maximum Likelihood)은 개념적으로 어떠한 형태의 분포에도 적용 가능합니다. 현실적으로는 정규 분포와 같이 매개 변수로 표현되는 경우에만 적용 가능한 데 매개 변수로 표시 된 경우만 계산이 가능하기 때문입니다. 이 매개 변수 집합을 $\theta$ 라고 보통 표시합니다.
이 때, 문제를 다음과 같이 정의 할 수 있습니다.
- 데이터 $X$ 를 발생시켰을 가능성이 가장 높은 $\theta$ 를 찾아라
- 데이터 $X$ 에 대하여 가장 큰 likelihood를 갖는 $\theta$ 를 찾아라

위 그래프에서 $X$ 는 6개의 샘플을 갖습니다.
이 $X$ 를 발생시킬 가능성은 $\theta_{1}$ 이 $\theta_{2}$ 보다 높습니다. 왜냐하면 각 $X = (x_{1}, x_{2}, ... , x_{6})$ 에 해당하는 그래프 상의 함수값을 살펴보면 $\theta_{1}$ 에 해당하는 그래프에서 더 큰 값을 가지기 때문입니다.
likelihood를 이용하여 다시 표현하면 $p(X \vert \theta_{1}) \gt p(X \vert \theta_{2})$ 라고 할 수 있습니다.
이 때 우리가 풀어야 할 문제는 어떤 $\theta$ 가 maximum likelihood를 가질까 입니다.

Maximum likelihood를 이해하기 위해 다음과 같은 예제를 살펴보겠습니다.
3가지의 동전이 있습니다. 동전의 앞이 나올 확률이 $p$ , 뒤가 나올 확률이 $1-p$ 라고 하고 각각의 $p$ 는 1/4, 1/3, 1/2 입니다.
임의의 동전을 하나 집어서 50번 던졌을 때 관찰 결과 22번이 나왔습니다. 이 때, 과연 어떤 동전을 던졌을지 맞추는 것이 문제입니다.
이 문제의 해결법은 각 동전의 likelihood를 구한 다음에 그 값이 최대가 되는 것을 구하는 것입니다. 즉, maximum likelihood를 취하는 것입니다.

$\hat{\theta} = \operatorname*{argmax}_\theta \ P(X \vert \theta=p) \tag{1}$
$P(\text{head} = 22 \vert p = \frac{1}{4}) = \begin{pmatrix} 50 \\ 22 \\ \end{pmatrix} (\frac{1}{4})^{22}(\frac{3}{4})^{28} = 0.0016 \tag{2}$
$P(\text{head} = 22 \vert p = \frac{1}{3}) = \begin{pmatrix} 50 \\ 22 \\ \end{pmatrix} (\frac{1}{3})^{22}(\frac{2}{3})^{28} = 0.0332 \tag{3}$
$P(\text{head} = 22 \vert p = \frac{1}{2}) = \begin{pmatrix} 50 \\ 22 \\ \end{pmatrix} (\frac{1}{2})^{22}(\frac{1}{2})^{28} = 0.0788 \tag{4}$

따라서 p = 1/2 일 때, likelihood가 가장 크므로 위 3가지 케이스에 대해서는 p = 1/2 일 때 maximum likelihood라고 말할 수 있습니다.

문제를 좀 더 형식적으로 쓰면 다음과 같이 쓸 수 있습니다.

$\hat{\theta} = \operatorname*{argmax}_\theta \ p(X \vert \theta) \tag{5}$

확률 분포 추정 문제를 위와 같이 maximum likelihood를 갖는 매개 변수를 찾는 것으로 규정하고 해를 구하는 방법을 Maximum Likelihood method 라고 합니다.
모든 샘플은 독립적으로 추출되었다고 가정할 수 있으므로, 즉 i.i.d (independent and identically distributed random variable)조건으로 가정하면 likelihood는 다음과 같이 쓸 수 있습니다.

$X = \{x_{1}, x_{2}, ... , x_{N} \} \tag{6}$
$p(X \vert \theta) = p(x_{1} \vert \theta)p(x_{2} \vert \theta)...p(x_{N} \vert \theta) = \prod_{i=1}^{N}p(x_{i} \vert \theta) \tag{7}$

식 (7)의 곱으로 표현된 식이 복잡하고 계산하기가 어려우므로 좀 더 단순한 형태로 식을 변경해 보겠습니다.
예를 들어 함수 $f$ 가 단조 증가 함수라면 $\operatorname*{argmax}_\theta p(X \vert \theta)$ 에서 $P(X \vert \theta)$ 를 최대화 하는 것과 $f(p(X \vert \theta))$ 를 최대화 하는 것은 같습니다.
따라서 likelihood에 단조 증가 함수인 log (ln)를 취한 것을 log likelihood 라고 하며 다음과 같습니다.

$\hat{\theta} = \operatorname*{argmax}_\theta \sum_{i=1}^{N} \ln{p(x_{i} \vert \theta)} \tag{8}$

위 식은 최적화 문제에 해당합니다. 최적화 문제를 풀기 위해서는 미분을 한 결과가 0이 되는 것을 이용하겠습니다.

$\frac{\partial \ L(\theta)}{\partial\theta} = \frac{\partial\sum_{i=1}^{N} \ln{p(x_{i} \vert \theta)}}{\partial\theta} = 0 \tag{9}$

만약 여기서 추정하고자 하는 확률 분포가 정규 분포를 따른다고 가정하면 풀이는 쉬워 집니다. 이 가정에 따르면 $\operatorname*{argmax}_\theta = {\mu, \Sigma}$ (평균, 공분산) 이고 정규 분포에 대한 Maximum Likelihood를 하면 그 결과는 흔히 아는 평균과 분산을 구한 것이 됩니다. (풀이는 글 아래에서 진행하겠습니다.)
정리하면 정규 분포를 따른다고 가정하면 ML 방법에서 어떤 데이터 $X$ 가 나오도록 하는 가장 가능성 높은 선택지는 평균 입니다. 그래프를 보았을 떄에도 정규 분포의 확률 분포 곡선을 보면 평균에서 가장 높은 확률값을 가지기 때문입니다.

그러면 좀 더 구체적으로 정규 분포를 위한 ML을 추정하는 과정입니다.
여기서 $X$ 가 정규 분포에서 추정되었다고 가정하겠습니다. 수식 유도를 쉽게 하기 위하여 공분산 행렬 $\Sigma$ 는 이미 알고 있다고 가정하겠습니다. 즉, 추정해야 하는 것은 평균 벡터 $\mu$ 뿐입니다. 따라서 아래 식 (10)에 정규 분포 식을 대입하고 정리해 보겠습니다.

$\frac{\partial\sum_{i=1}^{N}ln\ p(x_{i} \vert \theta)}{\partial\theta} \tag{10}$

아래 식에서 $d$ 는 특징 벡터 $x_{i}$ 의 차원 입니다.

$p(x_{i} \vert \theta) = p(x_{i} \vert \mu) = \frac{1}{ (2\pi)^{d/2} \vert \Sigma \vert^{1/2} } \exp{ (-\frac{1}{2}(x_{i} - \mu)^{T} \Sigma^{-1} (x_{i} - \mu)) } \tag{11}$
$\ln{p(x_{i} \vert \mu)} = -\frac{1}{2}(x_{i} - \mu)^{T} \Sigma^{-1}(x_{i} - \mu) -\frac{d}{2}\ln{2\pi} -\frac{1}{2}\ln{\vert \Sigma \vert} \tag{12}$
$L(\mu) = -\frac{1}{2}\sum_{i=1}^{N}(x_{i} - \mu)^{T}\Sigma^{-1}(x_{i} - \mu) -N(\frac{d}{2}ln2\pi -\frac{1}{2}\ln{\vert \Sigma \vert)} \tag{13}$
$\frac{\partial L(\mu)}{\partial \mu} = \sum_{i=1}^{N} \Sigma^{-1}(x_{i} - \mu) \tag{14}$

이제 식 (14) = 0 이 되도록 두고 정리해 보겠습니다.

$\sum_{i=1}^{N} \Sigma^{-1}(x_{i} - \mu) = 0 \tag{15}$
$\sum_{i=1}^{N}x_{i} - N\mu = 0 \tag{16}$
$\hat{\mu} = \frac{1}{N}\sum_{i=1}^{N}x_{i} \tag{17}$

이 식으로 구한 평균 벡터는 최적 매개 변수 값이기 때문에 hat 씌워 표시합니다.

평균, 분산의 ML을 추정하는 자세한 풀이는 다음 링크를 참조해 주시기 바랍니다.
링크 : https://gaussian37.github.io/ml-concept-probability_model/#mle-with-gaussian-1
위 식은 두가지 정보가 제공된 상황에서 구해졌습니다.
- ① 훈련 집합 X 라는 정보
- ② 확률 분포가 정규 분포를 따른다는 정보
이 상황에서 샘플의 특징 벡터를 모두 더하고 그것을 $N$ 으로 나누어준 값, 즉 샘플의 평균 벡터가 바로 찾고자 하는 최적의 매개 변수가 된다는 직관과 동일 합니다.

MAP(Maximum a posterior)에 대한 개념적 설명

앞에서 ML에 대하여 설명할 때에는 $p(\theta)$ 가 균일하다는 가정으로 식을 전개하였습니다.
만약 $p(\theta)$ 가 균일하지 않다는 추가적인 정보 가 주어져서 사용 가능하다면 어떻게 사용할 수 있을까요? 이 경우에는 $p(\theta)$ 를 고려하여 최적화 문제를 풀어야 합니다.
식에서 $p(x_{i} \vert \theta)$ 를 likelihood 라고 하고 $p(\theta)$ 를 사전 확률 이라고 합니다.
이 때, $p(x_{i} \vert \theta)p(\theta)$ 를 사후 확률이라고 합니다.
따라서 이 수식을 풀어 최적의 매개변수를 찾는 과정을 MAP(Maximum a posterior) 라고 합니다.
$\operatorname*{argmax}_\theta \sum \ln{(p(x_{i} | \theta))} + \ln{(p(\theta))} \tag{18}$

위 그림은 ML과 MAP를 비교합니다.
ML에서는 사전확률이 균일하다고 가정합니다. 따라서 likelihood가 최고인 점을 찾으면 그것이 바로 최적해 $\theta$ 가 됩니다.
하지만 MAP 에서는 사전 확률이 균일하지 않습니다. 따라서 사전확률이 최적해에 영향을 미치게 됩니다. 이러한 차이점이 있습니다.

머신 러닝 관련 글 목록

목차

ML(Maximum Likelihood)에 대한 개념적 설명

MAP(Maximum a posterior)에 대한 개념적 설명

ML(Maximum Likelihood)에 대한 개념적 설명

MAP(Maximum a posterior)에 대한 개념적 설명