Loading [MathJax]/jax/output/CommonHTML/jax.js
기초 베이지안 이론 (Basic Bayesian Theory)

기초 베이지안 이론 (Basic Bayesian Theory)

2020, Aug 09    


머신 러닝 관련 글 목록



목차



  • 이번 글에서는 동전 던지기 실행을 통해 베이지안 이론을 접근을 하려고 합니다. 동전 던지기 실험을 알아보기 위하여 먼저 베르누이 분포에 대하여 알아보도록 하겠습니다.


베르누이 분포


  • 베르누이 분포란 확률 이론 및 통계학에서 자주 사용되는 분포로서 동전 전지기의 앞면 또는 뒷면, 입시의 합격과 불합격, 사업의 성공과 실패, 수술 후 환자의 치유 여부 등, 어던 실험이 두 가지 가능한 결과만을 가질 경우 이를 표현하는 확률 모형입니다.


  • Bernoulli Random Variable : X{0,1}
  • P(X=1)=p
  • f(x)=px(1p)1x


Drawing



베르누이 분포와 MLE


Drawing


  • 동전 던지기 실험을 하였을 때, 위 그림처럼 앞/뒤/뒤/뒤/뒤 와 같은 결과를 얻었다고 가정하겠습니다.
  • 관측된 데이터로부터, 같은 동전을 던질 때, 앞면이 나타날 확률은 Likelihood를 이용하여 계산합니다.


  • P(x|θ)=5i=1P(xi|θ)=θ(1θ)(1θ)(1θ)(1θ)
  • P(x|θ):Likelihood
  • θ:Parameter


  • 식 (4)를 likelihood 즉, θ 에 대한 함수로 보며 관측된 데이터를 가장 잘 설명하는 파라미터 θ 를 찾기 위한 MLE(Maximum Likelihood Estimation)을 수행하면 다음과 같습니다. MLE`는 데이터는 고정이고 파라미터만 변경하여 최적의 파라미터를 찾는 문제입니다.
  • 아래 식은 MLE를 통해 log-likelihood를 최대화화는 θ 를 찾는 방법입니다.


  • θML=argmaxθl(θ)
  • l(θ)θ=θ5i=1logP(xi]vertθ)
  • =θlogθ(1θ)(1θ)(1θ)(1θ)
  • =θ(logθ+4log(1θ))
  • =1θ41θ


  • 미분한 결과를 정리한 식 (9)가 0이되는 변곡점에서 식의 최댓값을 가지는 θ를 찾을 수 있습니다.


  • 1θ41θ=0


  • 식 (10)을 풀면 다음과 같습니다.


Drawing


  • 즉, 5번 동전을 던졌을 때, 1번 앞면이 나왔으니 앞면이 나올 확률은 1/5일 것이다와 같은 직관적인 생각과 같은 결과가 도출되었습니다.
  • 그런데 일반적으로 동전 던지기는 1/2의 확률을 가진다고 알고 있습니다. 5번의 실험을 통해서 관측한 결과와 흔히 알고 있는 동전 던지기를 한 결과의 확률 차이가 크게 나는데 왜 그럴까요?


MLE의 가정과 문제점


  • MLEasymptotically unbiased 즉, 점진적으로 bias가 없어지는 성질을 가집니다. 여기서 점진적이라는 말의 뜻은 데이터가 점점 더 관측이 된다는 뜻을 말합니다.
  • 만약 무한대의 관측 데이터가 주어질 경우 MLE로 예측한 파라미터는 실제 파라미터로 수렴하게 됩니다.
  • 하지만 현실적으로 무한대의 관측 데이터를 찾기 어렵고, 제한된 수량의 관측 데이터만 주어진다면 bias한 결과를 얻게 됩니다.


  • 앞에서 다룬 동전 던지기 예제에서 과연 5번의 시도만으로 앞면의 확률이 1/5이라고 단정지을 수 있을까요?
  • 이 예제에 따르면 MLE초기 관측에 쉽게 overfitting하게 됩니다. 극단적으로 동전 던지기를 1번 해서 앞면이 나오면 앞면의 확률이 1이라고 단정지을 수 있을까요?
  • 이러한 문제를 개선하기 위하여 베이지안 방식으로 접근할 수 있습니다.


베이지안 이론


  • 앞에서 살펴본 MLE에서는 관측된 데이터에 한정하여 Maximum Likelihood를 추정하므로 극단적으로 동전을 던졌을 때, 계속 앞면이 나오면 앞면이 나올 확률을 1로 단정지어 버리는 문제가 발생하였습니다.
  • 하지만 우리는 일반적인 동전 던지기의 확률은 0.5인 것을 알고 있습니다. 이러한 사전 정보를 사용하여 확률을 구하고자 하는 것이 베이지안 접근 방식입니다.


Drawing


  • 즉, 경험적으로 동전 던지기에서 앞/뒷면이 나올 확률이 반반인 동전이 많은 것을 알고 있고 파라미터 θ 에 대해 우리의 경험을 바탕으로한 확률적인 가정 θ=1/2 을 더하는 것이 베이지안 접근 방식입니다.
  • 베이지안 접근 방식을 사용하면 궁극적으로 알고 싶은 사후 정보MLE에서 구하는 Likelihood와 사전 정보인 Prior를 통해 구할 수 있으므로 단순히 Likelihood만을 이용하였을 때, 발생하는 overfitting문제를 개선할 수 있습니다.


Conjugate Prior


  • 동전 던지기 문제에 베이지안 접근 방식을 도입하려면, Likelihood, Prior, Posterior를 정의해야 합니다.
  • 결론적으로 살펴보면 LikelihoodBernoulli distribution이 되고, PriorPosteriorBeta distribution이 됩니다.


  • 만약 Bernoulli distribution을 Likelihood로 사용하였을 때, 베이지안 식에서 PriorPosterior에 사용될 수 있는 분포는 Beta distribution가 됩니다. 식은 다음과 같습니다.


  • P(θ|α,β)=θα1(1θ)β1B(α,β)


Drawing



  • 여기서 LikelihoodBernoulli distribution일 때, PriorPosteriorBeta distribution이라고 설명하였습니다.
  • 즉, PriorPosteriorBeta distribution이라는 같은 분포를 가진다는 뜻입니다. 이와 같이 PriorPosterior가 같은 형태의 분포를 가지는 경우는 특수한 형태이며 이와 같은 쌍을 가질 때, Conjugate Prior라고 부릅니다.
  • 이와 같은 Conjugate Prior 관계를 가지는 PriorPosterior를 사용하여 식을 전개할 때, 직관적이며 편리한점이 생깁니다.
  • 예를 들면 식을 해설할 때, PriorLikelihood를 이용하여 확률값을 업데이트하면 Posterior가 되는데, 그 확률 분포의 형태는 같고 파라미터값만 변경되므로 관측값에 따라 확률 분포가 업데이트 되는 것 처럼 해석할 수 있습니다.


  • 정리하면, Conjugate prior는 베이즈 룰에 의해 식을 유도하였을 떄, PosteriorPrior와 같은 distribution 형태를 갖게 하는 prior입니다.


  • Bayes Theorem : P(θ|x)=P(x|θ)P(θ)P(x)
  • Bernoulli Likelihood : P(x|θ)=θx(1θ)1x
  • Beta Prior : P(θ|α,β)=θα1(1θ)β1B(α,β)
  • Posterior : P(θ|x)=θx(1θ)1xθα1(1θ)β1P(x)B(α,β)θα+x1(1θ)β+(1x)1=Beta(ˆα,ˆβ)


  • 식 (15)를 보면 결국 PriorPosterior는 같은 Beta distribution이 되었고 Posterior는 파라미터가 업데이트된 상태가 됩니다.


Drawing


  • 흔히 베이지안 룰에서 많이 사용하느 Conjugate prior는 위 식과 같습니다.
  • Normal distribution, Binomial distribution, Poisson distribution, Multinomial distribution은 많이 들어본 확률 분포 입니다. 이와 같은 분포는 Prior와 Posterior의 형태가 같은 대표적인 케이습니다.
  • 전통적인 베이지안에서는 이와 같은 Conjugate 관계를 중요시하며 이 관계를 통해 recursive하게 Prior와 Posterior를 업데이트 합니다.
  • 지금까지 살펴본 케이스는 Bernoulli distribution이었고 이 분포는 Binomial distribution의 형태로 확장될 수 있기 때문에 BinomialBeta가 한 쌍을 으루고 있습니다.


  • 위 표에서 Bernoulli distribution 대신 표현된 Binomial distribution에 대하여 간략하게 알아보겠습니다. Bernoulli distribution는 어떤 실험이 두 가지 가능한 결과만을 가질 경우 이를 표현하는 확률 모형이었습니다.
  • 만약 Random Variable Xn번의 연속적인 베르누이 시행이라면 어떻게 표현될 수 있을까요?


  • X{0,n}
  • f(x)=P(X=x)=(nx)px(1p)nx=n!x!(nx)!px(1p)nx


  • 식 (11)과 같이 연속적인 베르누이 분포를 가지는 확률 분포를 Binomial distribution (이항 분포) 라고 합니다.
  • 베르누이 분포와의 차이는 여러번 시행하는 횟수의 차이이므로 Binomial distribution의 최적의 파라미터를 구하는 문제 또한 Likelihood를 구하는 문제가 됩니다. 즉, Likelihood로 사용할 수 있습니다.


베이즈 갱신 (Bayes Update)


Drawing


  • 지금까지 살펴본 개념을 이용하여 Bayes Update를 진행해 보도록 하겠습니다.
  • 가장 오른쪽 Prior 그래프는 베타 분포의 예시를 나타냅니다. 초기 Prior는 사전에 가지고 있는 데이터나 주관적인 믿음의 분포를 나타내며 Likelihood를 통해 그 믿음이 update되는 결과가 Posterior가 됩니다.
  • 동전 던지기를 할 때, 일반적으로 가지고 있는 Prior는 동전이 앞면이 나올 확률이 1/2 이므로 theta=1/2 로 정의 됩니다.
  • 앞에서 살펴본 바와 같이 실제 5번 동전을 던져서 1번 앞면이 나왔다고 하였을 때, MLE를 구하면 theta=1/5 가 됩니다.
  • 즉, Prior : theta=1/2MLE : θ=1/5 에 의해 업데이트되어 MAP \1/5<θ<1/2 가 됩니다. MAP (Maximum a Posterior)Posterior가 최대인 지점을 의미합니다. MAP의 수식적인 의미를 살펴보면 다음과 같습니다.


  • ˆθMAP=argmaxθP(θ|X)
  • =argmaxθP(X|θ)P(θ)P(X)
  • =argmaxθlogP(X|θ)+logP(θ)logP(X)
  • =argmaxθlogP(X|θ)+logP(θ)logP(X)


  • 식 (20) 에서 마지막 항은 θ 가 없으므로 argmax 과정과 무관하여 소거되며 regularization의 의미를 가집니다.
  • 정리하면 Posteriorlikelihood를 통해서 Data를 관측하고 정보가 업데이트된 Prior 이며 이를 식으로 나타내면 다음과 같습니다.


  • P(z)
  • P(z|x1)=P(x1)
  • P(z|x1,x2)=P(x2|z,x1)P(z|x1)P(x2|x1)=P(x2|z)P(z|x1)P(x2)
  • P(z|x1,x2,x3)=P(x3|z)P(z|x1,x2)P(x3)
  • P(z|X)


  • 위 식과 같이 step이 진행될수록 t1 번째의 Posteriort 번째의 Prior가 되며 데이터가 많이 쌓일 수록 Posterior는 정확해 집니다.


  • 이번 글에서 알아본 내용을 정리하면 다음과 같습니다.
  • 관측된 데이터를 가장 잘 설명하는 파라미터 θ 즉, 분포를 찾기 위하여 MLE를 사용하였습니다.
  • 하지만 제한된 데이터에서는 MLE로는 overfitting이 발생하는 것을 확인하였고 이를 개선하기 위하여 베이지안 룰을 사용하였습니다. 베이즈를 이용하면 prior를 적용할 수 있고 제한된 데이터에서 overfitting을 개선할 수 있으며 데이터가 많아질수록 MLE는 수렴하게됩니다.
  • 베이지안 접근법은 파라미터에 확률 분포를 추가적으로 가정한 후 Posterior를 통해서 Optimal Parameter θ 를 추정하는 MAP 과정을 의미합니다.
  • Posteriorlikelihood를 통해서 데이터를 관측하고 정보가 업데이트된 Prior를 의미하며 이 Prior는 재귀적으로 계속 사용이 되어집니다.


머신 러닝 관련 글 목록