(베이즈 통계학 기초) 베이즈 추정은 적은 양의 정보로 그럴듯한 결론을 이끌어 낸다.

(베이즈 통계학 기초) 베이즈 추정은 적은 양의 정보로 그럴듯한 결론을 이끌어 낸다.

2019, Mar 03    
  • 출처 : 세상에서 가장 쉬운 베이즈 통계학 입문

  • 앞의 글에서는 네이먼-피어슨 통계학을 통한 가설검정 방법을 살펴보았습니다.
  • 가설검정에서의 리스크는 유의수준이 10% 라면 10%의 확률로 잘못된 판단을 내리게 됨을 각오해야 하는 것이었습니다.
  • 앞의 글에서 다루었던 상자 문제를 보았을 때, 유의 수준을 5%, 1% 수준으로 내린다면 가설검정으로 문제를 푸는 것은 불가능 하다는 것도 살펴보았습니다.
  • 하지만, 만약 베이즈 추정을 사용하면 유의수준과 같은 개념은 필요하지 않습니다.


상자 A와 B를 타입으로 설정합니다.

눈앞에 상자가 하나 있는데, 상자 A나 B중 하나임을 알고 있지만 겉으로 봐서는 어느 쪽인지 알 수가 없습니다.
상자 A에는 흰 공 9개와 검은 공 1개가 있고 상자 B에는 흰공 2개와 검은공 8개가 있습니다.
이 때 상자에서 공을 한 개 꺼냈더니 검은공이었습니다. 어떤 상자에서 고른 것 일까요?


  • 이전 글에서 다루어 왔던 대로 타입을 설정 합니다.
  • 상자가 A인지 B인지 선택하는 것이므로 타입은 A와 B가 됩니다.
  • 다음으로 사전확률을 설정해야 합니다.
    • 사전 확률에 대한 정보가 전혀 없으므로 이유 불충분의 원리를 사용해야 합니다.
    • 즉, A일 사전확률과 B일 사전확률을 모두 0.5씩 설정합니다.

Drawing

  • 다음으로 각 타입에 의존하여 검은공과 흰공이 나올 조건부 확률을 설정합니다.
  • A 상자의 경우 검은공일 조건부 확률은 0.1, 흰공일 조건부 확률은 0.9가 됩니다.
  • B 상자의 경우 검은공일 조건부 확률은 0.8, 흰공일 조건부 확률은 0.2가 됩니다.

Drawing

  • 따라서 위와 같이 조건부 확률을 설정할 수 있습니다.

Drawing

  • 4 가지 가능 영역의 확률을 위와 같이 계산할 수 있습니다.

Drawing

  • 관측된 공의 색이 검정이므로 흰 공이 속한 영역을 제거합니다.
  • 확률의 합이 1이 되도록 정규화를 합니다.
    • A상자일 사후확률 : B상자일 사후확률 = 0.5 x 0.1 : 0.5 x 0.8
    • 따라서 \(\frac{1}{9} : \frac{8}{9} = 0.11 : 0.89\)
    • 따라서 B상자에서 검은공을 뽑았다고 판정할 확률이 8배가 큽니다.



베이즈 추정은 어떤 환경에서도 일단 추정을 내립니다.

  • 베이즈 추정에는 표준통계학의 가설검정과 같은 유의수준의 설정이 없으므로 어떤 환경에서든 일단 추정이 가능합니다.
  • 표준통계학과의 차이점은 A와 B 어느 한쪽으로 판정을 내리는 것이 아니라 양쪽의 가능성을 남겨둔 채 가능성의 비율 관계를 제시하는 것이 전부 입니다.


베이즈 추정과 네이만-피어슨 식 추정에서 서로 다른 리스크의 의미

  • 네이먼-피어슨(표준통계학) 식 추정에서는 유의수준이라는 것이 리스크의 지표가 되었습니다.
    • 유의 수준을 5%로 설정하면 5%의 확률로 잘못된 결론을 내린다는 뜻입니다.
  • 베이즈 추정에 따른 결론에 대한 리스크 평가는 사후확률 그 자체가 됩니다.
    • 앞의 예에서 상자 A : 상자 B = 0.11 : 0.89로 만약 상자 B에서 검은 공이 나왔다고 판단하면 리스크는 상자 A의 확률인 0.11이 됩니다.
  • 가설검정의 리스크는 결론의 외측에 있으며 베이즈 추정의 리스크는 결론의 사후확률 그 자체에 있습니다.


  • 베이즈 추정이 유의수준을 사용하지 않는 이유는 사전확률을 설정하기 때문입니다.
    • 사전확률은 기본적으로 주관적 입니다.
    • 사전확률에서 추정되는 사후확률은 따라서 항상 자의성이 있으며 그 결정에 대한 책임은 결정자에 대한 판단으로 남습니다.

Drawing


  • 정리하면
  • 상자가 A인지 B인지를 타입으로 설정합니다.
  • 이유 불충분의 원리에 따라 A의 사전확률을 0.5, B의 사전확률을 0.5로 설정합니다.
  • A에 든 검은 공의 조건부 확률을 0.1, 흰 공의 조건부 확률을 0.9로 설정하고 B에든 검은공의 조건부 확률은 0.8, 흰 공의 조건부 확률은 0.2로 설정합니다.
  • 관측된 공이 검은 공이라는 사실에 따라 흰 공일 가능성을 제거합니다.
  • 검은 공의 확률에 대해 정규화를 해줍니다.
  • A일 사후확률과 B일 사후확률이 구해지고, 대체로 B일 것이라는 결론을 내립니다.