(베이즈 통계학 기초) 확률의 확률을 사용하여 추정의 폭을 넓힌다.

(베이즈 통계학 기초) 확률의 확률을 사용하여 추정의 폭을 넓힌다.

2019, Mar 03    
어떤 부부의 첫째 아이가 여아 였다고 하였을 때, 그 부부에게서 태어날 둘째 아이가 여아일 확률은 몇일까?


  • 만약 이 문제의 해답을 0.5라고 하였다면 독립 시행의 확률 개념으로 대답하였을 것입니다.
    • 일단 통계적으로만 봐도 남아 : 여아의 비율은 51 : 49로 남아 쪽이 많습니다.
    • 따라서 동전 던지기 처럼 5:5로 바라볼 순 없습니다.
    • 또한 5:5의 비율은 다수의 부부에 관한 통계이지 어느 특정한 부부에게 태어날 아이에 관한 통계는 아닙니다.
    • 각 부부에게는 여아가 태어날, 남아가 태어날 확률이 더 높을 수도 있습니다.


  • 표준 통계학(네이먼-피어슨 통계학)에서는 인류라는 종 전체에 내재된 남녀비와 같은 성향에 대한 설명에는 효력이 있으나 특정 부부에 대한 분석은 어렵습니다.
  • 이런 경우 베이즈 추정을 이용하면 가능합니다. 베이즈 추정이 지닌 느슨한 특성 때문입니다.
    • 느슨함이란 사전확률에 대한 데이터가 없을 때 그 수치를 주관적으로 설정할 수 있다는 것입니다.



확률의 확률을 사전확률로 설정합니다.

  • 먼저 타입의 설정이 핵심입니다. 설정할 타입은 부부에게서 태어날 아이가 여아일 확률입니다.
    • 이 확률을 p라고 표시하겠습니다.
  • 특정 부부에게 태어날 아이가 여아일 확률 p는 0 이상 1 이하의 임의의 값으로 설정하는 것이 무난합니다.
  • p는 \(0 \le p \le 1\)을 만족하는 수들이므로 연속적으로 분포하는 무한개의 수라고 할 수 있습니다.
    • p를 연속분포의 무한개의 수로 설정하여 베이즈 추정하는 방법은 테크닉이 필요하여 추후에 다른 글에서 알아보겠습니다.
  • 이 글에서는 타입 p를 0.6, 0.5, 0.4의 세 값으로 설정 하여 확률의 확률을 알아보겠습니다.
    • 원칙적으로는 \(0 \le p \le 1\)을 만족하는 모든 수를 타입으로 설정해야 합니다.


Drawing

  • 위는 이유 불충분 원리에 따른 사전분포에 해당합니다.
  • p=0.4이면 이 부부로 부터 여아가 태어날 확률이 0.4란 뜻입니다.
  • 이 부부가 어느 타입에 속하는지에 대한 통계적인 데이터가 전혀 없으므로 이유 불충분의 원리를 사용하였습니다.
    • 세 타입에 확률을 각각 1/3 씩 설정합니다.
  • 예를 들어 p=0.4일 사전확률로 설정되어 있는 확률이 1/3이라는 의미입니다. 즉 확률의 확률입니다.
    • 타입의 확률 p의 값 중 어느 것이 진실인가에 대한 가능성을 나타내 주는 수치 입니다.



여아가 태어날 확률을 그대로 조건부 확률로 사용합니다.

Drawing

  • 타입별로 조건부 확률을 설정해야 합니다. 이 때는 타입 그자체가 조건부 확률이 됩니다.
  • 원인이 특정되어 있을 때, 결과의 확률을 구한 것 입니다.
    • 원인 : 여아를 낳을 확률, 남아를 낳을 확률
    • 결과 : 여아가 태어난다, 남아가 태어난다 (관측값)

Drawing

Drawing

  • 여섯 가지의 영역을 나누어서 각 영역에 해당하는 확률을 확인할 수 있습니다.



첫째 아이가 여아였기 때문에, 일어날 가능성이 없는 영역을 제거합니다.

  • 첫째가 여아였기 때문에 첫째가 남아라는 영역은 제거합니다.

Drawing

  • 남아의 영역을 삭제하면 위 도표와 같이 여아의 영역만 남게 됩니다.
  • 정규화를 하여 확률의 합이 1이 되도록 만들어 주겠습니다.
    • 왼쪽 사각형 : 가운데 사각형 : 오른쪽 사각형 = 4 : 5 : 6
    • 따라서 4 + 5 + 6 = 15로 나누어 합이 1이 되도록 수정합니다.
  • 따라서 각 영역의 확률은
    • p = 0.4 의 경우 0.27
    • p = 0.5 의 경우 0.33
    • p = 0.6 의 경우 0.4

Drawing



베이즈 추정의 프로세스

  • 이때 까지 베이즈 추정한 방식은 위와 같이 정리될 수 있습니다.

Drawing

  • 여아가 태어나기 전에는 세 가지 타입의 가능성이 모두 대등하여 0.33으로 생각하였습니다.
  • 여아가 태어났다는 정보를 얻은 후에는 조금 더 여자아이를 낳기 쉬운 부부다라고 추정 결과가 달라집니다.



다음에 여아가 태어날 확률을 구하려면 기대치를 사용합니다.

  • p = 0.4 인 경우 0.27
  • p = 0.5 인 경우 0.33
  • p = 0.6 인 경우 0.4

이 경우 둘째 아이가 여아일 확률을 구하려면 평균치를 사용합니다.

즉, 0.4 x 0.27 + 0.5 x 0.33 + 0.6 x 0.4 = 0.513 이 기대치가 됩니다.

Drawing

  • 이 부부의 타입을 평균화하면 0.513이고 이 부부로부터 다음 태어날 아이가 여아일 확률로 해설할 수 있습니다.