가우시안 (Gaussian) 관련 내용 정리

공학에서 가우시안과 관련된 내용은 너무나 중요한 개념입니다. 공부하면서 종종 쓰였단 가우시안과 관련된 개념들을 이 글에 정리하고자 하며 학습 범위가 깊어지는 글은 별도 링크를 달아두도록 하겠습니다.

가우스 함수
가우스 적분 증명
가우시안 분포 공식 유도
가우시안 PDF의 곱과 Convoltuion 연산
covariance와 zero-mean gaussian의 covariance
가우시안 혼합 모델(Gaussian Mixture Model)과 EM 알고리즘
가우시안 프로세스
가우시안 분포를 이용한 Anomaly Detection 응용

가우스 함수

가우스 함수 식은 다음과 같습니다.

\[f(x) = a \cdot exp(-\frac{(x - b)^{2}}{c^{2}})\]

여기서 $a (> 0), b, c$는 실수입니다.
이 함수는 좌우 대칭의 종(bell) 모양의 곡선을 가지고 +/- 극한값을 입력으로 받으면 급격히 함수 값이 감소하게 됩니다.
매개변수 $a$의 역할은 종 모양 곡선의 꼭대기 높이가 되고 $b$는 꼭대기 중심의 위치가 됩니다. $c$는 종 모양의 너비를 결정합니다.
가우스 함수의 의미는 가우스 오차 함수의 미분값(도함수)이고 가우시안 분포의 밀도 함수가 됩니다.

가우스 적분 증명

위키피디아에 따른 가우스 적분(Gaussian integral)의 정의는 가우스 함수에 대한 실수 전체 범위의 적분으로 식은 다음과 같습니다.

\[\int_{-\infty}^{\infty} e^{-x^{2}} dx = \sqrt{\pi}\]

가우스 적분의 증명을 이용하면 가우시안 분포 공식의 유도에도 사용할 수 있기 때문에, 가우스 적분의 증명을 어떻게 하는 지 알아보도록 하겠습니다.

\[I = \int_{-\infty}^{\infty} e^{-x^{2}} dx\]
\[I^{2} = \Biggl( \int_{-\infty}^{\infty} e^{-x^{2}} dx \Biggr)^{2} = \int_{-\infty}^{\infty} e^{-x^{2}} dx \int_{-\infty}^{\infty} e^{-y^{2}} dy\]

위 식에서 $x$ 변수는 소위 말하는 더미 변수이므로 한 개의 $x$를 $y$ 로 변경하였습니다.

\[\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} e^{-(x^{2} + y^{2})} dx dy\]

식을 정리하면 위와 같이 두 변수 $x, y$에 대하여 정리할 수 있습니다.
이 식을 풀기 위해 극 좌표계 개념을 가져오도록 하겠습니다. 극 좌표계는 $(r, \theta)$로 좌표 평면의 좌표를 표현하는 방법입니다. 여기서 $\theta$의 단위는 radian입니다. 아래 그림을 참조하시기 바랍니다.

$Drawing$

그러면 $x, y$ 축을 이용하여 $(x, y)$로 나타내는 직교 좌표계와 $(r, \theta)$로 나타내는 극 좌표계의 관계를 살펴보면 다음과 같습니다.

$Drawing$

위 식에 따라서 $x^{2} + y^{2} = r^{2}$이 성립합니다. 물론 원의 방정식에 의한 관계라고 이해하셔도 무방합니다.

\[x^{2} + y^{2} = (r \cos{(\theta)})^{2} + (r \sin{(\theta)})^{2} = r^{2}(\cos^{2}{(\theta)} + \sin^{2}{(\theta)}) = r^{2}\]

이렇게 직교 좌표계를 극 좌표계로 바꾸는 이유는 적분을 하기 위함입니다. 즉, 적분할 때, $dx, dy$를 $dr, d\theta$로 바꾸려고 합니다.
그러면 적분의 구간은 $x : (-\infty, \infty), \ y : (-\infty, \infty) \to r : (0, \infty), \ \theta : (0, 2\pi)$로 변경됩니다.

$Drawing$

즉, 위 그림과 같이 기존의 직교 좌표계에서는 $x, y$의 값이 음의 무한대에서 양의 무한대의 영역의 범위를 가지게 되므로 좌표계 전체 영역을 적분 할 수 있는 반면 극 좌표계에서는 원점에서 시작하는 선 $r$의 길이가 0에서 양의 무한대의 영역의 범위를 가지고 그 선의 이동 영역이 0에서 $2\pi$ 만큼의 범위를 가지게 되므로 똑같이 좌표계 전체 영역을 적분할 수 있게 됩니다.
따라서 적분하는 영역은 같으나 접근 방식이 다르다고 이해하시면 됩니다.

그러면 $dx \cdot dy$를 $dr \cdot d\theta$로 변환하면 그 변환 term은 얼만큼 곱해주어야 할까요? 아래 그림을 통하여 직교 좌표계에서의 미소 면적과 극 좌표계에서의 미소 면적의 차이를 알아보겠습니다.

$Drawing$

먼저 직교 좌표계에서는 $x, y$의 변화량 $dx, dy$에 의해 증가한 미소 면적은 직사각형으로 $dx \cdot dy$ 입니다.
반면 극 좌표계에서 $r, \theta$의 변화량 $dr, d\theta$에 의해 증가한 영역은 $r \cdot dr \cdot d\theta$ 입니다.
(먼저 추상적으로 설명해 보면) 다음과 같은 적분의 성질을 보면 적분 구간을 근사(approximation)하여 면적을 구하는 것을 볼 수 있습니다.

$Drawing$

위 그림의 왼쪽 그림을 보면 곡선은 함수 $r(\theta)$를 따르고 $\theta$의 범위는 $[a, b]$입니다. 이 때, 면적 $R$을 한번에 구하기 어렵기 때문에 다음 식을 통해서 근사화 하여 구할 수 있습니다.

\[\frac{1}{2} \int_{a}^{b} r(\theta)^{2} d\theta\]

위 식을 유도해 보겠습니다. 오른쪽 그림과 같이 구간을 $n$개로 나누고 각 구간을 $i = 1, 2, \cdots, n$에서 $\theta_{i}$이 각 구간의 중점이라고 하고 극에 중심을 두는 부채꼴을 만듭니다.
이 때, 각 호의 반지름은 $r(\theta_{i})$, 중심각은 $\Delta \theta_{i}$이면 호의 길이는 $r(\theta_{i})\Delta \theta$가 되고 넓이는 $\frac{1}{2}r(\theta_{i})^{2} \Delta \theta$가 됩니다. 따라서 총 넓이는 리만 합에 따라서 다음과 같이 정리됩니다.

\[\sum_{i=1}^{n} \frac{1}{2} r(\theta_{i})^{2} \Delta \theta\]

리만 합의 정의에 따라 구간의 갯수 $n$이 증가할수록 그 극한값은 넓이 $R$에 가까워집니다.
이 성질을 이용하면 앞선 그림의 넓이 증가량을 $\color{blue}{r \cdot d\theta} \cdot \color{red}{dr}$의 사각형 넓이로 근사하여 생각할 수 있습니다. 리만 합에 의해 $r, \theta$의 값이 작은 단위로 나누어져서 합쳐진다면 실제 넓이에 가까워질 것이기 때문입니다.
즉, discrete 한 케이스의 $\sum$을 이용한 식의 구간을 무수히 많이 쪼개어서 합하게 되면 $\int$ 형태의 합이 됩니다.
여기까지가 추상적이고 직관적인 설명이긴 합니다. 좀 더 구체적으로 알고 싶으면 아래 내용을 읽어보시면 도움이 됩니다. (넘어가셔도 됩니다.)

직교 좌표계에서는 미소 면적의 넓이를 $dA = dx \cdot dy$로 표시하였습니다.
그리고 $x, y$는 다음과 같이 $r, \theta$로 나타내어 졌습니다.

\[x = r \cos{(\theta)}\]
\[y = r \sin{(\theta)}\]

여기서 $x, y$ 에 대하여 각각 $r, \theta$에의 변화량을 확인하기 위해 자코비안을 구해보면 다음과 같습니다.
아래 자코비안의 1행, 2행은 각각 $x, y,$가 $r, \theta$ 각각의 변화에 따라 얼만큼 변화를 가지는 지 나타냅니다.

\[\frac{\partial(x, y)}{\partial(r, \theta)} = \begin{bmatrix} \partial x / \partial r & \partial x / \partial \theta \\ \partial y / \partial r & \partial y / \partial \theta \end{bmatrix} = \begin{bmatrix} \cos{(\theta)} & -r\sin{(\theta)} \\ \sin{(\theta)} & r\cos{(\theta)} \end{bmatrix}\]
변화의 scale을 구할 때, determinant를 사용할 수 있습니다. 지금과 같은 2차원에서 변화의 총량은 변화하였을 때의 넓이의 scale이 됩니다. 그러면 위에서 구한 자코비안의 determinant를 $J$라고 나타내면 다음과 같습니다.

\[J = \begin{vmatrix} \cos{(\theta)} & -r\sin{(\theta)} \\ \sin{(\theta)} & r\cos{(\theta)} \end{vmatrix} = r \cos^{2}{(\theta)} + r \sin^{2}{(\theta)} = r\]

즉, $r, \theta$가 $dr, d\theta$ 만큼 변할 때, 변화하는 양 scale은 $J = r$ 이 됩니다.
따라서 직교 좌표계의 변화량과 극 좌표계의 변화량은 다음 관계를 가집니다.

\[dA = dx \cdot dy = J \cdot dr \cdot d\theta = r \cdot dr \cdot d\theta\]

$Drawing$

다시 확인해 보면 극 좌표계에서 $r, \theta$의 변화에 따른 변화량은 직관적인 설명과 자코비안을 통한 설명 모두 $r \cdot dr \cdot d\theta$ 임을 확인할 수 있습니다.

$Drawing$

변화량의 scale은 $r$ 입니다. 따라서 호의 반지름의 길이인 $r$이 커질수록 미소 면적의 크기가 커짐을 확인할 수 있습니다.
지금 까지 확인한 내용인 직교 좌표계에서 극 좌표계로 변환을 통해 적분을 마무리 해보겠습니다.

\[\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} e^{-(x^{2} + y^{2})} \cdot dx \cdot dy = \int_{0}^{2\pi}\int_{0}^{\infty} e^{-r^{2}} \cdot r \cdot dr \cdot d\theta\]

이제 식이 깔끔하게 정리되었으니 단순 치환 적분을 통하여 문제를 풀어보겠습니다.

\[-r^{2} = u\]
\[-2r dr = du\]
\[r dr = -\frac{1}{2} du\]
\[\begin{split} \int_{0}^{2\pi}\int_{0}^{\infty} e^{-r^{2}} \cdot r \cdot dr \cdot d\theta &= \int_{0}^{2\pi}\int_{0}^{-\infty} e^{u} (-\frac{1}{2})du \cdot d\theta &= -\frac{1}{2} \int_{0}^{2\pi} [e^{u}]_{0}^{-\infty} d\theta &= \frac{1}{2} \int_{0}^{2\pi} d\theta = \pi \end{split}\]
\[I^{2} = \pi = \Biggl( \int_{-\infty}^{\infty} e^{-x^{2}} dx \Biggr)^{2}\]
\[\therefore \quad \int_{-\infty}^{\infty} e^{-x^{2}} dx = \sqrt{\pi}\]

가우시안 분포 공식 유도

참조 : https://www.alternatievewiskunde.nl/QED/normal.pdf
자료 : https://drive.google.com/file/d/1n_PeSlIzJRsbHmfUlGHSBuNh1AdDWx6e/view?usp=sharing
참조 : https://angeloyeo.github.io/2020/09/14/normal_distribution_derivation.html

가우시안 분포는 정규 분포라는 이름으로 중고등학교 때 부터 이미 많이 사용되어 왔지만 그 공식의 유도는 많은 분들이 다루어 보지 못하였을 것으로 생각됩니다.
이번 글에서는 가우시안 분포 공식을 유도해보도록 하겠습니다. 이 식의 유도는 위 2개의 글을 참조하여 작성하였습니다.
먼저 바로 앞에서 다룬 가우스 적분 증명 내용은 먼저 확인해 주시기 바랍니다.

먼저 가우시안 분포의 형태를 살펴보면 다음과 같습니다.

\[f(x) = \frac{1}{\sigma \sqrt{2\pi}} \exp{\biggl( -\frac{(x - \mu)^{2}}{2\sigma^{2}} \biggr) }\]

가우시안 분포를 유도하기 위하여 3가지 부분으로 나누어서 차례대로 유도해보겠습니다.

\[f(x) = \color{blue}{\frac{1}{\sigma \sqrt{2\pi}}} \color{red}{\exp{\biggl(-\color{green}{\frac{(x - \mu)^{2}}{2\sigma^{2}}} \biggr) }}\]

① $\color{red}{e^{-x^{2}}}$ 의 꼴을 유도해 보겠습니다.
② $\color{blue}{\frac{1}{\sigma \sqrt{2\pi}}}$ 의 꼴을 유도해 보겠습니다.
③ $\color{green}{\frac{(x-\mu)^{2}}{2\sigma^{2}}}$ 의 꼴을 유도해 보겠습니다.

Determining the Shape of the Distribution

그러면 먼저 가우시안 분포 $f(x)$ 가 $e^{-x^{2}}$ 형태의 꼴을 따르는 ① 식을 살펴보겠습니다.
이 식의 전개를 살펴보기 위하여 직교좌표계와 극좌표계의 관계를 이용해야하기 때문에 다음과 같은 가정을 사용합니다.

$Drawing$

ⓐ 원점으로 같은 거리에 있는 점은 확률 값은 모두 같으므로 확률 밀도 함수는 회전 각도에 독립적입니다.
ⓑ 사각형의 크기가 같을 때, 원점으로부터 사각형까지의 거리가 가까울수록 그 사각형의 확률밀도는 높습니다.
ⓒ 사각형까지의 거리가 같을 떄에는 사각형의 넓이가 넓을 수록 확률밀도가 높습니다.

위 그림을 살펴보면 사각형 A, B, C는 크기는 같지만 원점을 중심으로 거리가 다르기 때문에 $A \gt B \gt C$ 크기 순으로 확률 값을 가집니다.
반면 D, E, F는 원점으로 부터 사각형의 거리는 같지만 사각형의 크기가 차이가 나므로 $F \gt E \gt D$ 크기 순으로 확률 값을 가집니다.
위 조건을 유심히 살펴보면 원점이 가장 나타날 확률이 높고 원점에서 멀어질수록 확률이 낮아지는 정규 분포 형태를 가짐을 알 수 있습니다. 즉, 정규 분포와 유사한 조건을 전제 조건으로 둔 것을 알 수 있습니다.

$Drawing$

앞의 조건들을 전제 조건으로 위 그림의 Figure 2의 음영 처리된 면적이 선택될 확률을 살펴보겠습니다.
먼저 연속 확률 밀도 함수에서의 기댓값의 정의 $\int x f(x) dx$ 에 따라 다음과 같이 음영 부분의 확률 밀도 함수를 표현하도록 하겠습니다.

\[p(x) \Delta x = \int_{x}^{x + \Delta x} x f_x(x) dx\]
\[p(y) \Delta y = \int_{y}^{y + \Delta y} y f_y(x) dy\]

또한 앞서 언급한 전제 조건 ⓐ, ⓑ, ⓒ에 따라서 원점을 기준으로 normal probability density function의 성질을 가짐을 알 수 있습니다.
따라서 음영 지역을 선택할 확률은 $p(x) \Delta x \cdot p(y) \Delta y$ 가 됩니다.

또한 ⓐ 조건에 따라 어떤 영역이라도 회전 각도에 독립적이므로 $r, \theta$ 를 이용하여 극 좌표계로 확률값을 나타내면 직교좌표계 결과를 참조하여 $g(r) \Delta x \Delta y$ 로 나타낼 수 있습니다.
같은 음영 면적이 선택될 확률에 대하여 직교 좌표계 상에서의 확률과 극 좌표계 상에서의 확률은 같아야 하므로 다음과 같이 식을 적을 수 있습니다.

\[p(x) \Delta x \cdot p(y) \Delta y = g(r) \Delta x \Delta y\]
\[g(r) = p(x) p(y)\]

여기서 $g(r)$ 은 각의 변화에 대하여 독립적이므로 각 $\theta$ 에 대하여 미분을 하면 변화량이 없으므로 0이 되어야 합니다. 따라서 위 식을 $\theta$ 에 미분하면 다음과 같습니다.
\[\frac{d p(x)}{d\theta}p(y) + \frac{d p(y)}{d\theta}p(x) = \frac{g(r)}{d\theta} = 0\]
\[\Rightarrow \frac{d p(x)}{dx}\frac{dx}{d\theta}p(y) + \frac{d p(y)}{dy}\frac{dy}{d\theta}p(x) = 0\]
\[\Rightarrow p(x)\frac{d p(y)}{dy}\frac{dy}{d\theta} + p(y)\frac{d p(x)}{dx}\frac{dx}{d\theta} = 0\]
\[\Rightarrow p(x)p'(y)\frac{dy}{d\theta} + p(y)p'(x)\frac{dx}{d\theta} = 0\]

극 좌표계에서 $x = r \cos{(\theta)}, y = r\sin{(\theta)}$ 이므로 $x, y$ 를 $\theta$ 에 미분하면 다음과 같습니다.

\[\frac{dx}{d\theta} = -r\sin(\theta)\]
\[\frac{dy}{d\theta} = r\cos(\theta)\]

이 값을 이용하여 식을 다시 전개하면 다음과 같습니다.

\[p(x)p'(y)\frac{dy}{d\theta} + p(y)p'(x)\frac{dx}{d\theta} = 0\]
\[\Rightarrow p(x)p'(y)(r\cos(\theta)) + p(y)p'(x)(-r\sin(\theta)) = 0\]

여기서 $r\sin(\theta)=y$ 과 $r\cos(\theta)=x$ 을 이용하면 다음과 같이 식을 정리할 수 있습니다.

\[p(x)p'(y)x - p(y)p'(x)y = 0\]
\[p(x)p'(y)x = p(y)p'(x)y\]
\[\frac{p'(x)}{x p(x)} = \frac{p'(y)}{yp(y)} \ \ \ \ \ \cdots \text{(solved by separating variables)}\]

위 미분 방정식은 어떤 $x, y$ 에 대하여 만족해야 하며 $x, y$ 각각은 독립적이어야 합니다. 이 조건을 만족하려면 위 식이 항상 어떤 상수 값이 되어야 합니다.

\[\frac{p'(x)}{x p(x)} = \frac{p'(y)}{yp(y)} = C\]

위 식의 좌변과 우변의 형태가 같기 때문에 좌변인 $\frac{p'(x)}{x p(x)}$ 에 대하여 식을 풀어주면 같은 결과를 얻을 수 있으므로 다음 미분 방정식을 풀어줍니다.

\[\frac{p'(x)}{x p(x)} = C\]
\[\frac{x p(x)}{p'(x)} = C \ \ \ \ \text{C is constant.}\]
\[x = C\frac{p'(x)}{p(x)}\]
\[\text{applying integral } \Rightarrow \frac{1}{2}x^{2} = C \ln{(p(x))} + C'\]

위 식에서 $C'$ 은 적분에 의해 생긴 또 다른 상수입니다. 따라서 합쳐서 적을 수 있습니다.

\[\frac{1}{2}x^{2} - C' = C \ln{(p(x))}\]
\[\frac{1}{2C}x^{2} - \frac{C'}{C} = \ln{(p(x))}\]
\[p(x) = \exp{(\frac{1}{2C}x^{2} - \frac{C'}{C})} = \exp{\frac{1}{2C}x^{2}} \cdot \exp{-\frac{C'}{C}} = \exp{\frac{1}{2}c x^{2}} A\]

마지막 식에서 상수 $1/C$ 는 $c$ 로 다시 표현하였고 $\exp{-\frac{C'}{C}} = A$ 로 표현하였습니다. 따라서 식을 정리하면 다음과 같습니다.

\[p(x) = A e^{\frac{c}{2}x^{2}}\]

이 때, 앞에서 정의한 가정인 ⓑ 사각형의 크기가 같을 때, 원점으로부터 사각형까지의 거리가 가까울수록 그 사각형의 확률밀도는 높습니다. 조건으로 인하여 원점으로부터 거리가 가까울수록 확률이 높도록 식을 만들어야 하기 때문에 $\exp{()}$ 내부의 값은 음수가 되도록 하여 지수승의 값이 0에 가까울수록 큰 값을 가지도록 하고 무한대에 가까워질수록 0에 가까운 값을 가지도록 만듭니다. 따라서 $k > 0$ 인 양의 값을 도입하여 다음과 같이 식을 적을 수 있습니다.

\[p(x) = A e^{-\frac{k}{2}x^{2}}\]

지금까지 살펴본 바로 가우시안 분포에서 첫번째 부분인 ① $\color{red}{e^{-x^{2}}}$ 의 꼴을 유도하였습니다.

\[f(x) = \color{blue}{\frac{1}{\sigma \sqrt{2\pi}}} \color{red}{\exp{\biggl(-\color{green}{\frac{(x - \mu)^{2}}{2\sigma^{2}}} \biggr) }}\]

그 다음으로 앞에서 유도한 식의 A의 값이 어떻게 $\color{blue}{\frac{1}{\sigma \sqrt{2\pi}}}$ 을 만족하는 지 살펴보도록 하겠습니다.

Determining the Coefficient A

앞에서 정의한 $p(x) = A e^{-\frac{k}{2}x^{2}}$ 확률 분포 또한 확률이기 때문에 곡선 아래의 전체 면적은 전체 확률값인 1이 되어야 합니다.
따라서 $A$ 값을 적당하게 조정하여 면적의 값이 1이 되도록 만들어 $A$ 의 값을 정해보도록 하겠습니다.

\[\int_{-\infty}^{\infty} A e^{-\frac{k}{2}x^{2}} dx = 1\]
\[\int_{-\infty}^{\infty} e^{-\frac{k}{2}x^{2}} dx = \frac{1}{A}\]
\[\Rightarrow \biggl( \int_{-\infty}^{\infty} e^{-\frac{k}{2}x^{2}} dx \biggr)\biggl( \int_{-\infty}^{\infty} e^{-\frac{k}{2}y^{2}} dy \biggr) = \frac{1}{A^{2}}\]

위 식에서 $x, y$ 각각은 독립적인 dummy 변수이므로 다음과 같이 적을 수 있습니다.

\[\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-\frac{k}{2}(x^{2} + y^{2})} dy dx = \frac{1}{A^{2}}\]

위 식을 직교좌표계에서 극좌표계로 바꾸어서 쓰면 다음과 같이 바꿔 적을 수 있습니다.

\[\int_{0}^{\infty} \int_{0}^{\infty} e^{-\frac{k}{2}(x^{2} + y^{2})} dy dx = \frac{1}{A^{2}}\]
\[\Rightarrow \int_{\theta=0}^{\theta=2\pi} \int_{r=0}^{r=\infty} e^{-\frac{k}{2}r^{2}} r dr d\theta = \frac{1}{A^{2}}\]

적분을 풀기 위하여 다음과 같이 치환 적분을 해주려고 합니다. 다만, 계산 과정을 스킵하시고 싶으면 아래 울프람 알파의 결과만 확인하시기 바랍니다.
계산 과정은 다음과 같습니다. 먼저 위 적분을 풀기 위하여 다음과 같이 치환을 해줍니다.

\[-\frac{1}{2}kr^{2} = u\]
\[-krdr = du\]
\[rdr = -\frac{1}{k} du\]

위 식을 이용하여 $-\frac{1}{2}kr^{2} \to u$ , $rdr \to -\frac{1}{k} du$ 형태로 모두 바꾸어 치환 적분하면 다음과 같습니다.

\[\int_{\theta=0}^{\theta=2\pi} \int_{u=0}^{u=-\infty} e^{-\frac{k}{2}r^{2}} r dr d\theta = \frac{1}{4A^{2}}\]
\[= \int_{\theta=0}^{\theta=2\pi} \int_{u=0}^{u=-\infty} e^{u} -\frac{1}{k} du d\theta\]
\[= -\frac{1}{k} \int_{\theta=0}^{\theta=2\pi} \int_{u=0}^{u=-\infty} e^{u} du d\theta\]
\[= -\frac{1}{k} \int_{\theta=0}^{\theta=2\pi} [e^{u}]_{0}^{-\infty} d\theta\]
\[= -\frac{1}{k} \int_{\theta=0}^{\theta=2\pi} (-1) d\theta\]
\[= \frac{2\pi}{k} = \frac{1}{A^{2}}\]

$Drawing$

적분의 결과와 울프람 알파의 결과가 같은 것을 확인할 수 있습니다.
마지막 식을 $A$ 에 대하여 정리해 보겠습니다. 앞에서 다룬 값은 확률밀도함수의 넓이와 관련된 것이므로 항상 양수이기 때문에 양의 값을 가지게 됨을 유의해야 합니다.

\[A^{2} = \frac{k}{2\pi}\]
\[A = \sqrt{\frac{k}{2\pi}}\]

따라서 $A$ 는 위 식과 같이 구할 수 있고 지금 까지 구한 확률 분포를 살펴보면 다음과 같습니다.

\[p(x) = \sqrt{\frac{k}{2\pi}} e^{-\frac{k}{2}x^{2}}\]

처음에 살펴본 가우시안 분포에서 ② $\color{blue}{\frac{1}{\sigma \sqrt{2\pi}}}$ 과 $\sqrt{\frac{k}{2\pi}}$ 를 비교하면 $k = 1 / \sigma^{2}$ 에 대한 값을 확인하는 과정이 더 필요합니다. 마지막으로 $k$ 에 대하여 알아보도록 하겠습니다.

Determining the Value of k

앞에서 구한 식의 미지수 $k$ 를 구하기 위하여 평균과 분산의 개념을 도입하여 식을 전개해 보도록 하겠습니다. 왜냐하면 $k$ 값이 확률 분포에 사용되는 값이기 때문에 평균, 분산과 연관이 되어 있고 이 추가적인 식을 이용하여 미지수 $k$ 를 풀 수 있기 때문입니다.
먼저, 평균 $\mu$ 와 분산 $\sigma^{2}$ 은 다음과 같은 식으로 적을 수 있습니다.

\[\mu = \int_{-\infty}^{\infty} x p(x) dx\]
\[\sigma^{2} = \int_{-\infty}^{\infty} (x - \mu)^{2} p(x) dx\]

이 때, $x$ 자체는 기함수 (odd function)이고 $p(x) = \sqrt{\frac{k}{2\pi}} e^{-\frac{k}{2}x^{2}}$ 는 우함수 (even function)입니다. $x p(x)$ 는 기함수와 우함수의 곱이므로 기함수입니다.
음의 무한대와 양의 무한대 전체 범위에서 기함수의 평균은 0 입니다. 따라서 평균 식은 다음과 같이 정리됩니다.

\[\mu = \int_{-\infty}^{\infty} x p(x) dx = 0\]

분산의 정의에 따라 아래 식은 다음과 같이 변경 가능합니다. (편차의 평균 → (제곱의 평균 - 평균의 제곱)), 링크를 참조해 주시기 바랍니다.

\[\sigma^{2} = \int_{-\infty}^{\infty} (x - \mu)^{2} p(x) dx = \int_{-\infty}^{\infty} x^{2} p(x) dx - \mu^{2}\]
\[\Rightarrow \sigma^{2} = \int_{-\infty}^{\infty} x^{2} p(x) dx - 0 = \int_{-\infty}^{\infty} x^{2} p(x) dx\]
\[\Rightarrow \sigma^2 = \int_{-\infty}^{\infty}x^2\sqrt{\frac{k}{2\pi}}\exp\left(-\frac{1}{2}kx^2\right)dx =\sqrt{\frac{k}{2\pi}}\int_{-\infty}^{\infty}x^2\exp\left(-\frac{1}{2}kx^2\right)dx = \sqrt{\frac{k}{2\pi}}\int_{-\infty}^{\infty}x\cdot x\exp\left(-\frac{1}{2}kx^2\right)dx\]

위 적분식을 구하기 위하여 부분 적분법을 사용하겠습니다. (단순 계산 방법이므로 스킵하시고 아래 울프람 알파 결과만 확인하셔도 됩니다.)

\[\begin{cases}u = x \\ du = 1\end{cases}\]
\[\begin{cases} dv = x\exp\left(-\frac{1}{2}kx^2\right) \\ v = -\frac{1}{k}\exp\left(-\frac{1}{2}kx^2\right) \end{cases}\]
\[\sqrt{\frac{k}{2\pi}}\left\lbrace\left[x\cdot\left(-\frac{1}{k}\right)\exp\left(-\frac{1}{2}kx^2\right)\right]_{-\infty}^{\infty}+\frac{1}{k}\int_{-\infty}^{\infty}\exp\left(-\frac{1}{2}kx^2\right)dx\right\rbrace\]

식 중간의 대괄호 부분을 계산하면 0이 되므로 다음과 같이 정리할 수 있습니다.

\[\sqrt{\frac{k}{2\pi}}\left\lbrace\frac{1}{k}\int_{-\infty}^{\infty}\exp\left(-\frac{1}{2}kx^2\right)dx\right\rbrace = \sqrt{\frac{k}{2\pi}}\left(\frac{1}{k}\right)\sqrt{\frac{2\pi}{k}} = \frac{1}{k}\]

$Drawing$

적분의 결과와 울프람 알파의 결과가 같은 것을 확인할 수 있습니다.

\[\therefore k = \frac{1}{\sigma^{2}}\]

따라서 앞에서 구한 식에 $k$ 를 대입하면 다음과 같이 정리할 수 있습니다.

\[p(x) = \sqrt{\frac{k}{2\pi}} e^{-\frac{k}{2}x^{2}} = \sqrt{\frac{1}{\sigma^{2}2\pi}} e^{-\frac{1}{2}\sigma^{2}x^{2}}\]

위 식은 가우시안 분포의 수식에서 평균값이 0인 경우를 의미하며 평균값이 $\mu$ 인 경우에는 $x$ 를 $x - \mu$ 로 평행이동 시켜주면 되므로 최종적인 가우시안 분포 공식은 다음과 같이 유도할 수 있습니다.

\[p(x) = \frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\]

가우시안 PDF의 곱과 Convoltuion 연산

아래 글은 가우시안 PDF의 곱과 Convolution 연산에 관한 내용을 다룹니다. 이 내용은 다소 긴 내용으로 별도 페이지를 작성하였으며 링크는 아래와 같습니다. 글을 읽기 전에 기억할 핵심 내용은 두 가우시안 분포의 곱은 가우시안 분포로 나타내어 진다라는 것입니다.
링크 : https://gaussian37.github.io/math-pb-product_convolution_gaussian_pdf/

covariance와 zero-mean gaussian의 covariance

가우시안 분포에서 공분산에 대하여 한번 알아보겠습니다.
다음과 같이 n 차원의 벡터 $x$와 평균 벡터 $\mu$가 있다고 가정해 보겠습니다.

\[\boldsymbol x= \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}\]

벡터를 자세히 살펴보면 다음과 같습니다.

\[\boldsymbol x= \begin{bmatrix} \color{blue}{x_1} \\ \color{red}{x_2} \end{bmatrix}=\begin{bmatrix}\color{blue}{x_{11} \\ x_{12}\\\vdots\\ x_{1h}}\\\color{red}{x_{21}\\x_{22}\\\vdots\\ x_{2k}}\end{bmatrix}\tag{$n \times 1$}\]

\[\boldsymbol\mu= \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix}\]

이 때, covariance matrix는 다음과 같이 정의됩니다.

\[\begin{bmatrix} \Sigma_{\color{blue}{11}} & \Sigma_{\color{blue}{1}\color{red}{2}} \\ \Sigma_{\color{red}{2}\color{blue}{1}} & \Sigma_{\color{red}{22}} \end{bmatrix} \tag {$n \times n$}\]

이 때, 공분산도 자세히 살펴보면 다음과 같습니다.

\[\Sigma_{\color{blue}{11}}=\begin{bmatrix} \sigma^2({\color{blue}{x_{11}}}) & \text{cov}(\color{blue}{x_{11},x_{12}}) & \dots & \text{cov}(\color{blue}{x_{11},x_{1h}}) \\ \text{cov}(\color{blue}{x_{12},x_{11}}) & \sigma^2({\color{blue}{x_{12}}}) & \dots & \text{cov}(\color{blue}{x_{12},x_{1h}}) \\ \vdots & \vdots & & \vdots \\ \text{cov}(\color{blue}{x_{1h},x_{11}}) & \text{cov}(\color{blue}{x_{1h},x_{12}}) &\dots& \sigma^2({\color{blue}{x_{1h}}}) \end{bmatrix} \tag{$h \times h$}\]

\[\Sigma_{\color{blue}{1}\color{red}{2}}= \begin{bmatrix} \text{cov}({\color{blue}{x_{11}}},\color{red}{x_{21}}) & \text{cov}(\color{blue}{x_{11}},\color{red}{x_{22}}) & \dots & \text{cov}(\color{blue}{x_{11}},\color{red}{x_{2k}}) \\ \text{cov}({\color{blue}{x_{12}}},\color{red}{x_{21}}) & \text{cov}(\color{blue}{x_{12}},\color{red}{x_{22}}) & \dots & \text{cov} \color{blue}{x_{12}},\color{red}{x_{2k}}) \\ \vdots & \vdots & & \vdots \\ \text{cov}({\color{blue}{x_{1h}}},\color{red}{x_{21}}) & \text{cov}(\color{blue}{x_{1h}},\color{red}{x_{22}}) & \dots & \text{cov}(\color{blue}{x_{1h}},\color{red}{x_{2k}}) \end{bmatrix}\tag{$h \times k$}\]

\[\Sigma_{\color{red}{2}\color{blue}{1}} = \begin{bmatrix} \text{cov}({\color{red}{x_{21}}},\color{blue}{x_{11}}) & \text{cov}(\color{red}{x_{21}},\color{blue}{x_{12}}) & \dots & \text{cov}(\color{red}{x_{21}},\color{blue}{x_{1h}}) \\\text{cov}({\color{red}{x_{22}}},\color{blue}{x_{11}}) & \text{cov}(\color{red}{x_{22}},\color{blue}{x_{12}}) & \dots & \text{cov} \color{red}{x_{22}},\color{blue}{x_{1h}}) \\ \vdots & \vdots & & \vdots \\ \text{cov}({\color{red}{x_{2k}}},\color{blue}{x_{11}}) & \text{cov}(\color{red}{x_{2k}},\color{blue}{x_{12}}) & \dots & \text{cov}(\color{red}{x_{2k}},\color{blue}{x_{1h}}) \end{bmatrix}\tag{$k \times h$}\]

\[\Sigma_{\color{red}{22}}=\begin{bmatrix} \sigma^2({\color{red}{x_{21}}}) & \text{cov}(\color{red}{x_{21},x_{22}}) & \dots & \text{cov}(\color{red}{x_{21},x_{2k}}) \\ \text{cov}(\color{red}{x_{22},x_{21}}) & \sigma^2({\color{red}{x_{22}}}) & \dots & \text{cov}(\color{red}{x_{22},x_{2k}}) \\ \vdots & \vdots & & \vdots \\ \text{cov}(\color{red}{x_{2k},x_{21}}) & \text{cov}(\color{red}{x_{2k},x_{22}}) &\dots& \sigma^2({\color{red}{x_{2k}}}) \end{bmatrix} \tag{$k \times k$}\]

일단 covariance에 대하여 알아보았는데, 먼저 확인해야 하는 것은 행과 열의 인덱스가 같은 부분은 $\text{cov}$가 아닌 분산의 형태인 $\sigma^{2}$으로 나타나 있는가 입니다.
만약 $\text{cov}$로 나타낸다면 예를 들면 $\text{cov}{x_{11}, x_{11}}$이 됩니다.
여기서 $x_{i}, x_{j}$가 벡터일 때, $\text{cov}{x_{i}, x_{j}}$를 풀어보면 다음과 같습니다.

\[\text{cov}({x_{i}, x_{j}}) = E[ (x_{i} - \mu_{i})(x_{j} - \mu_{j})]\]

따라서 $\text{cov}(x_{11}, x_{11}) = E[(x_{11} - \mu_{11})^{2}] = \sigma^{2}(x_{11})$이 됩니다.

그러면 본론으로 들어가서 zero-mean gaussian distribution에 대하여 알아보겠습니다.
대각 성분은 앞에서 다룬 것 처럼 $\sigma^{2}(x_{ii})$ 형태가 됩니다.
zero-mean gaussian에서는 대각 성분이 아닌 경우에는 모두 0이 됩니다.
대각 성분이 아닌 경우를 한번 살펴보면 다음과 같습니다.

\[\text{cov}({x_{i}, x_{j}}) = E[ (x_{i} - \mu_{i})(x_{j} - \mu_{j}) ] = E[ (x_{i})(x_{j}) ] = E[x_{i}]E[x_{j}] = \mu_{i}\mu_{j} = 0\]

zero-mean gaussian 이기 때문에 $\mu$는 모두 0이 되고 $E(XY) = E(X)E(Y)$이기 때문에 분리가 됩니다. 분리한 각각의 값이 또 평균이기 때문에 각 평균은 0이되어 최종적으로 $\text{cov}{x_{i}, x_{j}}$은 0이 됩니다.
따라서 zero-mean gaussian distribution에서 대각 성분은 분산이 되고 그 이외 성분은 모두 0이 됩니다.

\[\Sigma_{}=\begin{bmatrix} \sigma^2({\color{blue}{x_{1}}}) & 0 & \dots & 0 \\ 0 & \sigma^2({\color{blue}{x_{2}}}) & \dots & 0 \\ \vdots & \vdots & & \vdots \\ 0 & 0&\dots& \sigma^2({\color{blue}{x_{m}}}) \end{bmatrix} \tag{$h \times h$}\]

목차

가우스 함수

가우스 적분 증명

가우시안 분포 공식 유도

Determining the Shape of the Distribution

Determining the Coefficient A

Determining the Value of k

가우시안 PDF의 곱과 Convoltuion 연산

covariance와 zero-mean gaussian의 covariance

가우시안 프로세스