Bayesian Data Analysis(2) - Noninformative prior distribution

이전 게시글에서는 single parameter model에서 이루어지는 bayesian inference의 대략적인 과정과, 그 과정에서 관찰되는 conjugate prior-posterior distribution에 대해 살펴보았다. 이번에는 prior distribution이 모집단에 대해 아무런 근거를 갖지 않는, non-informative한 사전분포를 다루어보도록 하자.

Noninformative

\[P(\theta\vert y) \propto p(y\vert \theta)p(\theta)\]

의 관계로부터, 사후확률의 분포는 샘플 분포와 사전분포에 의존한다. 사전분포는 이전에 다룬 것 처럼 conjugate한 form으로 정의할 수도 있겠으나, 결국 분포의 형태를 사용자가 임의로 결정할 수 있기 때문에 극단적으로 다음과 같은 경우

\[p(\theta) \propto 1\]

를 생각해볼 수 있다. 이 경우 사후분포는 sampling distribution에만 의존하게 되어, 추론과정이 데이터 외적인 요소에 영향을 받지 않게 된다. 이를 교재에서

“To let data speak for themselves”

라고 표현하는데, 말 그대로 오로지 데이터 샘플로부터 얻은 정보만을 이용한다는 의미이다. 이처럼 모집단에 대한 정보 없이 정의되는 사전분포를 non-informative prior distribution이라고 하며, 특히 위와 같이 \(p(\theta)\propto1\) 형태로 정의되는 사전분포를 flat 하다고 한다.

Proper prior distribution

그런데, flat한 사전분포의 경우 모수 $\theta$를 추정하기 위해서는 구간 $(-\infty,\infty)$에서 임의의 수를 선택하는 것인데, 사전분포가 flat하므로

\[\int_{-\infty}^\infty p(\theta)d\theta = \infty\]

가 된다. 즉, 사전분포 밀도함수의 적분값이 수렴하지 않는다. 이러한 형태를 improper prior density라고 한다. 반면, 사전분포를 $\theta\sim U[-100,100]$ 과 같이 정의하는 경우 적분값이 양수로 수렴하므로 적당한 상수를 취해 적분값을 1로 만들어줄 수 있는데, 이러한 경우를 proper prior density라고 한다. 사전분포가 improper하다고 해서 사후분포 역시 반드시 improper하게 도출되지는 않는다. 예시로 분산이 알려진(known variance) 정규분포 sample을 살펴보도록 하자. 즉, 다음과 같은 sampling distribution

\[p(y\vert \theta) \sim N(\theta, \sigma^2),\;\;\text{where}\;\sigma\;\text{is known}\]

이 주어졌다고 하자. 이때 prior distribution을 임의의 정규분포 형태

\[p(\theta)\sim N(\mu_0,\tau_0^2)\]

로 가정하자(사전분포가 데이터셋과 동일한 정규분포를 취한다는 점에서 weakly-informative하다고 볼 수도 있다). 여기서 사전분포의 모수는 임의의 값이므로, improper한 밀도함수라는 것을 알 수 있다. 만일 데이터셋의 크기가 충분히 커진다면 prior precision $\tau_0^{-2}$ 보다 data precision $n/\sigma^2$이 커지게되어 결과적으로 사후분포가

\[p(\theta\vert y) \approx N(\theta\vert \bar y, \sigma^2/n)\]

에 근사된다. 즉, 이 경우 관측값이 하나라도 주어진다면 사후분포가 특정 정규분포로 결정되므로, 이는 proper posterior density가 된다.

Jeffrey’s principle

그런데, 일반적으로 non-informative한 사전분포는 변수변환(transformation)에 대해 안정적이지 않다. 예시로 flat한 형태의 사전분포 $p(\theta)\propto 1$을 생각해보자. 만일 확률변수변환

\[\phi = e^\theta\]

가 주어진다면, 변환에 의해

\[p(\phi) = p(\theta)\vert {d\theta\over d\phi}\vert \propto {1\over \phi}\]

가 되어 더이상 flat한 형태가 아니게 된다. 이러한 transformation-variance를 극복하기 위해 Jeffrey는 다음과 같은 사전분포형태를 정의했다.

\[p(\theta)\propto\sqrt{I(\theta)}\]

여기서 $I(\theta)$는 수리통계학에서 다루는 Fisher’s information, 즉

\[I(\theta) = E[-{\partial^2\over\partial\theta^2}\log p(y\vert \theta)\vert \theta]\]

를 의미한다. 이를 이용하면 임의의 확률변수 변환 $\phi = h(\theta)$에 대해

\[I(\phi) = I(\theta)\cdot\bigg\vert {d\theta\over d\phi}\bigg\vert ^2\]

를 얻을 수 있고, 이로부터 변환에 대한 불변성(transformation-invariance)이 얻어진다.

예시로 이항분포 $Y\sim B(n,\theta)$ 에 대한 Jeffrey의 사전분포를 구하면 다음과 같다. 우선, 로그가능도함수

\[\log p(y\vert \theta) = y\log\theta + (n-y)\log(1-\theta) + C\]

로부터

\[I(\theta) = {n\over \theta(1-\theta)}\]

이므로

\[p(\theta) \propto \theta^{-1/2}(1-\theta)^{-1/2}\]

형태의 사전분포를 얻을 수 있다. 즉,

\[\theta \sim \text{Beta}({1\over2},{1\over 2})\]

이다.

Leave a comment