Frequentist, 즉 빈도주의적 관점에서는 확률은 반복되는 시행과정에서 해당 사건의 발생 빈도를 의미한다. 즉, 어떤 분류 모델의 성능이 95%라면, 이는 임의의 예제 100개 중 95개의 비율로 정확성을 갖는다는 것을 의미한다. 반면, 베이지안 관점에서는 해당 분류 모델이 정확하다고 ‘95%’ 확신할 수 있다고 해석하게 된다. 즉, 보편적인 확률의 정의는 빈도주의적 관점에 해당하지만 베이지안 관점은 어떤 지식의 타당성을 파악하는데 중점을 둔다. 베이지안 통계학은 이러한 관점에서 추론 모델을 만들고 평가하는 학문인데, 사실 이러한 관점은 현대 머신러닝의 근간이라고도 할 수 있다(앞서 언급한 분류 모델의 성능이 두번째 설명으로 더 와닿을 것이다). 이에 베이지안 통계는 충분히 공부해볼만한 가치가 있다고 생각하고, 앞으로 대표적인 베이지안 교재 Bayesian Data Analysis(BDA)를 개인적으로 공부하면서 내용을 포스팅하고자 한다.

Single Parameter Models

Bayes’ Theorem

베이즈 정리는 기초통계학에서도 등장하는 매우 기본적인 정리이다. 사실 베이지안 통계가 아닌 관점에서는 단순히 베이즈 정리를 '’조건부확률의 다른 표현’’ 쯤으로 치부하기 쉽다. 그러나 베이지안 추론의 관점에서 보면 심오한 의미를 담고 있다. 우선, 베이즈 규칙(Bayes’ rule)은 conditional density(조건부 확률밀도)와 joint density(y결합확률밀도)의 관계를 나타낸 것으로, 다음과 같다.

\[p(\theta, y) = p(\theta)\cdot p(y\vert \theta)\]

이때 우변의 첫째항 $p(\theta)$는 모수에 대한 사전분포(prior distribution)이며, 두번째 항 $p(y\vert \theta)$는 sampling distribution 으로 이는 모수가 주어졌을 때 데이터의 분포를 의미한다(통계학에서 일반적으로 이야기하는 확률분포를 생각하면 된다). 사전과 사후의 의미는, 관측 데이터가 주어지기 이전, 이후를 생각하면 된다. 이러한 베이즈 규칙을 바탕으로, 베이지안 추론(Bayesian Inference)과정은 다음과 같이 이루어진다.

우선, 관측 데이터 $y$가 주어진다고 하자. 이때 데이터가 주어졌을 때 모수의 분포를 사후분포(posterior distribution)라고 하는데,

\[p(\theta\vert y) = {p(\theta,y)\over p(y)} = {p(\theta)p(y\vert \theta)\over p(y)}\tag{0}\]

로 쓸 수 있다. 이때 $p(y)$는

\[p(y) = \int_\theta p(\theta)p(y\vert \theta)d\theta\tag{1}\]

로 주어지는데, 적분범위는 모수가 취할 수 있는 모든 값을 의미한다(만일 모수가 discrete하다면 위 식의 적분은 summation으로 변경된다). 그런데 $p(y)$는 이미 주어진 sample data(고정된 값)을 바탕으로 하는 함수이므로, 이를 상수로 취급할 수 있다. 따라서 위 식 (0)을

\[p(\theta\vert y) \propto p(\theta)p(y\vert \theta)\]

로 쓸 수 있다. 이때 위 식의 우변을 unnormalized posterior density(비정규 사후분포)라고도 하며 이는 모수 $\theta$에만 의존하는 형태임을 확인할 수 있다.

또한, 식 (1)은 관측되지 않은 관측가능한 $y$의 분포를 의미하므로, 이를 사전예측분포(prior predictive distribution) 이라고 한다. 이 분포가 사전분포인 이유는, 적분 내의 각 확률분포가 모두 모수의 함수이고(조건부도 마찬가지), 이는 관측된 sample data에 의존하지 않기 때문이다. 관측된 sample data를 바탕으로 형성되는사후예측분포(posterior predictive distribution)은 다음과 같이 조건부 형태로 정의된다.

\[\begin{aligned}p(\tilde y\vert y) &= \int_\theta p(\tilde y,\theta\vert y)d\theta \\ &=\int_\theta p(\tilde y\vert \theta)p(\theta\vert y)d\theta \end{aligned}\]

이러한 내용을 바탕으로, 관측되지 않은 새로운 데이터($\tilde y$)의 확률분포를 예측하는 과정을 살펴보자.

Single-parameter models

우선 여기서는 모수가 한 개인 단일모수 모형만 다루도록 하겠다. 그중에서도 가장 간단한 이항분포(binomial distribution) 모형을 다루어보도록 하자. 이항분포의 sampling distribution은

\[p(y\vert \theta) = {n\choose y}\theta^y(1-\theta)^{n-y}\]

로 주어진다. 이때 베이지안 추론을 진행하기 위해서는 사전확률분포에 대한 정보가 주어져야 한다. 우선, 모수의 사전확률분포가 균등분포로 주어진다고 가정하자. 즉,

\[\theta \sim U[0,1]\;\;\text{i.e.}\;\;p(\theta) = I_{[0,1]}(\theta)\]

으로 주어진다고 가정하자. 그러면 사후분포는 다음과 같이 주어진다.

\[p(\theta\vert y) \propto \theta^y(1-\theta)^{n-y}\]

중요한 것은, 우변의 (비정규)사후분포가 데이터 y의 함수가 아닌, $\theta$의 함수라는 것이다. 이러한 관점에서 우변은 beta distribution(베타 분포)의 확률밀도함수 형태로 변환가능한데, 이로부터 사후확률분포

\[\theta\vert y \;\sim\;\text{Beta}(y+1,n-y+1)\]

를 알 수 있다. 또한, 이로부터 사전예측분포

\[\begin{aligned} p(y) &= \int_0^1 p(y\vert \theta)p(\theta)d\theta \\ &= \int_0^1{n\choose y}\theta^y(1-\theta)^{n-y}d\theta \\ &= {\Gamma(n+1)\over \Gamma(n+2)}\int_0^1 {\Gamma(n+2)\over\Gamma(y+1)\Gamma(n-y+1)}\theta^y(1-\theta)^{n-y}d\theta \\ &= {1\over n+1} \end{aligned}\]

을 얻을 수 있다(세번째 줄의 적분값은 beta pdf의 적분값이므로 1이다). 즉, 사전예측분포 역시 데이터가 취할 수 있는 값(0부터 n까지)에 대한 균등 점질량을 갖는 균등분포이다. 이와 유사하게 사후예측분포도 얻을 수 있다. 단, 여기서 새로 관측가능한 데이터 $\tilde y$는 기존 데이터에 독립인 개별(single) 관측값이므로, 모수가 $\theta$인 베르누이분포를 따르게 된다. 새로 관측되는 값이 True(1)일 사후예측확률

\[\begin{aligned}p(\tilde y=1\vert y) &= \int_0^1 p(\tilde y=1\vert \theta,y)p(\theta\vert y)d\theta \\ &=\int_0^1 \theta p(\theta\vert y)d\theta \\ &=E[\theta\vert y]\\ &={y+1\over n+2} \end{aligned}\]

을 위와 같이 구할 수 있다. 이때 마지막 값 유도과정은 베타분포의 기댓값으로부터 도출된다.

Prior Distribution

앞선 베이지안 추론 논의과정에서는 편의상 사전분포를 균등분포로 가정하고 논의를 진행했다. 그런데, 균등분포 가정이 타당한지에 대해 조금만 생각해보아도 이것이 정당화되기는 쉽지 않다는 것을 알 수 있다. 일반적으로 사전분포를 정의할 때에는 두 가지 해석의 관점에서 논의되는데, 이는 각각 population interpretation과 state of knowledge interpretation이다. 우선, population interpretation의 관점은 사전분포가 가능한 모수값들의 모집단(population)을 나타내야 한다는 관점이다. 그러나 실제 추론 상황에서는 모수의 모집단이 실질적으로 존재하기 어렵다는 문제가 있다. 반면 state of knowledge의 관점은, 모수에 대한 지식 및 불확실성을 사전분포에 반영한다는 관점이다. 즉, 모수 $\theta$가 취할 수 있는 가능한 모든 값을 포함하며, 특정 값에 집중될 필요는 없고 이를 random realization으로 보아야 한다는 것이다.

앞선 이항분포 예제에서 state of knowledge 관점을 바탕으로 사전분포를 정의해보자. 우선, binomial pdf를 가능도함수(likelihood)의 관점에서 보면

\[p(\theta\vert y) = {n\choose y}\theta^y(1-\theta)^{n-y}\]

인데, 이를 토대로 사전분포가 $\theta,(1-\theta)$를 인수로 가지는 형태를 취함을 알 수 있다. 즉,

\[p(\theta) \propto \theta^{\alpha-1}(1-\theta)^{\beta-1}\]

와 같이 쓸 수 있으므로, 우리는 모수의 사전분포가 베타분포 $\text{Beta}(\alpha,\beta)$를 따른다는 것으로 정의할 수 있다. 이때 사전분포의 모수인 $\alpha,\beta$를 hyperparmeter라고 정의한다. 이 정의로부터 다음과 같이 사후분포를 추정할 수 있다.

\[\begin{aligned} p(\theta\vert y) &\propto p(\theta)p(y\vert \theta)\\ &\propto \theta^{y+\alpha-1}(1-\theta)^{n-y+\beta-1} \end{aligned}\]

즉,

\[\theta\vert y \;\sim\;\text{Beta}(\alpha+y,n-y+\beta)\]

이다. 이때 사전분포와 사후분포의 형태가 동일한 분포형태, 즉 베타분포를 취하는 것을 확인할 수 있는데 이러한 특성을 conjugacy(켤레성)이라고 하며 특히 이러한 경우 이항분포(sampling distribution)의 켤레사전분포가 beta distribution이라고 정의한다.

Def. Conjugacy(켤레성)

Sampling distribution $p(y\vert \theta)$의 모임(class) $\mathcal F$와 prior distribution $p(\theta)$의 모임 $\mathcal P$에 대해 다음 조건을 만족하면 $\mathcal P$가 $\mathcal F$의 켤레사전분포족이다.

\[p(\theta\vert y)\in \mathcal P\;\;\text{where}\;\;\forall p(\cdot\vert \theta) \in \mathcal F,\;\forall p(\cdot)\in\mathcal P\]

만일 $\mathcal P$가 모든 종류의 distribution을 포함하는 class라면 항상 conjugate class이다.

Conjugacy of Exponential Family

지수족은 수리통계학에서 충분통계량 혹은 MLE 등을 다룰 때 요긴하게 사용되는 개념이다. Bayesian Inference에서도 마찬가지로 앞선 켤레성 개념을 쉽게 도출할 수 있다.

만일 sampling distribution class $\mathcal F$ 가 지수족(exponential family)라면, 즉

\[p(y_i\vert \theta) = f(y_i)g(\theta)\exp[\phi(\theta)^Tu(y_i)]\]

꼴로 표현이 가능하다면($i=1,\ldots,n$이고 $n$은 모수의 차원을 의미한다), 사전분포

\[p(\theta) \propto g(\theta)^\eta \exp[\phi(\theta)^Tv]\]

꼴에 대해 사후분포는 켤레 형태인

\[p(\theta\vert y) \propto g(\theta)^{\eta+n}\exp[\phi(\theta)^T(v+t(y))]\]

형태로 주어진다. 이때

\[t(y) = \sum_{i=1}^n u(y_i)\]

이며 이는 $\theta$의 충분통계량(sufficient statistics)이다.

앞서 다룬 이항분포 역시 exponential family이므로, conjugate 관계가 성립하는 것을 확인할 수 있다.

References

  • Gelman et al. Bayesian Data Analysis(3rd edition)

Leave a comment