Eigenfunctions and Kernel Methods
IntroductionPermalink
이번 글에서는 eigenfunctions고유함수와 이를 기반으로 하는 커널 방법론들의 해석에 대해 다루어보도록 하겠습니다. 고유함수의 개념은 데이터를 분석하는 과정에서는 요구되지 않을 수 있습니다. 다만, 많은 머신러닝 방법론, 그 중에서도 Gaussian Process 기반 방법론들의 이해에 중요한 부분을 차지한다고 생각합니다.
기본적인 아이디어는 행렬의 고유값과 고유벡터를 생각해보면 이해가 쉽습니다. 행렬
EigenfunctionsPermalink
KernelPermalink
고유함수를 이해하기 위해서는 먼저 커널kernel에 대한 이해가 필요합니다. 커널에 대한 부가적인 내용은 Kernel Methods에서 다루었으니, 해당 글을 참고하시기 바랍니다. 커널을 간단히 정의하자면, 두 입력 벡터
- 대칭성:
-
양의 정부호성: 모든
공간의 함수 에 대해 다음이 성립합니다.
Remark. 커널 함수와 공분산 함수covariance function는 밀접한 관련이 있습니다. Gaussian process의 경우, 공분산 함수는 다음과 같이 정의됩니다.
본래 공분산 함수는 확률과정stoachastic process 혹은 랜덤필드random field의 공분산을 정의합니다. 커널 함수는 반드시 두 입력값에 대한 유사도를 반환하는 것은 아니므로, 두 정의가 완전히 동일하다고 할 수는 없습니다. 다만, Gaussian process의 경우, 커널 함수가 공분산 함수의 역할을 한다고 생각할 수 있습니다. (명칭의 차이도 존재 : e.g. Gaussian RBF kernel vs Squared Exponential covariance function)
DefinitionPermalink
커널함수에 대한 고유함수eigenfunction은 다음과 같이 정의됩니다.
여기서
행렬에서는 고유값과 고유벡터가 행렬의 크기만큼 존재하는 것과 달리, 커널 함수의 경우 무한개의 고유함수가 존재합니다. (함수공간을 무한차원의 벡터공간으로 볼 수 있기 때문임을 생각하면 좋습니다.)
ExamplePermalink
확률측도
에 대한 고유함수와 고유값은 다음과 같습니다.
여기서
Mercer’s TheoremPermalink
Mercer의 정리는, 임의의 커널 함수
이때 Mercer의 정리는 다음과 같습니다.
Mercer’s Theorem. 측도 공간
에서 정의된 커널 함수 에 대해 가 양의 정부호인 경우, 에 대해 거의 모든almost everywhere 에 대해 다음 표현이 성립합니다.
여기서
Nyström MethodPermalink
Mercer의 정리는 커널 함수를 고유함수들로 나타낼 수 있다는 것을 보여줍니다. 확률측도
이때,
여기서 식 (1) 우변의 행렬은
나아가, 고유함수
이때,
특히, 데이터 샘플
이러한 방법론을 Nyström method라고 부릅니다. 요약하자면, Nyström method는 데이터 샘플을 이용하여 Gram matrix의 고유값과 고유벡터를 구하고, 이를 이용하여 고유함수를 추정합니다.
Reproducing Kernel Hilbert SpacePermalink
이전에 커널 트릭을 설명하기 위해 RKHSReproducing Kernel Hilbert Space와 representer theorem에 대해 다룬 바 있습니다. 해당 포스트에서는 reproducing kernel map construction 을 통해 RKHS를 정의하였습니다. 여기서는 고유함수를 이용해 RKHS를 정의하는 방법에 대해 다루어보도록 하겠습니다.
RKHSPermalink
실함수
- 모든
에 대해 -
Reproducing property : 모든
와 에 대해 다음이 성립합니다.
Moore-Aronszajn TheoremPermalink
RKHS
RKHS using EigenfunctionsPermalink
이제 고유함수를 바탕으로 RKHS를 다시 살펴보도록 하겠습니다. 우선, 임의의 커널 함수
이때, 고유함수
그렇다면,
이때,
이렇게 정의한 힐베르트공간
마찬가지로,
역시 성립합니다. 이러한 관계로부터, 고유함수를 기저로 하는 힐베르트공간
ReferencesPermalink
- Williams, C. K., & Rasmussen, C. E. (2006). Gaussian processes for machine learning (Vol. 2, No. 3, p. 4). Cambridge, MA: MIT press.
Leave a comment