Archive

Spectral Analysis - Perturbation Theory

Basics of matrix analysis Perturbation 실행렬 $M^{\star}$와 교란(perturbed)된 실행렬 $M$ 에 대해 다음 관계를 가정하자. $$ M=M^{\star}+E $$ 여기서 $E$는 perturbation matrix 라고 하며, 통계학적인 관점에서 $M, M^{\star}$ 이 각각 관측치와 기댓값이라면 $E$를 오차 정도로 볼 수 있다(아래...

2023. 8. 2.4 min read

Basics of matrix analysis

Perturbation

실행렬 MM^{\star}와 교란(perturbed)된 실행렬 MM 에 대해 다음 관계를 가정하자.

M=M+E M=M^{\star}+E

여기서 EEperturbation matrix 라고 하며, 통계학적인 관점에서 M,MM, M^{\star} 이 각각 관측치와 기댓값이라면 EE를 오차 정도로 볼 수 있다(아래).

M=EM+(MEM) M = \mathbb{E} M + (M-\mathbb{E}M)

이때 우리의 관심사는 관측치 MM을 바탕으로 기댓값 행렬 (일반적으로 low-rank인) MM^{\star}을 추정하는 것이며, 이 과정에서 고유값공간(혹은 특이값공간)의 성질을 이용하는데 이러한 접근 방식을 Spectral Analysis라고 한다.

Unitarily invariant matrix norm

Definition

Rm×n\mathbb{R}^{m\times n} 에서 정의되는 행렬 노음 \Vert\cdot\Vertunitarily invariant 하다는 것은 임의의 두 정규직교행렬 UOm×m,VOn×nU\in \mathcal{O}^{m\times m},V\in\mathcal{O}^{n\times n} 에 대해 다음이 성립하는 것을 의미한다.

A=UTAV \Vert A\Vert=\Vert U^{T}AV\Vert

Lemma. Weyl's inequality

A,ERn×nA,E\in\mathbb{R}^{n\times n} 이 대칭 실행렬이고, λi(A)\lambda_{i}(A) 를 행렬 AAii번째로 큰 고유값이라고 하자. 그러면 다음 부등식이 성립한다.

λi(A)λi(A+E)E \vert\lambda_{i}(A)-\lambda_{i}(A+E)\vert\leq\Vert E\Vert

이때 우변의 노음 \Vert\cdot\Vertspectral norm으로, 행렬의 가장 큰 특이값(singular value) maxiσi(E)\max_{i}\sigma_{i}(E)를 의미한다. 대칭실행렬 외에 일반적인 행렬 A,ERm×nA,E\in\mathbb{R}^{m\times n} 에 대해서도 고유값 대신 특이값을 이용한 다음의 부등식이 성립한다.

σi(A)σi(A+E)E \vert\sigma_{i}(A)-\sigma_{i}(A+E)\vert\leq\Vert E\Vert

Distance between subspaces

Rn\mathbb{R}^n 에서의 두 r-dimensional 부분공간 U,U\mathcal{U}^{\star},\mathcal{U} 를 생각하자. 각 부분공간의 정규직교기저(orthonormal basis)를 각각 U,URn×rU^{\star},U\in\mathbb{R}^{n\times r} 라고 하고, n×nn\times n 정규직교행렬을 만들기 위해 각 기저에 대한 직교행렬 U,UU_{\perp}^{\star},U_{\perp} 를 구성하자. 그러면 행렬 [U,U],[U,U][U^{\star},U^{\star}_{\perp}], [U,U_{\perp}] 는 각각 n×nn\times n 정규직교행렬이 된다.

두 부분공간 U,U\mathcal{U^{\star},U} 의 거리를 측정하기 위해서는 새로운 metric을 정의해야하는데, 기존에 사용하는 spectral norm 혹은 Frobenius norm은 회전변환을 고려하지 못하기 때문이다. 즉, 회전변환 ROr×rR\in\mathcal{O}^{r\times r} 에 대해 URURUU와 같은 basis를 가지지만, URU0\Vert UR-U\Vert\neq 0 이 되어 두 공간의 기저가 같음에도 거리가 0이 아닌 문제가 발생한다. 일반적으로 이 문제를 해결하기 위해, 다음과 같이 회전변환에 영향을 받지 않는 UUTUU^{T}를 이용한다.

URRTUT=UUT URR^{T}U^{T}=UU^T

이를 이용해 다음과 같이 두 부분공간 U,U\mathcal{U^{\star},U} 의 거리를 다음과 같이 정의한다.

distp,(U,U):=UUTUUT dist_{p,\Vert\cdot\Vert}(U,U^{\star}) := \Vert UU^{T}-U^{\star}{U^{\star}}^{T}\Vert

여기서 matrix norm \Vert\cdot\Vert 는 주로 spectral norm 혹은 Frobenius norm을 사용한다.

Angle between subspaces

UTUU^T U^{\star} 의 특이값들이 σ1σ2σr0\sigma_{1}\geq\sigma_{2}\geq\cdots\geq\sigma_{r}\geq 0 으로 주어진다고 하자. U,UU,U^{\star} 의 노음이 1이므로, 모든 특이값들은 0과 1사이의 값을 갖는다. 이점에서 아이디어를 얻어, 각 특이값들을 어떤 각도의 코사인 값으로 볼 수 있는데, 이를 이용해 두 부분공간의 각도를 다음과 같이 정의하고, 이를 principal angles 라고 한다.

θi:=arccosσi    i=1,,r \theta_{i}:= \arccos\sigma_{i}\;\;i=1,\ldots,r

또한, 각도들로 이루어진 행렬을 다음과 같이 정의한다면

cosΘ=(cosθ1cosθ2cosθr) \cos\Theta = \begin{pmatrix}\cos\theta_{1} \\ & cos\theta_{2} \\ & & \ddots \\ & & & \cos\theta_{r}\end{pmatrix}

UTUU^{T}U^{\star} 의 특이값분해(SVD)를 다음과 같이 쓸 수 있다.

UTU=XcosΘYT U^{T}U^{\star}=X\cos\Theta Y^{T}

Relationship between Angle and Distance

대각행렬 sinΘ=diag(sinθi)\sin\Theta=\mathrm{diag}(\sin\theta_{i})cosΘcos\Theta 와 마찬가지로 정의하면, Spectral norm \Vert\cdot\Vert과 Frobenius norm F\Vert\cdot\Vert_F 에 대해 다음 관계식이 성립한다.

UUTUUT=sinΘ=UTU=UTU12UUTUUTF=sinΘF=UTUF=UTUF \begin{aligned} \Vert UU^{T}-U^{\star}{U^{\star}}^{T} \Vert&=\Vert\sin\Theta\Vert=\Vert U_{\perp}^{T}U^{\star}\Vert=\Vert U^T U_{\perp}^{\star}\Vert\\ \frac{1}{\sqrt 2}\Vert UU^{T}-U^{\star}{U^{\star}}^{T} \Vert_{F}&=\Vert\sin\Theta\Vert_{F}=\Vert U_{\perp}^{T}U^{\star}\Vert_F =\Vert U^T U_{\perp}^{\star}\Vert_F \end{aligned}

따라서, 두 부분공간의 거리를 측정하기 위해서는 위 동치인 것들 중 하나를 선택해서 사용하면 된다.

Perturbation Theory

Setup

Rn×n\mathbb{R}^{n\times n} 에서의 두 대칭실행렬 M=M+EM=M^{\star}+E 에 대해 다음과 같은 고유값분해(eigendecomposition)을 고려하자.

M=i=1nλiuiuiT=(UU)(Λ00Λ)(UTUT)M=i=1nλiuiuiT=(UU)(Λ00Λ)(UTUT) \begin{aligned} M^{\star}&= \sum_{i=1}^{n}\lambda_{i}^{\star}u_{i}^{\star}{u_{i}^{\star}}^{T}=\begin{pmatrix}U^{\star}&U_{\perp}^{\star}\end{pmatrix}\begin{pmatrix}\Lambda^{\star}&0\\ 0&\Lambda^{\star}_{\perp}\end{pmatrix}\begin{pmatrix}{U^{\star}}^{T}\\{U^{\star}_{\perp}}^{T} \end{pmatrix}\\ M&= \sum_{i=1}^{n}\lambda_{i}u_{i}{u_{i}}^{T}=\begin{pmatrix}U&U_{\perp}\end{pmatrix}\begin{pmatrix}\Lambda&0\\ 0&\Lambda_{\perp}\end{pmatrix}\begin{pmatrix}{U}^{T}\\{U_{\perp}}^{T} \end{pmatrix} \end{aligned}

Davis-Kahan's Theorem

Davis-Kahan의 sinΘ\sin\Theta 정리는 대칭실행렬의 eigenspace에 대한 성질을 다루는 정리이다. 우선 Eigengap Δ>0\Delta>0 와 위 setup의 고유값행렬에 대해 다음 성질이 성립한다고 하자.

eigenvalues(Λ)[α,β]eigenvalues(Λ)(,αΔ][β+Δ,) \begin{aligned} \mathrm{eigenvalues}(\Lambda^{\star})&\subseteq [\alpha,\beta]\\ \mathrm{eigenvalues}(\Lambda_{\perp})&\subseteq (-\infty,\alpha-\Delta]\cup [\beta+\Delta,\infty) \end{aligned}

이 경우 다음과 같은 부등식이 성립한다.

dist(U,U)2sinΘ2EUΔ2EΔdist(U,U)2sinΘF2EUFΔ2rEFΔ \begin{aligned} \mathrm{dist}(U,U^{\star})\leq\sqrt{2}\Vert\sin\Theta\Vert\leq\frac{\sqrt{2}\Vert EU^{\star}\Vert}{\Delta}\leq \frac{\sqrt{2}\Vert E\Vert}{\Delta}\\ \mathrm{dist}(U,U^{\star})\leq\sqrt{2}\Vert\sin\Theta\Vert_F\leq\frac{\sqrt{2}\Vert EU^{\star}\Vert_F}{\Delta}\leq \frac{\sqrt{2r}\Vert E\Vert_F}{\Delta} \end{aligned}

추후에 다루겠지만, EE가 sparse한 경우 위 부등식의 상한이 더욱 유용해지는 결과를 갖는다. 또한, 위 정리로부터 더 사용하기 편한 따름정리를 얻을 수 있는데, 다음과 같다.

Corollary. 행렬 M,MM^{\star},M 의 고유값들이 각각 λ1λr>λr+1λn|\lambda_{1}^{\star}|\geq\cdots\geq|\lambda_{r}^{\star}|>|\lambda_{r+1}^{\star}|\geq\cdots\geq|\lambda_{n}^{\star}|λ1λr}>λr+1λn|\lambda_{1}|\geq\cdots\geq|\lambda_{r}\}|>|\lambda_{r+1}|\geq\cdots\geq|\lambda_{n}| 으로 주어진다고 하자.

만일 perturbation EE에서 다음 성질이 성립하면

\Vert E\Vert<(1-1/\sqrt{2})(|\lambda_{r}^{\star}|-|\lambda_{r+1}^{*}|)

이로부터다음부등식이성립한다. 이로부터 다음 부등식이 성립한다.

\begin{aligned} \mathrm{dist}(U,U^{\star})\leq\sqrt{2}\Vert\sin\Theta\Vert\leq\frac{\sqrt{2}\Vert EU^{\star}\Vert}{|\lambda_{r}^{\star}|-|\lambda_{r+1}^\star|}\leq \frac{\sqrt{2}\Vert E\Vert}{|\lambda_{r}^{\star}|-|\lambda_{r+1}^\star|}\ \mathrm{dist}(U,U^{\star})\leq\sqrt{2}\Vert\sin\Theta\Vert_F\leq\frac{\sqrt{2}\Vert EU^{\star}\Vert_F}{|\lambda_{r}^{\star}|-|\lambda_{r+1}^\star|}\leq \frac{\sqrt{2r}\Vert E\Vert_F}{|\lambda_{r}^{\star}|-|\lambda_{r+1}^\star|} \end{aligned}

Wedin's Theorem

David-Kahan Theorem을 일반 실행렬공간과 그것의 특이값공간(singular subspace)로 확장한 정리가 바로 Wedin's sinΘ\sin\Theta theorem이다. 우선 다음과 같은 M=M+EM=M^{\star}+E 에 대한 특이값분해를 가정하자.

M=i=1nσiuiuiT=(UU)(Σ000Σ0)(VTVT)M=i=1nσiuiuiT=(UU)(Σ000Σ0)(VTVT) \begin{aligned} M^{\star}&= \sum_{i=1}^{n}\sigma_{i}^{\star}u_{i}^{\star}{u_{i}^{\star}}^{T}=\begin{pmatrix}U^{\star}&U_{\perp}^{\star}\end{pmatrix}\begin{pmatrix}\Sigma^{\star}&0&0\\ 0&\Sigma^{\star}_{\perp}&0\end{pmatrix}\begin{pmatrix}{V^{\star}}^{T}\\{V^{\star}_{\perp}}^{T} \end{pmatrix}\\ M&= \sum_{i=1}^{n}\sigma_{i}u_{i}{u_{i}}^{T}=\begin{pmatrix}U&U_{\perp}\end{pmatrix}\begin{pmatrix}\Sigma&0&0\\ 0&\Sigma_{\perp}&0\end{pmatrix}\begin{pmatrix}{V}^{T}\\{V_{\perp}}^{T} \end{pmatrix} \end{aligned}

그러면 다음과 같은 부등식이 성립한다(Wedin's sinΘ\sin\Theta Theorem).

max{dist(U,U),dist(V,V)}2max{ETU,EV}σrσr+1Emax{distF(U,U),distF(V,V)}2max{ETUF,EVF}σrσr+1E \begin{aligned} \max\{\mathrm{dist}(U,U^{\star}),\mathrm{dist}(V,V^{\star})\} &\leq \frac{\sqrt{2}\max \{\Vert E^{T}U^{\star}\Vert,\Vert EV^{\star}\Vert\}}{\sigma_{r}^{\star}-\sigma_{r+1}^{\star}-\Vert E\Vert}\\ \max\{\mathrm{dist}_F(U,U^{\star}),\mathrm{dist}_F(V,V^{\star})\} &\leq \frac{\sqrt{2}\max \{\Vert E^{T}U^{\star}\Vert_{F},\Vert EV^{\star}\Vert_{F}\}}{\sigma_{r}^{\star}-\sigma_{r+1}^{\star}-\Vert E\Vert} \end{aligned}

References

  • Yuxin Chen et al. - Spectral Methods for Data Science: A Statistical Perspective (2021)
  • KOCW 현대통계학(김충락) 강의