위 정리를 실제로 사용하기 위해 몇 가지 가정을 추가하여 다음과 같이 보다 user-friendly한 형태의 부등식을 얻을 수 있다. 우선 random matrix sequence에 다음과 같은 가정을 추가하자.
EXi=0,∥Xi∥≤L,∀i
그러면 n=max{n1,n2} 라고 둘 때 임의의 a≥2 에 대해 다음이 성립한다.
P(i=1∑mXi≤2avlogn+32aLlogn)>1−2n−a+1
Spectral Norm inequality
Bernstein inequality를 이용하면, 랜덤행렬 X=[Xi,j] 에서 각 원소들이 독립일 때 다음과 같은 정리가 성립한다는 것을 도출할 수 있다.
정리.
대칭 랜덤행렬 X=[Xi,j]∈Rn×n이 다음 성질을 만족한다고 하자.
EXi,j=0,∣Xi,j∣≤B
이때 matrix variance statistic
v:=imaxj∑EXi,j2
를 정의하면 spectral norm에 대해 모든 t≥0 에 대해 다음 부등식을 만족하는 universal constant c>0 이 존재한다.
P(∥X∥≥4v+t)≤nexp(−cB2t2)
Low-rank matrix Denoising
Perturbation theory를 사용하는 데이터사이언스 분야로 우선 Low-rank matrix denoising 을 다루어보도록 하자. Low-rank matrix denoising이란, 주어진 관측 행렬에서 노이즈를 제거한 Low-rank matrix를 추정하는 과정이라고 생각하면 된다. 이전 Perturbation Theory에서 고려한 다음과 같은 모델을 생각하자.
M=M⋆+E
여기서 행렬 M이 관측치를 의미하고, E는 노이즈에 해당하는 행렬이다. 따라서 우리가 추정해야할 대상 행렬은 M⋆ 인데, 이를 위해서 우선 eigendecomposition M⋆=U⋆Λ⋆U⋆T 를 생각하자. 또한, 고유값이 ∣λ1⋆∣≥⋯≥∣λr⋆∣>0 으로 주어진다고 가정하자. 일반적으로 노이즈 행렬은 다음과 같은 랜덤 행렬로 가정한다.
Ei,j∼i.i.dN(0,σ2)
How to
관측 행렬 M으로부터 노이즈가 제거된 행렬 M⋆를 추정하는 것은 어려워 보이지만, 해답은 비교적 간단하다. 만일 추정해야할 행렬 M⋆의 계수가 r이라면, 단지 관측행렬 M에서 r개의 고유값 및 고유벡터를 취하는 것으로 해결된다. 즉, 만일 M의 고유값들이 다음과 같이 정렬된다면
∣λ1∣≥∣λ2∣≥⋯≥∣λn∣
여기서 큰 고유값 순으로 r개를 취한 후, 각 고유값에 대응되는 고유벡터로 공간으로 만든 행렬
[u1,u2,…,ur]∈Rn×r 은 행렬 U⋆의 추정치가 된다.
Performance
방식은 매우 간단한 반면, 실제로 위와 같은 방법이 얼마나 효과적인지를 파악하기 위해서는 이전 글에서 다룬 David-Kahan sinΘ정리를 이용하면 된다. David-Kahan theorem으로 부터 다음과 같은 부등식을 얻을 수 있는데, 이는 추정해야할 부분공간 U⋆ 와 추정치로 제시된 부분공간 U 의 거리가 매우 높은 확률로 가깝게 도출될 수 있음을 의미한다.
P(dist(U,U⋆)≤∣λr⋆∣2∥E∥)>1−O(n−8)
또한, 이 과정에서 노이즈 행렬에 대해 σn≤51−1/2∣λr⋆∣ 을 가정하면 Weyl 부등식으로부터 다음이 확률 1−O(n−8) 로 성립한다.
∣λi∣≤∥E∥≤5σn∀i≥r+1
Euclidean Accuracy
앞선 추정방법을 종합하여, 알려지지 않은 행렬 M⋆ 를 추정치 M^=UΛUT 로 추정하는 과정에서의 정확성을 살펴보면 다음과 같다. 우선 삼각부등식을 이용하면 다음 부등식을 얻을 수 있는데,
∥UΛUT−M⋆∥≤∥M−M⋆∥+∥UΛUT−M∥=∥E∥+∣λr+1∣≤2∥E∥
행렬 UΛUT−M⋆ 의 계수가 최대 2r 이므로, 다음이 성립한다.
P(UΛUT−M⋆F≤10σ2nr)>1−O(n−8)
References
Yuxin Chen et al. - Spectral Methods for Data Science: A Statistical Perspective (2021)