이번 포스트에서는 Deep Learning with Differential Privacy (Abadi et al., 2016) 논문을 리뷰하고자 합니다. 이 논문은 neural network 기반의 딥러닝 모델을 Differential Privacy를 만족하도록 학습하는 방법을 제시합니다. 이 과정에서 Stochastic gradient descent (SGD) 자체가 DP를 만족하도록 하는 방법인 DP-SGD를 제시하고, 이는 여러 후속 연구에서도 많이 활용되고 있습니다.
Definitions
Differential Privacy
Randomized mechanismalgorithmM:D→R 이 데이터셋의 정의역 D 와 output range R 를 갖는다고 하자. 이때 메커니즘 M 이 (ϵ,δ)-DP인 것은 임의의 두 이웃하는 데이터셋 D,D′∈D 에 대해
Pr(M(D)∈S)≤eϵPr(M(D′)∈S)+δ
∀S⊆R 에 대해 성립한다는 것이다. 여기서 ϵ 은 privacy budget, δ 는 failure probability이다. 이때 δ=0 이면 ϵ-DP라고 한다.
(ϵ,δ)-DP 메커니즘으로 deterministic한 실함수 f:D→R 를 근사하는 일반적인 메커니즘은 Gaussian mechanism이다. 이는 다음과 같이 함수에 Gaussian noise를 추가하는 것이다.
M(D):=f(D)+N(0,Sf2⋅σ2I)
여기서 Sf는 sensitivity민감도로 정의되며, ∣f(D)−f(D′)∣로 표현된다. σ는 noise의 scale을 나타낸다.
파라미터 θ에 대해, penalty를 나타내는 적절한 손실 함수 L을 정의하면, empirical risk는 다음과 같이 정의할 수 있다.
L(θ)=N1i∑L(θ,xi)
일반적으로 최적화 문제 minθL(θ) 를 풀기 위해서 Newton's method나 L-BFGS와 같은 최적화 알고리즘을 사용한다. 그러나 Hessian matrix를 계산하는 것은 일반적인 딥러닝 세팅(large N)에서는 매우 비효율적이다. 따라서, 확률적 경사하강법 기반의 알고리즘을 사용한다.
즉, 전체 데이터의 랜덤한 부분집합인 배치batchB를 만들고 다음과 같이 그래디언트를 계산한다.
gB=∣B∣1x∈B∑∇θL(θ,x)
이는 전체 데이터에 대한 그래디언트 ∇θL(θ)의 추정값으로 간주되며, 업데이트 절차는 −gB 방향으로 주어진다.
θt+1=θt−ηgB
딥러닝에서 DP를 부여하기 위한 핵심 포인트는 SGD의 각 스텝에서 DP를 만족시키도록 하는 방법을 생각할 수 있다. 이를 위해 논문에서는 다음과 같은 알고리즘을 제시한다.
DP-SGD
DP-SGD 알고리즘은 다음과 같이 정의된다.
Noise clipping
Algorithm 1가 DP를 보장한다는 것을 확인하기 위해서 그래디언트의 유계성이 필요한데, 이를 위해 논문에서는 noise clipping을 사용한다. 이는 그래디언트의 L2 norm이 C를 넘지 않도록 하는 것인데, 다음과 같이 정의된다.
gˉt(xi)=gt(xi)/max(1,C∥gt(xi)∥2)
여기서 C는 clipping threshold를 나타낸다.
Moments Accountant
만약 다음과 같은 noise scale을 사용한다고 하자.
σ=ϵ12logδ1.25
그러면 Algorithm 1의 각 스텝은 아래 strong composition theorem에 의해 각 배치 L에 대해 (ϵ,δ)-DP를 만족한다. 따라서 privacy amplification theorem에 의해 위 알고리즘은 전체 데이터셋에 대해 (O(qϵ),qδ)-DP를 만족한다. 여기서 q=L/N은 배치의 샘플링 비율을 의미한다.
(Strong composition theorem)
M1이 (ϵ1,δ1)-DP 이고, M2가 (ϵ2,δ2)-DP 라면 M1∘M2 는 (ϵ1+ϵ2,δ1+δ2)-DP 를 만족한다.
그러나 strong composition theorem의 bound는 tight하지 않다 (아래 그림 참고). 이 논문에서는 moments accountant라는 더 강력한 계산 방법을 제시한다. Moments accountant 정리를 이용하면, 적절한 노이즈와 clipping threshold를 선택하여 (이후 설명 참고) 위 알고리즘이 (O(qϵT),δ)-DP 를 만족함을 보일 수 있다. 우선, 정리는 다음과 같이 주어진다.
Strong composition theorem와 moments accountant의 비교. Abadi et al. (2016)
Theorems
Theorem 1
상수 c1,c2가 존재하여, 샘플링 비율 q=L/N과 스텝 수 T가 주어졌을 때, 임의의 ϵ<c1q2T 에 대해 위 Algorithm은 아래 조건 하에서 (ϵ,δ)-DP를 만족한다.
σ≥c2ϵqTlog(1/δ)
만약 strong composition theorem을 사용한다면 σ=Ω(qTlog(1/δ)log(T/δ)/ϵ)이다. 예를 들어,
q=0.01,σ=4,δ=10−5,T=10000
일 때, moments accountant를 사용하면 ϵ≈1.26이 되지만, strong composition theorem을 사용하면 ϵ≈9.34가 된다. 결과적으로 moments accountant를 사용하면 더 작은 ϵ을 얻을 수 있다.
이제 위 Theorem 1을 설명하기 위해 다음과 같은 정의들과 보조정리들을 이용한다.
Privacy Loss
우선 Privacy loss (혹은 privacy loss random variable)는 다음과 같이 randomized mechanism M에 대해 정의되는 확률변수이다.
일반적으로 머신러닝에서 우리가 mechanism이라고 할 수 있는 대부분의 알고리즘은 세부 메커니즘 여러 개를 순차적으로 적용하는 경우에 해당한다. 이를 adaptive composition이라고 하는데, 이전 단계 메커니즘의 출력이 다음 단계 메커니즘의 입력으로 작용하는 경우를 지칭한다. 이러한 경우, k번째 메커니즘의 auxiliary input aux 는 이전 메커니즘들의 output o1:k−1에 의존한다.
(Stochastic) Gradient descent의 경우, 각 스텝의 parameter θt는 이전 스텝의 parameter θt−1에 의존한다. 따라서 adaptive composition에 해당한다.
Log Moment Generating Function
확률변수 X의 cumulant generating functionCGF은 다음과 같이 moment generating functionMGF에 log를 취한 것으로 정의된다.
αX(λ):=logE[eλX]
이와 마찬가지로, privacy loss random variable c(o;M,aux,d,d′)의 CGF를 다음과 같이 정의하자.
함수 f:D→Rp 가 ∥f(⋅)∥2≤1 을 만족한다고 하자. σ≥1 이고 J가 [n]={1,…,n} 으로부터의 랜덤 샘플이라고 하자. 이때 각 원소는 확률 q<16σ1 로 독립적으로 선택된다고 하자. 그러면 임의의 양의 정수 λ≤σ2logqσ1 에 대해 다음 Gaussian mechanism
M(d)=i∈J∑f(di)+N(0,σ2I)
의 CGF는 다음을 만족한다.
αM(λ)≤(1−q)σ2q2λ(λ+1)+O(q3λ3/σ3).
Proof.
일반성을 잃지 않고(WLOG), d=d′∪{dn}, f(dn)=e1, ∑i∈J\{n}f(di)=0 라고 두자. 그러면 M(d)와 M(d′)는 첫 번째 원소를 제외하고 동일한 분포 (Gaussian)를 갖는다.
μ0,μ1를 각각 N(0,σ2), N(1,σ2)의 확률밀도함수로 두자. 그러면 q의 확률로 dn이 추가되므로, 다음 관계가 성립한다.
이므로, 위 Lemma를 증명하기 위해서는 세번째 항이 $q^{2}\lambda(\lambda+1)/(1-q)\sigma^{2}$ 로 bound되는 것을 보이면 된다.
$\nu_0 = \mu_0, \nu_1 = \mu$ 인 케이스에 대해 이를 보이도록 하자. (반대의 경우도 비슷하게 증명할 수 있다.)
우선, $\mu = (1-q)\mu_0 + q\mu_1$ 이므로 다음이 성립한다.
이로부터 $t>3$인 경우에는 $O(q^3\lambda^3/\sigma^3)$으로 bound됨을 알 수 있다.
Implication
정리 2의 composability로부터 만일 우리가 다루는 randomized mechanism M이 adaptive mechanism들의 함수열로 주어진다면 (Mi:i=1,⋯,k), 실제 알고리즘에서는 i번째 단계마다의 bound αMi(λ) 를 계산하고 이들의 합을 취하면 전체 알고리즘 M의 moment bound αM(λ)를 얻을 수 있다.
정리 2의 Tail bound로부터 앞서 구한 αM(λ)를 이용해 δ 값을 계산할 수 있게 된다. (혹은 δ를 미리 상정한 상황에서는 ϵ 값을 계산할 수 있다.)
DP to Moments bounds
Randomized mechanism의 Differential privacy와 moment bound는 다음과 같이 변환이 가능하다.
M이 ϵ-DP 메커니즘이라면, 임의의 λ>0 에 대해 M의 CGF는 다음을 만족한다.
αM(λ)≤λϵ(eϵ−1)+λ2ϵ2e2ϵ/2.
Proof
Z가 privacy loss random variable c(M(d)) 이라고 하자. 그러면 ϵ-DP 메커니즘 M은 다음을 만족한다.
Abadi, M., Chu, A., Goodfellow, I., McMahan, H. B., Mironov, I., Talwar, K., & Zhang, L. (2016). Deep Learning with Differential Privacy. Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, 308–318. https://doi.org/10.1145/2976749.2978318
Dwork, C., Rothblum, G. N., & Vadhan, S. (2010). Boosting and Differential Privacy. 2010 IEEE 51st Annual Symposium on Foundations of Computer Science, 51–60. https://doi.org/10.1109/FOCS.2010.12