Rényi Differential Privacy Differential privacy는 초기 Dwork의 논문에서 $\epsilon$-DP, $(\epsilon,\delta)$-DP 형태로 제안되었습니다. 이후 CDP concentrated DP 등 다양한 형태의 변형이 등장하였고, 최근에는 가설검정 형태에 기반한 Gaussian DP (혹은 $f$-DP)의 개념도 등장하였습니다. 이러...
2024. 5. 13.6 min read
Rényi Differential Privacy
Differential privacy는 초기 Dwork의 논문에서 ϵ-DP, (ϵ,δ)-DP 형태로 제안되었습니다. 이후 CDPconcentrated DP 등 다양한 형태의 변형이 등장하였고, 최근에는 가설검정 형태에 기반한 Gaussian DP (혹은 f-DP)의 개념도 등장하였습니다. 이러한 시도들은 privacy loss에 대한 bound를 구성하는 과정을 좀 더 tight하게 만들기 위해 이루어졌고, 이번에 살펴볼 Renyi DP(RDP) 역시 DP의 변형된 정의 중 하나입니다. 참고한 논문은 Ilya Mironov의 Rényi Differential Privacy(2017) 와 Yuxiang Wang의 Subsampled Renyi Differential Privacy and Analytical Moments Accountant(2019) 입니다.
Variants of Differential Privacy
ϵ-DP
Differential privacy는 데이터셋 D에 대해, 1개의 데이터 포인트에 의해 발생하는 정보 유출을 확률적으로 제한하는 것을 목표로 합니다. 가장 기본적인 형태는 ϵ-DP로, 다음과 같이 정의됩니다.
Pr(f(D)∈S)≤eϵPr(f(D′)∈S)
여기서 D와 D′는 1개의 데이터 포인트만 다르고, f는 데이터셋 D에 대한 함수를 의미합니다 (D∼D′ 와 같이 나타내기도 합니다). 이때 f(D)는 D에 대한 함수 f의 결과값을 의미하며, S는 f의 결과값이 속할 수 있는 집합(measurable set)을 의미합니다.
Laplace Mechanism
ϵ-DP를 만족하는 대표적인 메커니즘은 Laplace 메커니즘입니다. Laplace 메커니즘은 f(D)에 대한 노이즈를 추가하는 방식으로, 다음과 같이 정의됩니다.
Lϵf(x)≜f(x)+Lap(ϵΔ1f)
여기서 Lap(λ)는 평균이 0이고 scale이 λ인 Laplace 분포를 의미하며, Δ1f는 f의 L1-민감도sensitivity를 의미합니다. 민감도는 f의 결과값이 변할 수 있는 최대 변화량을 의미하며, 다음과 같이 정의됩니다.
Δ1f=x∼x′max∥f(x)−f(x′)∥1
(ϵ,δ)-DP
(ϵ,δ)-DP는 확률적인 형태로 ϵ-DP를 만족하는 것을 의미합니다. 즉, δ의 확률을 제외하고는 ϵ-DP를 만족한다는 것을 의미합니다. (ϵ,δ)-DP는 다음과 같이 정의됩니다.
Pr(f(D)∈S)≤eϵPr(f(D′)∈S)+δ
δ=0인 경우는 ϵ-DP와 동일하기 때문에 ϵ-DP와 유사하다고 생각할 수 있지만, δ의 존재로 인해 ϵ-DP와 (ϵ,δ)-DP는 다른 성질을 가지게 됩니다.
Gaussian Mechanism
(ϵ,δ)-DP를 만족하는 대표적인 메커니즘은 Gaussian 메커니즘입니다. Gaussian 메커니즘은 f(D)에 대한 정규분포 노이즈를 추가하는 방식으로, 다음과 같이 정의됩니다.
Gϵ,δf(x)σ≜f(x)+N(0,σ2)>2log(1.25/δ)Δ2f/ϵ
Δ2f는 f의 L2-민감도를 의미합니다. 주의할 것은, Gaussian mechanism은 ϵ-DP를 만족하지 않는다는 것입니다. 또한, 일반적으로 가우시안 분포는 좋은 성질(ex. 두 가우시안 분포의 합은 가우시안 분포)을 가지기 때문에, Laplace mechanism보다 더 많이 사용되는 편입니다.
Concentrated Differential Privacy (CDP)
CDP는 2016년에 두 논문 (Bun & Steinke, 2016 : zCDP), (Dwork & Rothblum, 2016 : CDP) 에 의해 정립된 개념으로, subgaussian tail에 기반해 정의합니다. 여기서는 Dwork이 2016에 제안한 CDP에 대해 간략히 소개하겠습니다.
Subgaussian Random Variable
확률변수 X가 다음을 만족하면 이를 τ-subgaussian (τ>0) 인 확률변수라고 정의합니다.
∀λ∈R:E[eλX]≤exp(2λ2τ2)
이를 해석해보면 moment generating function(MGF)가 표준편차가 τ인 정규분포의 MGF보다 항상 작거나 같음을 의미합니다. 또한, 다음과 같이 표준편차의 최소값으로서 subgassian standardτ(X)를 정의합니다.
τ(X):=inf{τ≥0:X is τ−subgaussian}
Privacy Loss Random Variable
Support가 동일한 두 개의 이산확률변수 Y,Z가 주어졌을 때, privacy loss random variableL(Y∥Z)은 다음과 같이 정의됩니다.
L(Y∥Z)=log(Pr(Z=y)Pr(Y=y)),y∼Y
즉, 기댓값을 취하면 다음 관계가 성립합니다.
EY[L(Y∥Z)]=KL(Y∥Z)
Subgaussian Divergence
두 확률변수 Y,Z에 대해 다음 두 조건을 만족하는 것을 DsubG(Y∥Z)⪯(μ,τ) 라고 정의합니다.
E[L(Y∥Z)]≤μ
중심화centered된 L(Y∥Z)−EL(Y∥Z) 가 subgaussian이고,
τ(L(Y∥Z)−EL(Y∥Z))≤τ
가 성립한다.
(μ,τ)-CDP
Randomized algorithm f이 모든 이웃한 데이터셋 D∼D′ 에 대해 DsubG(f(D)∥f(D′))⪯(μ,τ) 이면 (μ,τ)-CDP 라고 정의합니다. 또한, (μ,τ)-CDP인 f에 대해서는 다음과 같은 성질이 성립합니다.
Pr(L(Y∥Z)≥μ+t⋅τ)≤exp(−2t2)
CDP나 zCDP는 모두 privacy loss variable L(Y∥Z) 을 설정하여, L(Y∥Z)의 모든 moment적률에 대한 bound를 가정합니다 (MGF 기반의 subgaussian 정의에 의함). 반면, 이후 살펴볼 RDP의 경우는 하나의 moment만을 이용한다는 차이가 있습니다. 우선 Renyi divergence발산에 대해 다루어보도록 하겠습니다.
Renyi Divergence
Divergence는 두 확률측도(분포) 간의 거리를 재는 방식입니다. Rényi divergence는 이들 중 하나로, 두 확률분포 P,Q에 대한 α-Renyi divergence는 다음과 같이 정의됩니다.
Dα(P∥Q)≜α−11logEQ(Q(x)P(x))α(1)
α>1 로 주어지는데, α=1일 경우는 극한을 취하여 얻을 수 있으며 이 경우 KL divergence와 동일한 것을 확인할 수 있습니다.
D1(P∥Q)=EPlogQ(x)P(x)
마찬가지로, α=∞ 인 경우는 다음과 같이 정의합니다.
D∞(P∥Q)=x∈supp(Q)suplogQ(x)P(x)
(α,ϵ)-RDP
앞선 divergence 정의로부터, randomized mechanism f의 ϵ-DP를 이끌어낼 수 있습니다. 만일 두 이웃한 데이터셋 D∼D′ 에 대해
D∞(f(D)∥f(D′))≤ϵ
을 만족한다면 f는 ϵ-DP임이 확인가능합니다.
이에 착안하여, 다음과 같이 임의의 α>1에 대한 DP를 고안할 수 있습니다. 이를 (α,ϵ)-RDP 라고 정의하며, 다음을 만족하는 randomized mechanism f를 의미합니다.
Dα(f(D)∥f(D′))≤ϵ
Properties
(α,ϵ)-RDP인 f에 대해 다음 성질들이 성립합니다.
Composition
f:D→R1이 (α,ϵ1)-RDP이고 g:R1×D→R2 가 (α,ϵ2)-RDP 라고 하자. 그러면 X←f(D), Y←g(X,D) 로 정의되는 (결합) 메커니즘 (X,Y)은 (α,ϵ1+ϵ2)-RDP를 만족한다.
RDP to (ϵ,δ)-DP
f가 (α,ϵ)-RDP를 만족하는 메커니즘이면 이는 동시에 (ϵ+α−1log1/δ,δ)-DP를 만족한다. (δ는 0과 1사이 임의의 실수)
DP-SGD에서 사용한 moments accountant의 개념을 RDP에도 적용할 수 있습니다. Moments accountant 개념은 본질적으로 CGFCumulative Generating Function의 bound αM(λ)를 이용하여 privacy loss의 bound를 구하는 방식입니다. 또한 이를 이용하면 초기 설정한 ϵ으로부터 δ를 계산하거나, 반대로 δ로부터 ϵ을 계산할 수도 있습니다. (자세한 내용은 여기를 참고하세요)
여기서 αM(λ:D,D′) 는 privacy loss random variable L의 CGF를 의미합니다. 두번째 등식은 측도 변환으로부터 얻어집니다.
Moments accountant에서 DP와 moment bound가 동치임을 보였는데, 위 설정으로부터 RDP와 moment bound가 역시 동치임을 보일 수 있습니다. 이는 다음과 같이 주어집니다.
Moment bound αM(λ)⇔(λ+1,λαM(λ))−RDP
References
I. Mironov, “Rényi Differential Privacy,” in 2017 IEEE 30th Computer Security Foundations Symposium (CSF), Santa Barbara, CA: IEEE, Aug. 2017, pp. 263–275. doi: 10.1109/CSF.2017.11.
Y.-X. Wang, B. Balle, and S. P. Kasiviswanathan, “Subsampled Renyi Differential Privacy and Analytical Moments Accountant,” in Proceedings of the Twenty-Second International Conference on Artificial Intelligence and Statistics, PMLR, Apr. 2019, pp. 1226–1235. Accessed: May 13, 2024. [Online]. Available: https://proceedings.mlr.press/v89/wang19b.html
M. Bun and T. Steinke, “Concentrated Differential Privacy: Simplifications, Extensions, and Lower Bounds.” arXiv, May 06, 2016. doi: 10.48550/arXiv.1605.02065.
C. Dwork and G. N. Rothblum, “Concentrated Differential Privacy.” arXiv, Mar. 16, 2016. doi: 10.48550/arXiv.1603.01887.