2022-10-19发表2022-10-20更新13 分钟读完 (大约2013个字)0次访问

【论文笔记】Plug & Play Attacks—— Towards Robust and Flexible Model Inversion Attacks（ICMP 2022）

https://zhuanlan.zhihu.com/p/536091331

摘要

关于Model Inversion Attacks（模型反转攻击），即通过利用模型的learned knowledge，从目标分类器的私有训练数据中创造出反映class特征的合成图像。相当于从模型中提取出每种类别特定的特征。这也是很严重安全隐患，因为可能可以提取出如人脸、指纹、身份信息等敏感隐私信息，那么攻击者可以重构人脸，冒用身份……

以前的研究都是训练GAN（生成对抗网络）来作为image priors（先验）。但是存在耗时、耗力、易受数据集分布变化的影响。本文提出的Plug & Play攻击可以减少对image prior的依赖，只需要一个GAN网络即可对大范围的目标进行攻击。而且即使使用的是预训练好的GAN模型、数据分布发生很大变化也可以达到很好的攻击效果。

1 Introduction

为了解决训练过程中会出现的梯度消失的问题，使用Poincare损失函数，而不是交叉熵损失函数。加入随机转化避免过拟合。首次提出了要从攻击结果中找出有意义的样本的重要性。

2 Model Inversion in Deep Learning

介绍了以前一些攻击方法，及其缺陷。

目前有三种攻击方式：optimization-based, training-based, or architecture-based

optimization-based：通过产生合成的模型输入来找类型特征，也基于梯度下降的方法

training-based：训练GAN模型，将目标模型视作一个加密器，要找解密器

这些都不是为了获取隐私信息，只是探寻目标模型各个类别的特征

可能存在fooling image（无意义的噪点图像），out-of-distribution data（如猫狗分类中出现了一个熊猫图像）

影响因素：distributional shifts, vanishing gradients, and non-robust target models

3 Generative Model Inversion Attacks

定义了理想的MIA攻击，以及会影响MIA攻击效果的因素

假设：目标分类模型为，且为对x是否为类c∈C的预测分数，敌手可以访问目标模型（作为white box），且无限次地问询，但并不知道C的任何信息。

敌手要构造一个合成图像x^，满足时目标类别c的特征，泄露了隐私信息。这在较浅的神经网络中可行，但是现在流行的深层神经网络就不行了。

之后产生了使用GAN网络来生成样本（将特征向量z映射到图像空间），并训练鉴别器D来鉴别是否是真实样本x还是由G生成的G(z)，得到等式。这样或许可以得到评分（$y_c=M_{target}(\overset{\thicksim}{x} )_c$）最高的$ \overset{\thicksim}{x} = G(\overset{\thicksim}{z})$。但是这个构造得到的$\overset{\thicksim}{x}$不一定具有意义。

为图像的分布，令为X中的样本可能具有的人类可识别特征的分布，令为c类的特征。如再面部图像中，F和P的区别在于，F可能包含发色、皱纹、瞳孔间距等面部特征，而P还多了与身份信息无关的（如服装、背景等）。也就是说，$F$只包含和人物的身份信息有关的信息，而$P$还包含了无用的信息。

注意，不同类别之间的特征可能相同。

现假设，有2个类别满足，且，即特征不相同。

G可以拟合P(X)，进而近似F(X)，然后合成符合这个分布的样本x。

【问题】$\overset{\thicksim}{X}$是如何得到的

4 Towards Robust and Flexible MIAs

介绍本文提出的Plug & Play攻击方式。这种方式鲁棒性更好，也更适用于distributional shift setting分布转换设置

首先，latent vectors潜伏向量被采样并映射到它们的中间表征w（用预训练的StyleGAN2模型）
然后根据w生成图像，进行转换（Transformations），并输入目标模型。
最后，在目标模型的输出和目标类别c上计算Poincare损失，并通过反向传播损失和执行梯度下降步骤更新w。优化完成后，根据其对随机变换的鲁棒性，选择一个结果子集。

4.1. Target-Independent Image Priors

采用预训练的StyleGAN2模型作为图像的先验（不需要辅助输入和训练特定数据集的模型）。只需要是同一领域预训练好的模型。

这里预训练好的StyleGAN2包含2个模块：会将随机的latent vector潜伏向量（服从标准正态分布）的z映射到intermediate latent representation中间潜伏向量w。则根据w来生成图片

4.2. Increasing Robustness by Transformations

进行一系列的图像变换，并令。在优化过程中，先进行这些可导的图像变换，再输入到目标模型中得到预测分数。即在前向传播过程中计算的是

这样，若这些变换后的图像越接近目标分布，攻击就会越成功。而且可以增加生成的图像的鲁棒性

4.3 Overcoming Vanishing Gradients

以前的MIA都基于交叉熵损失函数，这样关于output logit的偏导为，容易发生梯度消失。而初始的潜伏向量又是随机产生的，随着调整，其预测分数会越来越高，导致梯度趋于消失。这样如果预先的采样不好的话，由于梯度下降的问题，对初始图像的改动就很小，攻击就会不成功。

为了解决这个问题，采用Poincaré distance作为损失函数。（其中$||·||_2$是欧几里得范数）。它是一个特殊hyperbolic space(双曲空间)中的距离度量。在这个空间里面，一个圆的面积随着半径的增加指数型增加。

【注】欧几里得范数即$L2$范数

4.4 Selecting Meaningful Attack Results

选用的方法是transformation-based selection，即通过变换，重新计算得分，选择最高的

攻击结果可能存在误导。本文采取的方法如下：

选取大量的符合正态分布的样本，并映射到intermediate latent space中间隐藏空间$W$
为每一个w生成图像，并进行剪裁和调整大小的变换。计算平均预测分数，以及horizontally flipped counterpart with $M_{target}$，为每个类别c选择其中得分最高的初始图像。
根据蒙特卡罗方法

计算预期稳健预测分数，并进行$N=100$次随机的图像变换，选取其中得分最高的50个作为最终攻击结果。【注意】这里选取的变换要和优化过程中选取的不同或更强（否则poorly generated的样本可能会过拟合）

总结

Plug & Play攻击要解决的问题就是：

5 Experiments

介绍了验证Plug & Play有效性的实验，和其他攻击方法的对比

评价标准有：

在目标模型的数据集上训练Inception-v3模型，然后用该模型对攻击结果进行打分，给出在目标类别上的top-1和top-5准确率。
计算平均特征距离$δ_{eval}$，针对面部图像用预训练的FaceNet来测量特征距离$δ_{face}$，越小说明越接近训练数据。
Fréchet inception distance（FID）

【论文笔记】Plug & Play Attacks—— Towards Robust and Flexible Model Inversion Attacks（ICMP 2022）

http://example.com/2022/10/19/论文笔记2/

作者

Aemilia Xu

发布于

2022-10-19

更新于

2022-10-20

许可协议

#Model Inversion Attack

【论文笔记】Plug & Play Attacks—— Towards Robust and Flexible Model Inversion Attacks（ICMP 2022）

摘要

1 Introduction

2 Model Inversion in Deep Learning

3 Generative Model Inversion Attacks

4 Towards Robust and Flexible MIAs

4.1. Target-Independent Image Priors

4.2. Increasing Robustness by Transformations

4.3 Overcoming Vanishing Gradients

4.4 Selecting Meaningful Attack Results

总结

5 Experiments

作者

发布于

更新于

许可协议

评论

目录