【论文笔记】Plug & Play Attacks—— Towards Robust and Flexible Model Inversion Attacks(ICMP 2022)

【论文笔记】Plug & Play Attacks—— Towards Robust and Flexible Model Inversion Attacks(ICMP 2022)

https://zhuanlan.zhihu.com/p/536091331

摘要

关于Model Inversion Attacks(模型反转攻击),即通过利用模型的learned knowledge,从目标分类器的私有训练数据中创造出反映class特征的合成图像。相当于从模型中提取出每种类别特定的特征。这也是很严重安全隐患,因为可能可以提取出如人脸、指纹、身份信息等敏感隐私信息,那么攻击者可以重构人脸,冒用身份……

以前的研究都是训练GAN(生成对抗网络)来作为image priors(先验)。但是存在耗时、耗力、易受数据集分布变化的影响。本文提出的Plug & Play攻击可以减少对image prior的依赖,只需要一个GAN网络即可对大范围的目标进行攻击。而且即使使用的是预训练好的GAN模型、数据分布发生很大变化也可以达到很好的攻击效果。

1 Introduction

为了解决训练过程中会出现的梯度消失的问题,使用Poincare损失函数,而不是交叉熵损失函数。加入随机转化避免过拟合。首次提出了要从攻击结果中找出有意义的样本的重要性。

2 Model Inversion in Deep Learning

介绍了以前一些攻击方法,及其缺陷。

目前有三种攻击方式:optimization-based, training-based, or architecture-based

optimization-based:通过产生合成的模型输入来找类型特征,也基于梯度下降的方法

training-based:训练GAN模型,将目标模型视作一个加密器,要找解密器

这些都不是为了获取隐私信息,只是探寻目标模型各个类别的特征

可能存在fooling image(无意义的噪点图像),out-of-distribution data(如猫狗分类中出现了一个熊猫图像)

影响因素:distributional shifts, vanishing gradients, and non-robust target models

3 Generative Model Inversion Attacks

定义了理想的MIA攻击,以及会影响MIA攻击效果的因素

假设:目标分类模型为,且为对x是否为类c∈C的预测分数,敌手可以访问目标模型(作为white box),且无限次地问询,但并不知道C的任何信息。

敌手要构造一个合成图像x^,满足时目标类别c的特征,泄露了隐私信息。这在较浅的神经网络中可行,但是现在流行的深层神经网络就不行了。

之后产生了使用GAN网络来生成样本(将特征向量z映射到图像空间),并训练鉴别器D来鉴别是否是真实样本x还是由G生成的G(z),得到等式。这样或许可以得到评分($y_c=M_{target}(\overset{\thicksim}{x} )_c$)最高的$ \overset{\thicksim}{x} = G(\overset{\thicksim}{z})$。但是这个构造得到的$\overset{\thicksim}{x}$不一定具有意义。

为图像的分布,令为X中的样本可能具有的人类可识别特征的分布,令为c类的特征。如再面部图像中,F和P的区别在于,F可能包含发色、皱纹、瞳孔间距等面部特征,而P还多了与身份信息无关的(如服装、背景等)。也就是说,$F$只包含和人物的身份信息有关的信息,而$P$还包含了无用的信息

注意,不同类别之间的特征可能相同。

现假设,有2个类别满足,且,即特征不相同。

G可以拟合P(X),进而近似F(X),然后合成符合这个分布的样本x。

【问题】$\overset{\thicksim}{X}$是如何得到的

4 Towards Robust and Flexible MIAs

介绍本文提出的Plug & Play攻击方式。这种方式鲁棒性更好,也更适用于distributional shift setting分布转换设置

  1. 首先,latent vectors潜伏向量被采样并映射到它们的中间表征w(用预训练的StyleGAN2模型)
  2. 然后根据w生成图像,进行转换(Transformations),并输入目标模型。
  3. 最后,在目标模型的输出和目标类别c上计算Poincare损失,并通过反向传播损失和执行梯度下降步骤更新w。优化完成后,根据其对随机变换的鲁棒性,选择一个结果子集。

4.1. Target-Independent Image Priors

采用预训练的StyleGAN2模型作为图像的先验(不需要辅助输入和训练特定数据集的模型)。只需要是同一领域预训练好的模型。

这里预训练好的StyleGAN2包含2个模块:会将随机的latent vector潜伏向量(服从标准正态分布)的z映射到intermediate latent representation中间潜伏向量w。则根据w来生成图片

4.2. Increasing Robustness by Transformations

进行一系列的图像变换,并令。在优化过程中,先进行这些可导的图像变换,再输入到目标模型中得到预测分数。即在前向传播过程中计算的是

这样,若这些变换后的图像越接近目标分布,攻击就会越成功。而且可以增加生成的图像的鲁棒性

4.3 Overcoming Vanishing Gradients

以前的MIA都基于交叉熵损失函数,这样关于output logit的偏导为,容易发生梯度消失。而初始的潜伏向量又是随机产生的,随着调整,其预测分数会越来越高,导致梯度趋于消失。这样如果预先的采样不好的话,由于梯度下降的问题,对初始图像的改动就很小,攻击就会不成功。

为了解决这个问题,采用Poincaré distance作为损失函数。(其中$||·||_2$是欧几里得范数)。它是一个特殊hyperbolic space(双曲空间)中的距离度量。在这个空间里面,一个圆的面积随着半径的增加指数型增加。

【注】欧几里得范数即$L2$范数

4.4 Selecting Meaningful Attack Results

选用的方法是transformation-based selection,即通过变换,重新计算得分,选择最高的

攻击结果可能存在误导。本文采取的方法如下:

  1. 选取大量的符合正态分布的样本,并映射到intermediate latent space中间隐藏空间$W$

  2. 为每一个w生成图像,并进行剪裁和调整大小的变换。计算平均预测分数,以及horizontally flipped counterpart with $M_{target}$,为每个类别c选择其中得分最高的初始图像。

  3. 根据蒙特卡罗方法

    计算预期稳健预测分数,并进行$N=100$次随机的图像变换,选取其中得分最高的50个作为最终攻击结果。【注意】这里选取的变换要和优化过程中选取的不同或更强(否则poorly generated的样本可能会过拟合)

总结

Plug & Play攻击要解决的问题就是:

5 Experiments

介绍了验证Plug & Play有效性的实验,和其他攻击方法的对比

评价标准有:

  1. 在目标模型的数据集上训练Inception-v3模型,然后用该模型对攻击结果进行打分,给出在目标类别上的top-1和top-5准确率。
  2. 计算平均特征距离$δ_{eval}$,针对面部图像用预训练的FaceNet来测量特征距离$δ_{face}$,越小说明越接近训练数据。
  3. Fréchet inception distance(FID)

【论文笔记】Plug & Play Attacks—— Towards Robust and Flexible Model Inversion Attacks(ICMP 2022)

http://example.com/2022/10/19/论文笔记2/

作者

Aemilia Xu

发布于

2022-10-19

更新于

2022-10-20

许可协议

评论