【论文笔记】Membership Inference Attacks Against Machine Learning Models (ICMP 2017)
研究成员推理攻击(Membership Inference Attack, MIA):目标模型作为black box,要求判断某一条data record是否是用于训练该模型的数据。并探讨导致泄露的因素
本文主要针对有监督训练的模型,提出了shadow training的技术来为训练攻击模型构造数据集:
首先,利用训练目标模型的API训练若干shadow models,模仿目标模型的行为
接着,用训练好的shadow models来为attack model构造训练集数据、测试集数据(解决了目标模型是black box的问题,对预测向量的数据增强效果)
最终,attack model实现判断是否是训练集的二分类问题攻击的实现主要是利用了目标模型在其训练集和非训练集上的输出行为差异,这一般由于训练时发生了过拟合导致,但其根本原因在于存在accuracy gap(模型在训练集和测试集上准确率的差异,对每个类别来说)