Title: Title:Adversarial Examples are not Bugs, they are Features(2019)

image-20201030233200893

很难解释神经网络是根据什么做预测的,所以更难得知对抗性样本是如何骗过神经网络的。这篇文章将给出了一种对对抗性样本攻击成因的全新的解释。

先前的解释认为对抗性样本攻击是机器模型结构问题,属于训练欠拟合的结果和线性化的结果,只要有更好的训练算法和更大的训练数据集就可以避免这些bug。本文认为所谓“对抗性样本”是源自数据集特征的直接产物,模型只是把数据集的特征给学习了出来。

文章认为机器学习到的图片的特征大于人眼能感知的特征,其中分为robust特征和non-robust特征。前者可以根据人眼能感知的特征来进行分类,能够抵抗微小对抗性扰动;后者则是人眼不能感知的特征,它容易受到对抗性攻击而分类错误。