Not Bugs but Features：对抗性样本的成因

Title: Title：Adversarial Examples are not Bugs, they are Features（2019）

很难解释神经网络是根据什么做预测的，所以更难得知对抗性样本是如何骗过神经网络的。这篇文章将给出了一种对对抗性样本攻击成因的全新的解释。

先前的解释认为对抗性样本攻击是机器模型结构问题，属于训练欠拟合的结果和线性化的结果，只要有更好的训练算法和更大的训练数据集就可以避免这些bug。本文认为所谓“对抗性样本”是源自数据集特征的直接产物，模型只是把数据集的特征给学习了出来。

文章认为机器学习到的图片的特征大于人眼能感知的特征，其中分为robust特征和non-robust特征。前者可以根据人眼能感知的特征来进行分类，能够抵抗微小对抗性扰动；后者则是人眼不能感知的特征，它容易受到对抗性攻击而分类错误。