ASVspoof(Automatic Speaker Verification and Spoofing Countermeasures Challange)是针对音频伪造攻击特设立的比赛,主办方是ISCA(International Speech Communication Association),该大会是推动音频伪造、防伪造攻击的一大主力,现已经举办了4届(2015-2021 每两年一届)。本文结合以下两篇总结性论文对该比赛的情况进行简要介绍,主要包括比赛任务、数据集、结果,以及比赛中涌现出来的主要工作等。ASVspoof2015ASVspoof2017较早并且主要面向传统的ASV系统攻防挑战而不是目前主流的神经网络结构,因此以下重点关注ASVspoof2019ASVspoof2021

[1] ASVspoof 2021: accelerating progress in spoofed and deepfake speech detection

[2] ASVspoof 2019: A large-scale public database of synthesized, converted aznd replayed speech

[3]ASVspoof 2019: Spoofing Countermeasures for the Detection of Synthesized, Converted and Replayed Speech

Challenge

ASVspoof至今已经举办四届,每一届围绕面向 ASV(Adversarial speaker recognition)系统的音频伪造攻防聚焦不同的重点展开。ASVspoof2015主要面向LA(Logical Access)域攻击展开攻防,主要面向基于语音合成和语音转换的音频伪造攻击。ASVspoof2017加入了PA(Physical Access)域攻击,主要围绕音频重放攻击。伴随着基于神经网络架构的ASV的兴起,ASVspoof2019ASVspoof2015的基础上主要面向主流的基于ASV神经网络模型展开了攻防挑战,并且构建了专用的数据集和评价指标t-DCFASVspoof2021加入了DF(Audio Deepfake)赛道的攻防挑战,并且在原有基础上进一步丰富了数据集,并提供了四个官方Baseline。

  • Logical Access(LA):LA表示直接访问ASV API进行攻击的场景,例如电话银行等。攻击者直接将合成的音频通过数字空间输入给目标系统,无需经过物理播放-再录音的过程,从而避免了传播过程中的由设备和空间信道造成的干扰。在ASVspoof2021种LA赛道引入了codec。

  • Physical Access(PA):PA表示攻击者需要将音频通过扬声器向环境中固定的麦克风进行播放,环境中存在各种各样的障碍物,如地板、墙、桌椅等,因此被录制的音频种同时也引入了额外的干扰。

  • Deepfake(DF):DF和之前的spoof的主要区别在于,攻击者欺骗的对象是人,而不是ASV系统。其目标人群可能是名人、政治人物(如前段时间的泽连斯基事件)等,攻击者能够利用目标对象的少量预料,提取预料中的声纹信息,通过相关技术伪造DF样本,再通过互联网社交媒体等手段达到传播虚假信息、谣言、诈骗等恶意目的。因此DF攻击样本理论上应该更加注重听感上的音色变换。

Dataset

LA :ASVspoof2019基于VCTK(Voice Cloning Toolkit)数据集,包含107名说话人,并且降采样到16kHz,16bits,按说话人划分为3个子集(即traindeveval)。ASVspoof2019使用了19种TTS/VC算法(A01-A19),其中A01-A06,作为已知数据用于训练集(train)和验证集(dev),其余作为未知数据用于测试集(eval),具体如下图所示。 ASVspoof2021不提供训练集和验证集,仅提供测试集,则由13种TTS/VC算法(A07-A19 in ASVspoof2019 )生成,并引入了7种不同的codec模拟电话传输。

PA :在 LA 的基础上通过卷积信道脉冲响应的方法加入了信道因素,还有重放样本。

image-20220519122115045

DF:DF组的数据集是ASVspoof2021全新引入的,主要来自于ASVspoof2019 LA数据集和其他的数据集,音频总共由超过100种不同的算法生成。所有数据被分为bonafidespoofed两类。所有的数据都经过了有损的编码-解码操作引入了相应的失真,codec配置如下。为了促进应对多种或未知的伪造手段,比赛提交前不提供具体的压缩和解压缩信息以及其他的元信息(如比特率)。

CM Baseline

ASVspoof2019中使用CQCC-GMM,LFCC-GMM作为Baseline,后端同为512-GMM模型,前端有所区别。

ASVspoof2021中又加入了LFCC-LCNN-LSTM和RawNet2两个基于神经网络后端的Baseline,这两个模型同时也是ASVspoof2019中LA single model表现最好的,之后有时间会补充展开介绍。

Metric

EER

EER时FAR=FRR时的错误率,表征一个ASV系统或CM系统的性能。通过调节ASV系统的threshold,使得FAR=FRR。在DF组,采用EER作为最终指标。

t-DCF:比赛采用的主要指标

加入CM系统后,系统有两个两个不同的目标,即说话人识别正确和排除spoof样本,存在两个threshold, $\tau_{asv}$ $\tau_{cm}$,如何评价系统的综合性能成为了一个新的问题。t-DCF在DCF的基础上,综合考虑了在评估集成了CM的ASV时的需求,将CM性能和ASV性能综合考量,表达式如下: $$ min t-DCF=\min_{\tau_{cm}}{\frac{C_0+C_1P^{cm}{miss}(\tau{cm})+C_2P^{cm}{fa}(\tau{cm})}{t-DCF_{default}}} $$

$P_{miss}$ 和$P_{fa}$是CM系统在threshold $\tau_{cm}$下的miss rate和false alam rate

$C_i$是由ASV系统的决定的系数

Reslts and Main Method

Single Model

ASVspoof2019LA挑战中表现最好的单个模型为LFCC-LCNN,LFB-ResNet18-NN, Mel-CNN,STFT-GMM,Ceps-GMM。

Model Fusion(模型融合)

参考:https://blog.csdn.net/weixin_41891249/article/details/82117228

Model fusion就是训练多个模型,然后按照一定的方法集成过个模型,应为它容易理解、实现也简单,同时效果也很好,在工业界的很多应用,在比赛中也经常拿来做模型集成。可以通过数学证明模型,随着集成中个体分类器数目T 的增大,集成的错误率将指数级下降,最终趋向于零。具体证明在周志华和李航老师的书中都有。ASVspoof所有的提交最后也基本都使用了Model Fusion来提高最后的成绩。Fusion的方法主要有Score Averaging和Voting。

##