前言
最近要开始进入科研状态了,所以会经常更论文阅读笔记了哈哈,尽量每一篇精读的文章都能出阅读笔记。
这一篇和前面刷的 2 篇关系还是比较紧密的,这篇文章给出了一个轻量级的语音活体检测系统(防止重放攻击等):Void。而我之前所读的两篇,包括海豚攻击以及 RSHC18,其实都是 Inaudible Commands 这一攻击大类的,是把语音命令以隐秘的形式发送给语音设备。但本质上,还是要将 Victim 的语音通过重放或合成的方式组合起来(如果有声纹识别),都是机器重放的,所以要想破解,从活体检测这个角度做也是非常有效的。在本文的摘要末尾也提到,该系统对于hidden voice command, inaudible voice command, voice synthesis, equalization manipulation attacks, and combining replay attacks 等可以达到 99.7%, 100%, 90.2%, 86.3%, and 98.2% 的检测率。
当然,回归本篇论文的初心,其实做活体检测最大的用处还是防止重放攻击。而 Void 在检测的准确率上其实并不是最高,作者给出了 17 年的一个检测大赛的成果, Void 的准确度可以排在第二的位置。但是第一所使用的是一个非常重的 DNN 模型,并且用到了很多计算代价较高的特征,模型参数也非常多。 Void 使用了其 153 分之一的内存,并且可以达到 8 倍的检测速度。具体来说,Void 的 EER(equal error rate)在比赛数据集上达到了 11.6%,在使用 MFCC 的基础上可以提高到 7.4 %。也就是说,Void 在保持了较为优秀的检测率的同时,大大优化了效率。
在具体的分类方法方面, Void 通过扬声器重放人声与天然人声之间在频谱上的 2 大天然区别进行分类。具体特征提取方法在下文再做描述。
这里说一些文中提到的概念(一些数学概念已经在原文的 Appendix 中进行解释):
EER:Equal Error Rate,当 FPR 与 FNR 相等时,二者的值。
Correlation Coefficients:相关系数,这里一般指 Pearson 相关系数,用于衡量变量之间线性相关的量。相关系数ρ定义为两个变量X、Y之间的协方差和两者标准差乘积的比值。https://blog.csdn.net/chao2016/article/details/80917579。
quadratic curve fitting coefficients:二次曲线拟合系数,将数据用二次曲线拟合后的系数。关于使用 MATLAB 做多项式曲线的拟合,可以参照链接。
https://ww2.mathworks.cn/help/matlab/ref/polyfit.html
Levinson-durbin algorithm:Levinson recursion or Levinson–Durbin recursion is a procedure in linear algebra to recursively calculate the solution to an equation involving a Toeplitz matrix. 下面是 MATLAB 的相关 API。
https://ww2.mathworks.cn/help/signal/ref/levinson.html
Toeplitz matrix:托普利兹矩阵的主对角线上的元素相等,平行于主对角线的线上的元素也相等;矩阵中的各元素关于次对角线对称,即T型矩阵为次对称矩阵。