前言

时间过得太快了……

本篇也是一篇语音的欺骗防御，利用了扬声器在播放时的磁场来区分真人与扬声器。同时在防御 mimicry attack 时，使用了已有的方案 SPEAR。但是在使用方法上，的确有些奇怪……要用户拿着手机在头部附近运动……所以这一点被后面的许多论文都提到过于 Cumbersome。

1 基本信息

1.1 论文来源

S. Chen et al., “You Can Hear But You Cannot Steal: Defending Against Voice Impersonation Attacks on Smartphones,” in 37th IEEE International Conference on Distributed Computing Systems, ICDCS 2017, Atlanta, GA, USA, June 5-8, 2017, 2017, pp. 183–195, doi: 10.1109/ICDCS.2017.133.

1.2 概述

本篇的作者设计并实现了一款鲁棒、纯软件的语音欺骗防御系统。系统为移动平台（智能手机）定制，并且可以简单地与当前产品整合。在该系统中，系统利用扬声器散发出来的磁场检测基于机器的欺骗攻击。此外使用一款前沿的 ASV 系统来防御人类模仿攻击。最终的评估结果显示该系统在智能手机上检测基于机器的欺骗攻击可以同时达到高准确率（100%）和低 EER（0%）。

注：上面的概述以原文的摘要为骨干，需要一些补充：

本篇的核心思路是利用磁场，但是摘要里并没有概括完全本篇的方法。因为本篇方法基于的磁场在数厘米外就很难检测，所以本方案强制要求用户在近距离做验证。为了验证声音来自近距离，本方案强制要求用户手持手机运动，让手机在验证过程中在头部附近移动，进而通过声场变化确保手机距离发声源很近。此外，对于部分无法使用磁场检测的攻击（使用耳机或非常规扬声器等），本文综合移动过程中的各传感器数据来判断发声源的形状（点状或带状），做进一步筛选。

2 论文要点

2.1 背景

当前的欺骗攻击可通过最后的声源进行分类：基于机器的（重放、合成、转换）和基于人的。后者使用当今前沿的说话人认证技术可以解决，但是还没有很好防御前者的方案。基于音频的频率和顿挫来防御欺骗攻击已经被证明不够有效。
当前普遍使用的扬声器通常都利用电磁效应发声，内部包括一块永磁体和线圈等结构。那么正常使用的扬声器会天然散发磁场。
当前的智能手机基本都配置了磁力仪，用于指南针和导航等服务。

2.2 价值

设计并实现了一款鲁棒、纯软件的语音欺骗防御系统。系统为移动平台（智能手机）定制，并且可以简单地与当前产品整合。
本方案使用了先进的声学处理技术、移动设备传感技术和机器学习技术。并将这些技术整合了起来用于高效地检测语音欺骗攻击。
作者构建了系统原型并做了全面的实验。实验结果说明系统在防御语音欺骗攻击时能达到非常高的准确率和 0 等错率。

2.3 问题陈述

本篇讨论的问题仍然是语音欺骗攻击的防御，与其他方案略有不同的是，本篇实现的系统较为全面的考虑了语音欺骗攻击，并且对于模仿攻击整合了前沿的 ASV 技术进行防御。下面简单说明本篇的敌手模型：

敌手意在攻击系统的生物特征判别器。敌手有能力收集到用户的语音样本。攻击大致可分为

基于机器的欺骗攻击：
1. 语音重放攻击
2. 语音合成攻击
3. 语音转换攻击
基于人的欺骗攻击：
1. 人类模仿攻击

2.4 方法

系统共包括 4 个部分来验证语音：声源距离认证、声场认证、扬声器检测、说话人身份认证。

声源距离认证：利用收集的语音信息和传感器信息重构手机的运动轨迹，进而估算手机离声源的距离。确保手机足够靠近声源。
声场认证：利用语音信息和传感器信息来分析声场，进而估计声源大小和形状，只有当声源形状大小接近人口才予以通过。本部分是因为对于较小的磁体比如耳机里面的磁体很难被手机的磁力计检测，所以需要额外确认发声源的形状避免此类攻击。这一步需要训练，用户需要先将手机按照轨迹移动录入数据。具体选用了音量和转角的变化作特征向量，使用 SVM 进行训练。
扬声器检测：当语音信息和传感器信息通过了前面的两个认证，系统将对信息进行分析，判断是否声音为扬声器发出。（这里主要验证磁场）
说话人身份验证：使用前沿的 ASV 系统（Spear）来判断语音是否为人类模仿攻击。作者选用了 Gaussian Mixture Model (GMM) and Inter-Session Variability (ISV) 技术。

2.5 结果

在一般情况下，当声源距离小于等于 6 cm 时，FAR，FRR 和 ERR 是全零的。大于 6 cm 时，错误率逐步升高。当大于 10 cm 时，由于已经很难分辨扬声器磁场与环境磁场，错误率快速上升。当距离等于 14 cm 时，FAR 达到了46.7%。

考虑到攻击者可能针对方案使用一些磁屏蔽材料（Mu-Metal）包裹扬声器，尽可能少的减少磁场的泄露。而实验发现实际结果同样在声源距离小于等于 6 cm 时，FAR，FRR 和 ERR 是全零的。作者推测原因是磁力仪不止可以检测磁场，同样可以检测金属。磁屏蔽材料即使屏蔽了扬声器的磁场，但是在近距离下也会对磁力仪的读数产生影响。且声音的传播也受到了影响，所以声场分析部分也会检测到异常。但是当距离提高到 8 cm以后，有屏蔽材料的攻击会造成更高的错误率，在距离达到 10 cm 时， FAR 达到 28.6%（没有屏蔽材料相同距离为 4%）。

考虑环境磁场会对结果造成影响，作者测试了计算机附近以及汽车内的情况。在这两类环境下，错误率受到的影响非常大。展示出了大幅提高的 FRR，以及下降的 FAR 和 EER。在汽车内，即使 4 cm 的距离都会有 29.4% 的 FRR。但是有趣的是，FAR 与 FRR 在 14 cm 以内都是 0 。作者提出的解决方法将在下文的局限性部分进行解释。

在验证时间上，因为本文的系统涉及多个部分，作者选用了整体的验证时间做度量，平均验证时间 5.3 s。（相比之前毫秒级的方案的确相差有些多）与 WeChat 声纹验证做了对比，后者大约快 0.1 s。

最后测试了各类的扬声器，结果证明无论扬声器的档次，在近距离下都可以被系统检测。

3 评论

3.1 局限性

本文提出的系统使用磁场来区分扬声器与人。但是对于不使用传统的电磁感应发声的扬声器来说可能会出现问题。论文中讨论了静电扬声器和压电扬声器。前者的金属网依然会对磁场造成影响使得其可以被检测，后者目前无法达到足够的音质。
在强电磁环境（如计算机附近或汽车内）系统目前表现很糟糕，在很近距离内都会达到很高的 FRR。但是作者发现在这类环境中，FAR 能够保持很低，也就是说如果合理的调整阈值可能能够在强电磁环境达到依旧不错的效果。但是作者团队表示这是将来的工作了。

个人认为的局限性：

使用语音助手的时候还要拿着手机在头附近移动实在有些不方便。本来使用语音助手就是为了远距离不接触手机，可是拿着手机在头附近移动使得语音的效率和便捷性甚至不如直接使用触屏了。
对距离的要求有些过于强了，超过 6 cm 以后错误率上升很快，而 6 cm 的确距离有点近了，在用户体验上和方便性上都不够好。

3.2 启示

本篇在活体认证上也是提出了一个比较新颖的角度：磁场。为了区分扬声器与真人，一个普遍的思路就是从发声原理上去做文章。但是之前的文章很多是从振动的维度，调制的方法，发声的信道这些角度上去做分类。本篇从扬声器要利用永磁体和电磁感应振动入手，利用磁场的变化检测扬声器。思路还是非常新颖的。在初读文章时，很容易想到的一个问题是：现在的手机可以检测磁场吗？普及率怎么样？但是再仔细想就会发现，现在的智能手机普遍支持指南针和导航，而这些功能都必须需要磁力计来确定方向，所以其实很多人可能不会注意智能手机的一些传感器，但是将这些传感器充分利用后，也许就能从一个新的角度更好地完成任务。
本篇到了后面感觉有些强行为了使用磁场而使用磁场了。扬声器磁场通常很弱？好，限制使用距离为6cm。怎么确保使用距离？拿着手机在发声源附近移动，利用传感器数据和声音数据确保距离。耳机的磁场根本检测不到？检测声场，用声音数据做分类，确保声源的大小形状类似人类嘴部。这一步步将遇到的问题解决固然非常厉害，但是也一步步限制了使用场景，降低了使用的便捷性。

4 个人笔记

None。

Haulyn5 的博客

CRP17 论文阅读笔记

前言