前言

本篇同样是之前调研内容的整理，于 2020 年 9 月 29 日记录。

2020 年的 USENIX Security 中 Voice and Speech 共有 5 篇论文如下。

[1]Z. Guo, Z. Lin, P. Li, and K. Chen, “SkillExplorer: Understanding the Behavior of Skills in Large Scale,” in 29th USENIX Security Symposium (USENIX Security 20), Aug. 2020, pp. 2649–2666, [Online]. Available: https://www.usenix.org/conference/usenixsecurity20/presentation/guo.
[2]T. Sugawara, B. Cyr, S. Rampazzi, D. Genkin, and K. Fu, “Light Commands: Laser-Based Audio Injection Attacks on Voice-Controllable Systems,” in 29th USENIX Security Symposium (USENIX Security 20), Aug. 2020, pp. 2631–2648, [Online]. Available: https://www.usenix.org/conference/usenixsecurity20/presentation/sugawara.
[3]Y. Chen et al., “DevilWhisper: A General Approach for Physical Adversarial Attacks against Commercial Black-box Speech Recognition Devices,” in 29th USENIX Security Symposium (USENIX Security 20), Aug. 2020, pp. 2667–2684, [Online]. Available: https://www.usenix.org/conference/usenixsecurity20/presentation/chen-yuxuan.
[4]M. E. Ahmed, I.-Y. Kwak, J. H. Huh, I. Kim, T. Oh, and H. Kim, “Void: A fast and light voice liveness detection system,” in 29th USENIX Security Symposium (USENIX Security 20), Aug. 2020, pp. 2685–2702, [Online]. Available: https://www.usenix.org/conference/usenixsecurity20/presentation/ahmed-muhammad.
[5]S. Ahmed, A. R. Chowdhury, K. Fawaz, and P. Ramanathan, “Preech: A System for Privacy-Preserving Speech Transcription,” in 29th USENIX Security Symposium (USENIX Security 20), Aug. 2020, pp. 2703–2720, [Online]. Available: https://www.usenix.org/conference/usenixsecurity20/presentation/ahmed-shimaa.

下面依次简要说明内容。

正文

Skill Explorer

本篇针对 Amazon Echo 和 Google Home/ Assistant 平台上的 Skill（Google 叫 Action，类似智能手机的 App，但是基于 web）做了第一次大规模的分析。作者开发了一套叫做 Skill Explorer的系统用于分析。分析任务有两个挑战：第一 Skill 本身是一个黑盒，需要交互才能知道其行为；第二是所有输入输出都是自然语言。作者开发的系统可以自动根据问题生成答复或者新的问题，并且对于涉及到隐私或者违规的行为作了记录。在对 30,801 skills (28,904 from the Amazon market in America and 1,897 actions from the Google market) 作了分析后，发现 1141 个 Skill 没有按照规范请求隐私数据，68个 Skill 甚至在用户说了 Stop 命令后以各种绕过手段继续监听用户。

Light Command

本篇的工作在于找出并实践了一种新的语音命令注入方法：光。在目前各类信号注入攻击中，最长攻击距离的是 Inaudible Voice Commands: The Long-Range Attack and Defense ，使用多扬声器播放超声波达到了大约 7.62m 的攻击距离。但是该方案需要开阔环境，对环境和设备有较高的要求。本篇通过对激光的调制实现了超长距离的命令注入，可以在 110m 的距离完成攻击。作者对激光照射麦克风口会使麦克风接受到声音的现象进行了实验分析，并最终给出了一套通过调制激光强度完成攻击的方案，对不同接近现实情况的场景做了成功的实验，最后给出了可行的软硬件防御方法。

Devil Whisper

本篇的工作可以视为 CommanderSong: A Systematic Approach for Practical Adversarial Voice Recognition 工作的扩展。CommanderSong 是第一次对于基于 DNN 的 ASR（Automatic Speech Recognition）的对抗样本攻击尝试，而本篇则是对基于 DNN 的黑盒 ASR 的第一次成功攻击尝试（相比之下，CommanderSong 是对基于 Kaldi 的白盒模型的攻击尝试，尽管实现显示部分攻击可成功迁移至讯飞的 ASR）。本篇提出的 DevilWhisper，可以高效的生成能够欺骗商业 ASR 系统（如 Google Home， Echo，Cortana 等）的对抗样本。落实到方法上，本篇提出使用两个模型互补来生成更优秀的对抗样本。具体而言，一个是使用 Kaldi 的先进白盒模型，另一个是尝试近似目标模型的简单模型。实验证实，大约 1500 次查询所构建的简单模型在 Kaldi 模型的帮助下就可以有效攻破现有的商业 ASR 系统。

Void

本文是一篇对于语音设备情景的重放攻击的防御方案。目的是达到输入语音的活体检测，以确定输入的语音是人声发出还是由扬声器设备发出。目前已经有一些较为优秀的神经网络模型可以达到较高的准确率（7.4% 的 EER），但是这些模型参数庞大（以最优秀的模型为例，84770，下同），速度慢（单条分类时间约 0.27 秒），占用内存大（需要 304.176MB）。这么重的体量使得他们无法在真实场景的语音识别应用中使用（真实场景对于延迟的要求极高）。于是本文通过使用一些频谱能量特征进行分类，在复杂度较低的情况下达到了较高的准确度，在实际场景中具有实用性。另外，在结合 MFCC-GMM 的情况下，可以达到 8.7 % 的 EER（这里摘要没有提，但是后文的数据表示这样只需要额外的 0.03 秒，因为 MFCC 通常在语音设备进行识别时都已经被计算出来）。最后，与我之前工作相关的，Void 模型可以以极高的准确度识别出这些年兴起的几类攻击：hidden voice command, inaudible voice command, voice synthesis, equalization manipulation attacks, and combining replay attacks，可以达到 99.7%, 100%, 90.2%, 86.3%, and 98.2% 的检测率。（注：理论上来说，Void 已经可以高效的部署在现有的语音设备上，并且对今年其他几篇论文方案达到非常高效的防御，但是遗憾的是没有找到开放的源码，Github 上有国人对 Void 的复现，可惜准确率与论文所述相差甚远）

Preech

本篇的工作是一个对离线 ASR 和在线 ASR 系统在隐私保护和准确率上的一个折中。现有的离线开源 ASR 系统可以保护人们的隐私，但可惜的是其转文字表现还是不够好。而在线 ASR 系统（如 Amazon 和 Google）可以提供非常准确的语音转文字效果，但是却无法保障隐私。本篇提出的 Preech 通过各种方法保护了用户的声学特征隐私以及文本内容隐私（这是一个很多研究忽略的地方），此外还允许用户对隐私保护的程度做自定义的调整以在隐私保护与使用保护间做权衡。具体而言，Preech 是通过先在用户端对语音做隐私保护操作，然后将处理后的语音发送到（多个）在线 ASR 平台，最后再将结果在本地处理后得到最终结果。实验证实，Preech 相对 DeepSpeech（前言的开源离线 ASR 系统）在不同的数据集上分别有 2% 到 32.25%（平均 17.34% ）单词错误率的提高，但与此同时也做到了隐私的保护。

短期规划

在阅读完 USENIX Security 2020 Voice and Speech 的论文后，感觉 Void 已经将语音设备的防御做的很好了，同年的 Light Command 和 Devil Whisper 理论让都会被 Void 防御。而 Skill Explorer 受限于国内环境可能不便开展实验，Preech 与语音设备其实关系不大，主要做的是 ASR 系统的隐私（尽管也涉及了很多语音和声学的知识）。

在简单搜索后，发现 Void 没有开放源码，而国人的开源实现 https://github.com/chislab/void-voice-liveness-detection 却说道：

目前该项目在ASVspoof 2017 V2测试集上的等错误率与原文中的指标仍存在较大差距；

所以也许 Void 的效果还没有达到能够大规模商用，但是我认为对于 Void 的攻击和改进应该还是很有意义的。所以短期内我会对 Void 的实现做一些调查和尝试，与此同时对近些年顶会与该领域相关的论文进行阅读。

PS：这个规划也一下划定了之后近 7 个月的工作……感慨呀，如今 Void 也做了自己的复现。对于很多音频的知识也有了理解，反而有些迷茫了哈哈。

Haulyn5 的博客

USENIX 2020 Voice and Speech 调研

前言

正文