前言

本篇工作做得是攻击语音设备的对抗样本。因为没有做图像对抗样本的经验，所以第一次阅读时还是比较一头雾水的。单纯阅读本篇需要有一些对抗样本相关的知识（比如 FGM，Fast Gradient Method 等用于生成对抗样本的方法），还需要对作者团队的上一篇工作 CommanderSong: A Systematic Approach for Practical Adversarial Voice Recognition 有一些了解，有一些概念在上一篇工作中做了详细介绍，却在本篇不做解释，（比如 pdf-id），所以直接阅读可能会有困难。

1 基本信息

1.1 论文来源

Y. Chen et al., “DevilWhisper: A General Approach for Physical Adversarial Attacks against Commercial Black-box Speech Recognition Devices,” in 29th USENIX Security Symposium (USENIX Security 20), Aug. 2020, pp. 2667–2684, [Online]. Available: https://www.usenix.org/conference/usenixsecurity20/presentation/chen-yuxuan.

1.2 概述

本篇的工作可以视为 CommanderSong: A Systematic Approach for Practical Adversarial Voice Recognition 工作的扩展。CommanderSong 是第一次对于基于 DNN 的 ASR（Automatic Speech Recognition）的对抗样本攻击尝试，而本篇则是对基于 DNN 的黑盒 ASR 的第一次成功攻击尝试（相比之下，CommanderSong 是对基于 Kaldi 的白盒模型的攻击尝试，尽管实现显示部分攻击可成功迁移至讯飞的 ASR）。本篇提出的 DevilWhisper，可以高效的生成能够欺骗商业 ASR 系统（如 Google Home， Echo，Cortana 等）的对抗样本。落实到方法上，本篇提出使用两个模型互补来生成更优秀的对抗样本。具体而言，一个是使用 Kaldi 的先进白盒模型，另一个是尝试近似目标模型的简单模型。实验证实，大约 1500 次查询所构建的简单模型在 Kaldi 模型的帮助下就可以有效攻破现有的商业 ASR 系统。

2 论文要点

2.1 背景

关于基于 DNN 的白盒 ASR 已经被证实很容易遭受攻击。但是在本篇之前，还没有针对黑盒 ASR 的对抗样本攻击成功。而恰恰与用户紧密相关的，不是那些白盒 ASR，而是已经商业化的黑盒 ASR，比如 Echo 等。
对于黑盒的对抗样本攻击是困难的，因为不知道模型结构与参数。对于 ASR 的对抗样本攻击的困难又要高于图像，因为 ASR 的处理结构往往很复杂，包括模型提取，语音模型（acoustic model）和语言模型（language model）。
许多语音设备的 ASR 都有在线 API 版本，且往往使用一致的模型。这使得对语音设备攻击前可以先使用在线 API 进行测试。

2.2 价值

第一次实现了针对商业语音控制设备的对抗样本攻击，且对抗样本对于人耳来说难以察觉。
设计了一种新颖的针对黑盒 ASR 的对抗样本攻击方法。首先使用一个简单的 Substitute Model 来大致拟合目标 ASR 系统，然后使用一个先进的白盒模型（基于 Kaldi）来增强 Substitute Model，最后通过两个模型协作生成对抗样本。实验证实，两个模型之间可以互补，使得模型的 transferability 大大提高，让 Substitute Model 可以使用非常少的数据来建立（这就意味着对于 ASR 系统尽可能少的查询）。

2.3 问题陈述

在现实世界条件下，能否高效生成对抗样本，既能欺骗语音设备执行命令，又能让人类无法察觉？

2.4 方法

首先作者团队测试使用之前 CommanderSong 的成果对商业语音设备进行攻击，成功率非常低。即使使用了先进的语音识别模型（Kaldi ASpIRE Chain Model），和先进的对抗样本生成算法（Momentum based Iterative Fast Gradient Method (MI-FGM)），在 ASR API 的成功率依然非常低，在实际攻击语音设备时，成功率还要更低。于是后面有了在概述中提到的方法，在下文予简要说明。

因为Kaldi ASpIRE Chain Model 生成的对抗样本其实在一定程度也能转移到黑盒模型（尽管成功率非常低），我们使用它做 Large Base Model。然后是 Substitute Model，我们要尽可能在我们要测试及使用的命令上近似目标模型，所以我们使用一个增强后的语料进行训练。使用 Base Model 生成的对抗样本其实已经可以捕获关于某个命令的通用语音特征了，而在 Base Model 迭代中最后一次输出的对抗样本会被送入 Substitute Model ，这里生成的对抗样本会具有更多的关于特定目标 ASR 的信息，而这里迭代中最后一次输出的对抗样本会被送入目标 ASR API 中做测试，如果没有通过则会开始新一轮 Epoch。值得一提的是，在前面的迭代过程中，我们会每隔一段时间将得到的对抗样本送入目标 ASR API 中测试，以决定是否可以更早结束迭代。在具体的对抗样本生成上，使用了 MI-FGM 算法，可以参见 https://arxiv.org/pdf/1710.06081.pdf。

2.5 结果

AGA（alternate models generation approach，也就是前文所述使用 Substitute Model 的方法）对于开放的语音转文字API（Microsoft Bing、IBM STT等）生成的对抗样本达到了100%的成功率（除了 Amazon Transcribe，只有 40%）
AGA 对于商业语音设备（Cortana，Google Home等）的攻击，平均成功率达到了 98%（注：这里没有说明每次成功的距离数据，文中仅给出了音频的音量和背景音量，说明了针对特定设备的特定攻击可以在特定距离完成，暗示可能这个成功的攻击并不是统一距离）。为了验证鲁棒性，这里对每条命令做了30次测试，实验证实 76%的命令具有超过 1/3 的成功率。
关于可感知性，作者考量了音频的信噪比，从中可以比较命令对于原音频信号的干扰。此外，作者还做了真人用户调研，实验表明，大部分的用户能听出音乐中的噪声，但只有极少数人能听出音频中的噪声是语音，而第一次听音频时，没有人能够识别超过50%的命令单词。

3 评论

3.1 局限性

对 ASR 背后网络的简单改动都可能使得现有对抗样本失效。
使用对抗样本在现实场景中做的攻击对各种环境因素非常敏感，比如攻击距离，攻击设备，播放音量等，会很大的影响成功率。鲁棒性有待增强。
尽管没有用户在第一次听对抗样本时能够识别命令中的过半单词，但是不少用户都能听出其中的扰动（噪声），所以隐蔽性也并不是多么优秀。
对于同年 Void 这样的活体认证防御理论上不会有效果。

3.2 启示

研究是循序渐进的，本篇的研究基于了作者团队在 18 年发表的 CommanderSong，尽管之前的方案只能对白盒模型做对抗样本的攻击，但是本篇在上一篇的基础上提出了两个模型互补生成对抗样本，使得对抗样本的可转移性大大增强，对很多商业语音设备（黑盒）都能设计出有效攻击。
语音识别模型的对抗样本要比图像识别模型的对抗样本更难，因为语音识别模型在识别前会对语音做很多的处理，使得一些扰动会在处理过程中失去影响。
在观看本篇作品的 Demo 视频（https://sites.google.com/view/devil-whisper）后，感觉大部分的对抗样本都是可以听到较明显的噪声的，虽然听不出来嵌入的命令，但是对原音乐的扰动还是人耳可察觉的，隐蔽性相对之前几篇如 LightComand，Inaudible Command 相比还是要弱一些，但是也有自己的应用场景。攻击距离论文中给出的最大攻击距离是 200 cm，实用性也仍待考虑。

Haulyn5 的博客

CYZ20 论文阅读笔记

前言