前言

新学期开始，继续之前的项目研究，同时阅读一些与项目相关的paper。

本篇可以看作之前 Dolphin Attack 工作的延续。解决了之前 Dolphin attack 的问题：要想 inaudible 就只能近距离（5 ft max = 1.52m），要想远距离就要加大功率，进一步就会导致 audible。这一篇的主要思路是通过将命令的频谱进行分割，使用多个 speaker 分别将对应的频段进行调制播放，使得可以进一步加大功率而避免攻击的音频被人耳察觉，而实验证明这样的攻击是可行的并且将攻击距离延伸到了 25 feet = 7.62 m。这使得攻击更具有现实意义。此外，作者提出了一种基于软件的防御方案，不需要训练即可达到较高的准确度（Dolphin Attack 的作者给出的解决方案是基于 SVM 的软件解决方案）。

对了，作者给系统起名叫做 LipRead 。

另外从本篇开始调整一下阅读笔记的格式。

1 基本信息

1.1 论文来源

Roy, N.; Shen, S.; Hassanieh, H. & Choudhury, R. R.

Inaudible Voice Commands: The Long-Range Attack and Defense

15th USENIX Symposium on Networked Systems Design and Implementation (NSDI 18),

USENIX Association, 2018, 547-560

1.2 概述

本文延续了 Dolphin attack 的工作（利用麦克风的非线性性，使用人耳不可察觉的超声波对 VED(Voice Enabled Device) 发起命令），解决了之前攻击距离和人耳不可察觉性之间的零和游戏，使得在依然保证声波不会被人察觉的基础上，攻击距离从 5 ft （约1.5m）增加到 25 ft （约7.5m），大大增加了攻击的可用性，同时在设备（放大器等）允许的情况下，攻击距离可以进一步增长。此外，在防御方面，作者利用该类攻击的声学特性，提出了一种无需训练的分类方法，对于该类攻击的识别可以达到 97% 的 Precision 和 98% 的 Recall。

2 论文要点

2.1 背景

人们通常使用的声学设备（扬声器、麦克风等）通常在高频段都具有非线性性。假设输入信号是 $s(t)$ 。

正常的输出应该是：
$$
s_{out}(t)=A_1s(t)
$$
但是因为实际的非线性性，实际的输出是如下：
$$
s_{out}(t) = A_1s(t) + A_2s^2(t) + A_3s^3(t) + …
$$
因为 $A_{4+} \ll A_3 \ll A_2$ ，所以高次数项的影响几乎为零，最后就只需要考虑 $A_2$，也就是平方项。假设我们同时输入 $f_1$ 和 $f_2$ 频率的音频。那么省去推导步骤后，有
$$
s_{out}(t) = A_1s(t) + A_2s^2(t)\
= A_1cos(2\pi f_1t) + A_1cos(2\pi f_2t) + A_2 \+ 0.5A_2cos(2\pi 2f_1t) + 0.5A_1cos(2\pi 2f_2t) \+ A_2cos(2\pi (f_1+f_2)t) + A_2cos(2\pi (f_1-f_2)t)
$$
而当 $f_1$ 和 $f_2$ 是超声波时，由于其他项超过 24kHz ，所以麦克风的滤波器会直接滤掉，只剩下如下
$$
s_{low}(t) = A_2 + A_2cos((2\pi(f_2-f_1)t)
$$
注意最后一项是可以被设计的，而这个频率可以很低，达到正常的人声范围，语音识别系统就会正常接收该命令。

2.2 价值

在当前研究基础上证实，在小心的设计后每个扬声器播放的内容后，可以使用多个扬声器在保证人耳听不到的前体下将攻击距离延伸到 25 ft 以上。
设计了一款针对听不到的语音命令的防御机制，机制利用了麦克风的非线性性。作者证明了非线性性会留下几乎不可磨灭的痕迹，针对语音（Voice）特有的特征，从三个角度对攻击信号与普通信号进行分类，达到 97% 的 Precision 和 98% 的 Recall。

2.3 问题陈述

原有的 Inaudible Command 攻击攻击距离过短，但要延长攻击距离就不可避免会导致 Audible 的声音泄露。

针对攻击，由于市面大部分的声学硬件都存在非线性性，所以硬件上解决问题较为困难。在软件上，之前的方案包括使用 SVM 的机器学习方案。此外，由于敌手可能在已知防御技术的情况下对攻击信号做处理以绕过防御。

2.4 方法

攻击上，作者提出使用多个扬声器进行攻击，将命令的频谱分割为若干块由不同扬声器分别播放。同时，精心对每个扬声器播放的声音进行设计，利用人耳听觉特性，对于不同频率人耳的感知，使用不同的功率。

防御上，作者利用了 3 个方向的特征：低于50Hz的能量、相关性系数、振幅曲线。（具体较为复杂参考原文）使用这些特征可以很准确地对普通声音与攻击声音进行分类。

2.5 结果

作者对 Siri, Echo, Samsung S-Voice 等做了攻击。

在 Hit rate 达到 50% 的前提下，平均攻击距离达到了 25 ft。而最大距离能达到 27 ft - 30 ft。

此外，作者表示如果使用更好的放大器可以进一步增长距离。

Haulyn5 的博客

RSHC18 论文阅读笔记

前言

1 基本信息

1.1 论文来源

1.2 概述

2 论文要点

2.1 背景

2.2 价值

2.3 问题陈述

2.4 方法

2.5 结果

3 评论

3.1 局限性

3.2 启示

4 个人笔记