0%

paper-ZJL21

前言

月更博主上线,最近写毕设好久没看论文了,现在毕设在修改阶段就可以腾出时间刷论文了。觉得自己好像又进入了一开始的误区,每次看东西习惯性的看的比较深比较慢,在论文上也是这样,动不动就要全文过完才心里舒服,也许也算一种心理疾病了。。。接下来还是要分出精读略读才行啊,不然这么慢毕业遥遥无期了……

这篇一看多麦克风,NDSS,再定睛一看,是 Dolphin Attack 自己的作者出的防御方案,摸鱼的时候找了找大佬的资料,发现一作大佬是个博士生,上一篇是 17 年,如今 21 年又中一篇顶会,大佬太强了,上一篇还拿了 17年 CCS 的最佳论文奖,现在已经 300 多被引了,吾辈楷模。

1 基本信息

G. Zhang, X. Ji, X. Li, G. Qu, and W. Xu, “EarArray: Defending against DolphinAttack via Acoustic Attenuation,” in Proceedings 2021 Network and Distributed System Security Symposium, 2021, doi: 10.14722/ndss.2021.24551.

1.2 概述

本文介绍了 Dolphin Attack 的作者,为了防御 Dolphin Attack,在多麦克风场景(三个及以上麦克风)设计的一种轻量级软件方法 EarArray,可以检测 Dolphin Attack 的同时检测攻击者的方向。主要思路是利用超声波和普通人声在空气中传播时的衰减率来进行分辨。作者对两种语音信号在空气中的传播进行了建模,同时在两款模拟语音设备的原型上实现了 EarArray,进行了评估,最终可以以 99% 的准确率检测超声波攻击,以及以 97.89% 的准确度判断攻击者的方向。

2 论文要点

2.1 背景

Dolphin Attack 指将人声调制到超声波频段后向智能语音设备播放,由于现有绝大部分麦克风物理上的非线性性,超声波会被麦克风解调到普通语音频段,进而被设备理解。这类攻击可以在人类无法察觉的情况下向设备下命令做出各种危险行为。现有检测方案分两类,其一检测语音中的细微变化,但是可被有经验的攻击者通过调整语音绕过,其二是让语音设备自己主动发出超声波抵消攻击,但是超声波会对用户本身的身体健康带来影响。所以我们需要一种有效的防御方案来防御 Dolphin Attack,而较新的智能手机与智能音箱等设备现在都已支持多麦克风(三个及以上),作者希望通过多麦克风检测不同麦克风语音的衰减来区分 Dolphin Attack。

2.2 价值

  • 发现了超声波语音与普通语音在传播中的衰减是截然不同的,可以用来检测 Dolphin Attack。作者通过在麦克风阵列上模拟语音传播来在理论上分析了衰减的区别。
  • 设计了 EarArray,通过估计语音命令的传播损耗来检测 Dolphin Attack。
  • 实现了两个 EarArray 的原型并进行了评估。最终可以以 99% 的准确率检测超声波攻击,以及以 97.89% 的准确度判断攻击者的方向。

2.3 方法

首先作者通过 COMSOL 实验模拟了超声波与普通频段的语音信号在空气中的传播以及遇到障碍物(即语音设备)后的衰减过程,发现超声波在遇到语音设备后,语音设备面对声源的面收到的语音更强,背面收到的信号则要弱很多,普通频段的语音信号则几乎没有这个问题,语音设备周围的麦克风收集到的语音信号强度变化并不大。于是作者就可以通过检查不同麦克风接受到的语音信号的强度是否相似来检测 DolphinAttack,若相似,应是普通语音,不相似则是 Dolphin Attack。

具体实现 EarArray, 分为三步。

  1. 预处理:只处理 50Hz-2000Hz 的信号(去噪),VAD(Voice activity detection,语音活动检测),将没有语音的部分帧除去,对语音分段(segmentation)
  2. 特征提取:提取不同声道中,最大声道能量与最小声道能量的差(range), 所有声道能量的标准差(std),以及能量最大与最小声道的频谱的 Pearson 线性相关系数 corr。
  3. 攻击检测与敌手定位:使用 SVM 对特征进行分类。在敌手的定位上,简单的使用能量最强的声道指向的方向。

2.4 结果

测试数据集是 25 位志愿者(20位男性,5位女性)每位 5 条语音在 4 种设备上的录音共 500 条。实现了两个 EarArray 的原型(一个类似 Echo 的圆柱体,一个类似智能手机)并进行了评估。整体表现可以以 99% 的准确率检测超声波攻击,以及以 97.89% 的准确度判断攻击者的方向。测试了距离、声源与设备角度、载波频率、环境噪音、不同命令内容、不同声压级,方案均保持了较好的鲁棒性。对于绕过防御,测试了攻击者藏在障碍物后面的场景,设备在墙角的场景和攻击者使用多个超声波发射器攻击的场景。前两者依然保持较好的效果,但在多超声波发射器攻击时,部分参数下,准确度下降至了 91.1%,TPR 下降至了 85.7%。作者认为这种攻击的防御需要在之后进行更多研究,例如使用较为复杂的麦克风阵列结构(目前实验使用一个圆柱体顶部一圈设置麦克风)。此外测试了不同系统参数(分段的窗口大小和重叠大小)对系统影响,以及使用三麦克风(模拟手机)的场景。三麦克风场景效果略差于 5 麦克风的智能家居的场景,作者推测是麦克风数目较少的影响。

3 评论

3.1 局限性

  • 实验在塑料原型的情况下实施,可以看到麦克风直接暴露。实际智能设备的材质通常是金属,超声波的传播是否会发生变化?实际麦克风都会在表面覆盖防尘网,是否会影响实验结果?此外,智能设备的麦克风排布多变,是否能在实际的各种排布中去的较好结果。
  • 实际使用的语音数据有些过少了,25 位用户每位 5 条语音,4 种录制设备,总计 500 条语音得到的结果,总共 5 种命令未必能覆盖到常用命令与音素。

3.2 扩展阅读

He Y, Bian J, Tong X, et al. Canceling Inaudible Voice Commands Against Voice Control Systems[C]//The 25th Annual International Conference on Mobile Computing and Networking. 2019: 1-15.

3.3 启示

  • 文中提到现有的声源定位算法使用 TDoA,但是需要较好的信噪比使用,不适合超声波检测场景(信号衰减很厉害,信噪比较低),也许我之后的工作可以考虑使用传统的声源定位算法来优化欺骗攻击检测。
  • 文中对于分类原理的理论分析做的非常充足,另使用了 COMSOL 对实际声波传播进行了模拟,使文章很有信服力。