前言

本篇做的是一个非常有趣的工作，也是攻击语音设备的论文。本篇的攻击方式是使用调制后的光波来进行语音的注入，具体的 Demo 非常的炫酷，可以参见下面的链接：https://lightcommands.com/ ，注意 Demo 视频托管在了油管。

本篇将攻击距离大大延长，对于部分较为敏感的设备，可以将攻击距离延伸到 110m+，这么来看 Inaudible Voice Commands: The Long-Range Attack and Defense 中将 1.52m 延伸到 7.62m 的工作还是不够用。并且后者使用的超声波在遇到墙壁、关掉的窗户等攻击距离会大大减小，而这篇文章中的方法则可以穿过 Clear Window 对窗台上的语音设备进行攻击，效果还是蛮酷的。

1 基本信息

1.1 论文来源

T. Sugawara, B. Cyr, S. Rampazzi, D. Genkin, and K. Fu, “Light Commands: Laser-Based Audio Injection Attacks on Voice-Controllable Systems,” in 29th USENIX Security Symposium (USENIX Security 20), Aug. 2020, pp. 2631–2648, [Online]. Available: https://www.usenix.org/conference/usenixsecurity20/presentation/sugawara.

1.2 概述

本文利用了麦克风会将光信号转为声音信号的特性，提出了一种针对麦克风的新型信号注入攻击。具体而言，攻击者可以通过 AM （振幅调制）将任意声音嵌入光，然后通过瞄准麦克风孔来注入声音。作者进一步证明了，我们可以通过这种方式对语音控制系统进行攻击。具体而言，作者测试了Amazon’s Alexa, Apple’s Siri, Facebook’s Portal, and Google Assistant。作者实验演示了在 110m 的距离以及两栋楼之间情况下的攻击，均获得成功。此外，当下语音控制设备通常都缺乏用户认证，使得上文提到的攻击的危害性进一步增长。（作者展示了通过攻击语音设备开启房门、车库门、车门（Tesla与Ford等智能车），以及购买商品等，通常无需认证或者允许蛮力破解）最后，作者给出了一些可能的软硬件解决方案。

PS：而这一切使用的激光发射设备甚至可以使用几十块钱的激光笔（5mW 的功率）

2 论文要点

2.1 背景

当前语音设备使用广泛却缺乏认证等安全功能，使得针对语音设备的攻击具有很高的价值。早期的攻击通常都很容易被用户注意到，所以实用价值较低。于是最近出现了很多隐秘的攻击方式，但是这些方式的攻击距离都过短，即使是最前沿的技术（之前读过的 Inaudible Voice Commands: The Long-Range Attack and Defense），也只能达到 7.62m 的攻击距离，并且要求没有墙壁以及玻璃等障碍。
已经有一些工作使用激光进行注入攻击。比如对 LiDAR 设备使用精准控制的激光，使得其成像上出现不存在的物体。激光会导致半导体出现类似遭受电磁辐射时的暂时错误。目前已经有攻击利用激光照射来提取硬件的数据、更改控制流、提取密钥。
一般允许使用的激光设备功率应该控制在 5mW 以下，也就是 Class 3R。使用过高功率的激光会导致眼睛失明、皮肤灼伤以及火灾等。

2.2 价值

发现了当前 MEMS 麦克风（在语音设备中最广为使用的种类）的漏洞：其会对激光照射做出反应，仿佛接收到了声音。并且进一步研究了光照与输出声音的关系。
使用不同的攻击距离和激光功率对 Alexa, Siri, Portal, and Google Assistant devices 做了基于激光照射的语音注入攻击实验。
评估了上文所述攻击如果被利用来注入恶意命令所带来的安全影响。（并展示攻击可以使用便宜并且易购得的设备进行）
讨论了一些针对基于光的信号注入攻击的软硬件防御方法。

2.3 问题陈述

目前针对语音设备的隐秘攻击方法，攻击距离都较短，此外对于障碍物较为敏感，不够现实。

能否实现更长距离的攻击？该攻击在现实的条件、无法物理接触的情况下是否可行？这类攻击对集成于语音控制系统的IoT设备有什么影响？

2.4 方法与结果

将激光二极管与激光驱动连接，激光驱动与PC的音频输出相连接。激光驱动用于控制激光的电流，进而决定它的强度，使得音频信号强度越高，激光强度越高，从而实现了一个振幅调制。调制后的激光瞄准目标的麦克风孔即可注入音频。

具体而言，作者的研究是循序渐进的：

首先研究了光信号强度与声音信号强度的关系，以及频率的关系。确认了攻击的可行性。并研究了现象的原理（photoacoustic and photoelectric 效应）。
使用流行的语音设备进行攻击，使用开放的语音合成技术合成命令注入到语音设备中确保攻击可行。然后进一步探索每个设备所需要的功率，可以达到的攻击距离，以及不同命令之间成功率的差距（结果表明同样的设备，使用不同的系统都会有不同识别效果）。讨论了语音设备的认证对攻击的防御效果（很差）。
探索了不同的攻击场景。如不同建筑之间的攻击，对认证的攻击，对智能车的攻击。研究了如何进一步加强攻击的隐秘性（使用红外线等不可见光等），以及如何保证无需准确瞄准同样达成攻击（使用更大的光点）。给出了最小成本的攻击方式（约几百美金，最贵的部分在 Laser Driver），并讨论了非 MEMS 的麦克风（简单测试了一款，攻击成功）

给出的解决方案：

软件：增强认证（执行敏感命令前问一个随机问题）；检查双麦克风收到的信号的区别；使用其他传感器的数据。
硬件：在麦克风的 diaphragm（膜）前添加一层障碍避免光线直射，但是能允许声音绕过。

3 评论

3.1 局限性

对于麦克风表面有包裹物的硬件设备攻击效果变差，且当其厚度达到一定程度后，攻击无法成功。
需要精准瞄准。但是文中探讨了扩大光点来避免精准的瞄准。
具有其他光学攻击所共有的局限性。
对于智能家居等不会经常移动的设备攻击较为方便，允许长时间的瞄准；但相对的，手机的设备经常在移动，使得攻击者必须快速的找到麦克风孔并瞄准进行攻击。
无法绕过活体检测。（应该无法绕过同年 USENIX 的 Void ）
无法绕过连续认证。（攻击者因为距离设备较远，且通常为了隐秘性会关闭设备反馈声音，无法听到设备的声音，使得连续的认证无法继续）

3.2 启示

这一篇理论上也无法绕过上一篇读的 Void，通过 Void 实现的活体认证，可以让语音设备区分攻击与普通语音，直接过滤掉该类攻击。
科研需要循序渐进，本篇论文的书写顺序体现了作者一步一步从发现现象到利用现象测试攻击可行性到最后进一步研究攻击的能力以及特殊情况等。

4 个人笔记

Pass。

Haulyn5 的博客

SCR20 论文阅读笔记

前言