0%

YLJX19 论文阅读笔记

前言

好些天没有精读论文,因为没有 Idea,所以这几天一直在好几个可能的方向上反复横跳。总的来说还是在语音方面做语音设备的攻击与防御。

本篇论文利用了从声场(Sound Field)中提取出的特征(fieldprint),提出了一个区分真人人声与扬声器播放人声的方案 CaField。作者发现不同的发声源的 filedprint 有非常明显的不同(人与人之间,人与扬声器之间)。利用这些特征,方案在不同的场景和输入中总的达到了99.16%的准确率和0.85%的 EER 。

一些本文的背景知识及相关名词解释:

  • RMS Value : Root Mean Square Value,均方根值。先平方、再平均、然后开方。

1 基本信息

1.1 论文来源

C. Yan, Y. Long, X. Ji, and W. Xu, “The Catcher in the Field: A Fieldprint Based Spoofing Detection for Text-Independent Speaker Verification,” in Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security, London, United Kingdom, 2019, pp. 1215–1229, doi: 10.1145/3319535.3354248.

1.2 概述

本文提出一种(应用于智能手机的)文本无关的说话人验证方案CaField,可以用来检测使用扬声器的语音欺骗攻击(Voice Spoofing attack,如重放、合成、转换)。具体而言,CaField 利用了由声场(Sound Field,声音在空气中传播时所创造的声音能量场)所构建出来的特征 fieldprint。作者发现不同的发声源的 filedprint 有非常明显的不同(人与人之间,人与扬声器之间)。利用这些特征,方案在不同的场景和输入中总的达到了99.16%的准确率和0.85%的 EER 。此外,CaField 支持 8kHz 的低采样率,并且对很多环境因素具有鲁棒性,如:手机位置变化、用户姿势、录制环境等。

注:尽管原文的摘要中没有提及应用场景,但是本文完全假设应用于智能手机,对于智能家居等其他语音设备场景未作实验与分析。(实际上,本文要求录音设备距离说话人较近,且验证与录入信息时保持同一姿势)

2 论文要点

2.1 背景

  • 现有的说话人验证方案主要关注区分不同个体(人与人之间),通过声纹等生物特征来实现。但是现有方案无法抵挡语音欺骗攻击(Voice Spoofing attack,如重放、合成、转换),而该类攻击通常会将最终得到的语音使用扬声器播放。

  • 现有的对于使用扬声器的语音欺骗攻击的监测方案很难同时做到便于使用与安全。在便于使用上,我们希望检测方案不需要用户交互,进而需要文本无关、无需额外设备、尽可能少的对位置做限制。在安全性上,我们希望方案能够在模仿攻击的声纹与真实声纹非常相似时依然正确分辨二者,并且在验证结果上保持一致性,即不因语音内容和时间而改变验证结果。

  • 声场:声音能量在空间中的散布可以通过声场描述。声场描述了空间中每一点的声压。我们使用 $S(p,f)$ 来描述空间中位置 p 处频率 f 的声场,使用 $s(p,t)$ 来描述空间中位置 p 处在时间 t 时的声场。由于人类与扬声器发声原理的区别,二者发声所产生的声场具有明显的不同(在方向性上),所以我们可以从声场中提取足以区分二者的特征。

2.2 价值

  • 发现声场可以用来区分真实人声与假冒的攻击者。并使用 fieldprint 量化彼此的区别。
  • 设计了 CaFiled,一款基于 filedprint 的欺骗攻击检测系统,可用于文本无关的说话人验证,同时无需额外的设备并且对位置约束较少
  • 评估了 CaField 的表现,数据由 20 个参与者和 8 个扬声器生成,共有 2000 条真实命令与16000条欺骗攻击。结果表明 CaField 在欺骗检测上表现非常好。

注:这里原文提到 with little position constraints 。但是这只是一个角度,即用户手机的位置既可以放置在胸前也可以放置在耳边(所有的实验都是在这两个位置上做的)。实际上任何距离较近的位置均可,但是方案要求手机在验证时需要与录入信息时位置相同,所以胸前和耳边比较容易保持一个相对稳定的位置。当手机距离用户较远时,方案效果会变差,所以这也是该方案只应用于智能手机的原因。总的来说,方案要求验证与录入信息位置相同,这使得用户必须每次保持尽可能与录入时相似的位置,也算是一个角度的 position constraint。

2.3 问题陈述

语音欺骗攻击对于现在说话人检测系统来说难以防御,且现有的方案难以同时做到便于使用与安全。需要一种验证方案方便且安全地区分真实人声与欺骗攻击。

2.4 方法

作者利用智能手机普遍具有的双麦克风,通过两个麦克风采样得到的声场相除并取对数来得到两个位置的声场差 $ S_R (\boldsymbol p_1,\boldsymbol p_2,f) = \log \frac{S(\boldsymbol p_1,f)}{S(\boldsymbol p_2,f)} $,而这个差能够一定程度上代表声场的方向性,进而揭示说话人的一些特征。于是我们就可以通过 $S_R (\boldsymbol p_1,\boldsymbol p_2,f)$ 来构建 fieldprint 。方法如下(公式中的 n 取决于频率范围以及 FFT 的参数):
$$
\mathscr {F}(\boldsymbol p1,\boldsymbol p2) = [S_R (\boldsymbol p_1,\boldsymbol p_2,f_1),S_R (\boldsymbol p_1,\boldsymbol p_2,f_2),…,S_R (\boldsymbol p_1,\boldsymbol p_2,f_n)]
$$
但是由于一个短时的一帧 fieldprint 可能无法包含完整的一个音素(几十毫秒),从而导致信息不够完整。为了获得一个音素比重均衡的 fieldprint,我们要使用长期平均 fieldprint(Long-Time Average Fieldprint ,LTAF)。顾名思义,我们在一定时长内的所有帧的 fieldprint 取平均值。实验证实,当时长超过 1s 后,LTAF 就会基本稳定。

具体设计上,CaField 分为 4 个部分,Signal Processing, Fieldprint Extraction, Fieldprint Matching, and Decision Logic。信号处理阶段清除空白音频,特征提取阶段按照前文的方法提取 LTAF,由于 LTAF 维度可能很高,会使用一个滤波器(filterbank) 与向量相乘来降维。在匹配阶段,方案使用 GMM 为说话人的特征进行建模,具体而言,使用录入的用户语音提取的特征向量组以 EM 算法进行训练。之后的验证使用训练好的 GMM 模型进行计算并与阈值比较。

2.5 结果

CaField 的整体表现如下表所示,有着非常不错的 EER 。

Distinguish Authentic Users Accuracy FAR FRR EER
From loudspeaker-based imposters 99.16% 0.82% 0.97% 0.85%
From other human participants 98.42% 1.87% 1.43% 1.84%

作者对系统参数进行了调整,如频率的跨度以及输出维度,发现当 滤波器数目为 12 且均在 4kHz 以下时效果最好。

此外作者测试了不同位置(耳边与胸前),不同距离(0-40cm),不同扬声器以及不同的录音手机,前两个均能保持 2% 以下的 EER。后两者的影响也不大。

最后作者对位置错误、姿势变化(站与坐)、录音环境变化、语言变化做了鲁棒性分析。值得一提的是,当录音环境变得狭窄时,声音的反射与回音会使得系统的成功率大大下降,如在洗手间里系统的 EER 下降到了 18.42%。

3 评论

3.1 局限性

作者文中提及了几点局限性:

  • 需要用户在验证时保持与录入信息时一样的手机位置。(尽管从另一个角度看,这使得其他位置窃听得到的语音更难攻击)
  • 无法做到长距离认证。不止欺骗识别,声纹识别工作也存在距离变大效果变差的问题(因为回音等原因)。但是从另一个角度看,由于录入一般都是较近距离,往往该位置的语音数据不容易被敌手获取。
  • 可以通过结合活体检测技术达到更好的效果(应该不算是一个局限性,思路有些像 Voice Live[1],利用不同因素发音口型变化带来的声场方向性变化,通过预测来检测欺骗)
  • 本文的数据集还需要扩充以验证效果以及系统鲁棒性。

[1] L. Zhang, S. Tan, J. Yang, and Y. Chen, “VoiceLive: A Phoneme Localization Based Liveness Detection for Voice Authentication on Smartphones,” in Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, Vienna, Austria, 2016, pp. 1080–1091, doi: 10.1145/2976749.2978296.

3.2 启示

  1. 最近看到的两篇效果不错的欺骗检测论文都充分利用了双麦克风的数据。理论上充分利用两个麦克风的数据的确能够更好的提取出隐藏的特征。
  2. 本篇工作主要做在智能手机上,但是语音欺骗攻击检测在智能家居等语音设备上也有非常大的需求。但是作者也在局限性中提到本篇工作需要用户验证与录入时保持同样的位置,且不支持较长的距离,这就使得在智能家居上的应用不太可能(通常几米的距离)。但是的确当需求的距离变长后,声音的回声,噪音等,都会使得声音中的活体特征逐渐难以提取。所以如何使用一种新颖的方式尽可能的允许较长距离的欺骗攻击检测,又能保证 EER 会是目前的挑战。

4 个人笔记

目标是智能手机(第一有两个麦克风,第二使用位置可以固定(胸前或耳边))。

每次使用的位置需要相对声源固定。

语音时间越长效果越好。

在狭窄空间内的表现会下降。(由于声音的反射与回音效果)

系统的效果在 8kHz 采样(只需要4kHz以下的信号)时就可以达到最好,所以不需要很高的采样率。