0%

paper-SMSA20

前言

开题报告做完了。

又是一周过去了。2020 年结束了。这学期也即将结束,好像还是太水了自己。

从 1 月初水到 2 月底的报告。

1 基本信息

[1]M. Shirvanian, M. Mohammed, N. Saxena, and S. A. Anand, “Voicefox: Leveraging Inbuilt Transcription to Enhance the Security of Machine-Human Speaker Verification against Voice Synthesis Attacks,” in Annual Computer Security Applications Conference, Austin, USA, 2020, pp. 870–883, doi: 10.1145/3427228.3427289.

1.2 概述

本文提出了一种应用于机器、人工语音认证的语音合成防御方案:Voicefox。 作者发现合成后的语音在使用现代语音识别(即语音转文字)系统时,错误率明显高于自然语音(大约2-3倍),因此我们可以利用识别准确率来分辨真实人类语音与合成语音。作者对前沿的语音合成系统和语音识别系统做了测试证明可以通过识别准确率进行分类。最后,作者还提出了一些额外的处理规则,如忽视字典中不存在的词汇,接受较低正确识别率的语音等来降低方案的错误率。

2 论文要点

2.1 背景

  1. 说话人认证技术已经被用在了很多安全场景,这也引来了许多针对其的攻击。其中,自动语音合成攻击就是其中一种,攻击者采集受害者的语音,并使用先进的语音合成技术合成出任意攻击者希望的语音,并送入说话人认证系统,以绕过认证。这种攻击已经被证明非常有效,在机器认证环境可以达到 90% 的准确率,在真人认证环境可以达到 50% 的准确率。而这一切只需要数分钟的说话人语音进行训练。

  2. 本文作者发现现有的语音识别系统不能很好的识别合成语音,可能的原因是现有的语音识别系统均使用真人语音进行训练,所以不能很好理解合成语音。

2.2 价值

  1. 针对 Machine-Auth 和 Human-E2EE 的场景设计部署了一种缓解方案:Voicefox,可以利用语音识别系统识别合成语音时的高错误率发现合成语音。
  2. 采集了目标场景的语音数据集并使用前沿的语音识别系统与语音合成系统进行了实验,发现合成后的语音在使用语音识别系统时,错误率高于自然语音大约2-3倍。
  3. 设计了语音识别后的规则来进一步降低错误率。

2.3 问题陈述

  1. 威胁模型:假设攻击者能够采集到受害者大约数分钟的语音来合成语音。并且攻击者能够使用高质量录音设备,在较低环境噪声的情况下采集受害者语音。
  2. 目标:证明 Voicefox 可以使用语音识别的错误率来较为可靠地检测合成语音。

2.4 方法

本文提出在传统的说话人认证(Speaker Verification)模块上并联一个检查模块。具体而言,该模块将语音送入语音转文字引擎,然后将结果与参考文本做对比计算错误率,并根据设定好的阈值判断错误率是否过高,当过高时则拒绝该语音。

该方法有效的前提是合成的语音在转文字后错误率远高于真人语音,于是作者采用三种流行的语音转文字引擎(Google Cloud Speech-to-Text, IBM Watson Speech-to-Text, Mozilla DeepSpeech) 与 三种流行的语音合成工具(Festvox Voice Conversion Speech Synthesis Tool, Lyrebird Speech Synthesis Tool, Google Tacotron Speech Synthesis Tool) 进行了实验,以证明可以通过语音转文字的错误率判断语音是否为合成语音。

2.5 结果

整体而言,所有的语音合成工具得到的语音与真人语音相比,在转文字后的错误率均有 2-3 倍的 WER(Word Error Rate)\footnote{错误转文字的单词(修改,增添,删除)占语音(句子)总单词的比例。原文未说明分母是以正确句子或是转文字得到句子的单词数为准。}。为了量化差异,作者使用了 Mann Whitney U Test ,检验表明合成语音的 WER 与真人语音的 WER 显著不同。这证实了 Voicefox 的有效性。

Mann Whitney U Test:曼-惠特尼U检验又称“曼-惠特尼秩和检验”,是由H.B.Mann和D.R.Whitney于1947年提出的。它假设两个样本分别来自除了总体均值以外完全相同的两个总体,目的是检验这两个总体的均值是否有显著的差别。https://en.wikipedia.org/wiki/Mann-Whitney_U_test

3 评论

3.1 局限性

语音欺骗攻击的主要类别有重放攻击、语音合成攻击、语音转换攻击、模仿攻击。而本文提出的方案仅能对语音合成攻击进行检测,这已经是一个非常大的局限了。在论文的讨论部分也提到,本方案可以和活体检测模块一同使用,但是既然引入了活体检测模块,本方案就显得十分鸡肋了。当然根据本文的思路,语音转换攻击可以期待也能被该方案所检测,但是重放攻击从理论上就很难被该方案检测。考虑到重放攻击简单易于实施,本方案很难独立使用。

3.2 扩展阅读

  1. Mukhopadhyay D., Shirvanian M., Saxena N. (2015) All Your Voices are Belong to Us: Stealing Voices to Fool Humans and Machines. In: Pernul G., Y A Ryan P., Weippl E. (eds) Computer Security – ESORICS 2015. ESORICS 2015. Lecture Notes in Computer Science, vol 9327. Springer, Cham

3.3 启示

本篇论文从一个有趣的角度来防止语音合成攻击:语音转文字的错误率。逻辑也很好理解:既然现有的语音转文字引擎使用真人语音进行训练,那其在合成语音数据上的表现一定会较差一些,进而以语音转文字的准确率就可以区分真人语音与合成语音。这也是一篇跳出传统语音处理技术的论文,不需要从语音中利用语音处理技术提取特征即可达到区分合成语音的目的。很多问题本就多解,从另外的角度也许也能获得我们想要的答案。