60倍速音频降噪，噪声抑制算法让线上会议不再尴尬

MSRAsia | 2021-02-06 11:08:57 阅读：238

编者按：新冠疫情的爆发使得线上办公、在线课堂成为常态化，但随之而来的问题也让人们体会到了其中的不适：杂乱的背景、乱入的家人、尴尬的噪声…… 为此，微软在线会议软件 Microsoft Teams 不断更新，推出了背景虚化/背景替换、Together Mode 等功能。最近，Microsoft Teams 全新的噪声抑制功能也正式上线了，一键屏蔽噪音，让沟通更纯粹。

作为多个 Microsoft Teams 功能核心算法的提供者，微软亚洲研究院多媒体计算组的噪声抑制算法模型近日在 ICASSP 2021 深度噪声抑制 DNS 比赛中位居榜首。同时，研究员们在噪声抑制方向的研究论文 “Interactive Speech and Noise Modeling for Speech Enhancement” 也已被 AAAI 2021 接收。

2020年新冠疫情的爆发迫使全球各地的人们将办公、会议、课堂搬到了家中。虽然节省了通勤时间，但仍不时会伴随着一丝尴尬：来不及整理的房间、时不时乱入画面的萌娃和宠物……所以每次开会之前，都要赶紧收拾一下摄像头所达之处，或是找个背靠白墙的角落。

问题不止这一个，宠物在一旁狂叫、室友拿出吸尘器打扫卫生，孩子们玩闹嬉戏…… 即便协调好了家人，隔壁邻居的装修声、练琴声、除草声…… 又毫无征兆地响起，此刻只能无奈地按下静音键。

其实早在两年前，微软在线会议软件 Microsoft Teams 就推出了背景虚化和背景替换功能，一切杂乱的背景都可以被虚化，或者用其他图片替代，之后该功能也逐渐成为在线会议软件的标配。

2020年6月，Microsoft Teams 又提供了 Together Mode（同席模式）功能，参会人员的头像可以呈现出在同一个会议室里排排坐的效果，实现数字参会，缩短人与人的距离。其中 Give me five 的击掌庆祝功能，更是让相隔千万里的团队成员感觉像就在身边一样。

就在最近，Microsoft Teams 全新的噪声抑制功能也正式上线了。只需一键，风声、雨声、装修声，声声消除，杂音、噪音、键盘音，通通屏蔽，主讲人的声音也因此更加清晰有力。

上述三个“魔法”功能的核心算法，均来自于微软亚洲研究院多媒体计算组。其中，噪声抑制功能的算法模型在 ICASSP 2021 深度噪声抑制（Deep Noise Suppression，DNS）比赛中位居榜首。研究员们在噪声抑制方向的一篇研究论文 “Interactive Speech and Noise Modeling for Speech Enhancement” 也已被 AAAI 2021 接收，点击阅读原文查看论文。

8倍降噪处理速度人耳还说“不够好”，所以有了60倍

与视觉方面的背景虚拟化相比，实时视频会议的噪声抑制更有难度，因为人对听觉质量的要求更高，而且噪声抑制还会涉及诸多因素，比如模型算法的质量与性能、数据的复杂多样、测试过程中理论标准与现实体验的差距等等，每个环节都需要巨大的工作量，可以说是耗时费力。

“高质量的降噪效果和实时处理性能是视频会议中音频降噪的两大挑战。音频传输近乎实时，而降噪处理需要时间，但系统又不能提前获得音频数据，因此给到音频降噪处理的时间窗口就特别小，”微软亚洲研究院多媒体计算组主管研究员彭秀莲如此介绍道。“理论上，一个20毫秒的音频帧，在10毫秒、5毫秒内处理完成即可。但在实际应用的处理过程中，可能会出现不同线程的干扰，各种音频处理模块、编解码效率等不可控因素，一旦有一个环节掉链子，甚至只是延迟了1毫秒，就可能带来一系列连锁反应，导致整体上无法实时完成降噪处理。”

在实际的应用场景中，计算力永远都不可能无限量供应。为了满足实时性的要求，视频会议产品有时候难免需要牺牲音频质量，但用户体验势必大打折扣。而这也是 Microsoft Teams 产品团队与微软亚洲研究院合作的原因，因为 Microsoft Teams 是面向全球用户的成熟商用产品，用户体验永远被放在第一位，如何能够将音频降噪处理做到极致，需要研究员从基础研究角度给予支持。

其实在实时音频降噪处理速度达到8倍实时时，该模型就已经在 PESQ、SDR 等数据集的测试中取得了很好的结果，但是离真实系统运行的实时要求还有差距，而且人耳的敏感度比这些业界标准的指标要求更高，因此研究员们进一步努力，将处理速度提高到了60倍，同时也提高了听觉质量，并让大多数运行 Microsoft Teams 的终端设备，都能获得高质量的语音效果。

为了不断提升语音品质，微软亚洲研究院多媒体计算组的研究员们从以下几个方面进行了创新性的探索。

语音、噪声双建模，准确分辨主旋律和噪声

现有的音频降噪建模方式主要有两种。一种是使用 DSP 数字信号处理技术对平稳的噪声建模，人说话的声音千变万化，是动态的，而平稳噪声通常存在一定的规律，比如吸尘器发出的嗡嗡声、装修的敲击声等，DSP 方法可以找到其中的规律将其去除，但这种方式很难屏蔽敲击键盘、开关门等没有规律的声音。另一种方式则是利用机器学习对主讲人的声音进行建模，并将其他所有声音如键盘声、开关门、空调声等都当作是噪音，但这又可能使得一些有用的声音被抹去，反而失真。

微软亚洲研究院的研究员们利用深度神经网络对主讲声和噪声分别建模，并在两者之间建立起交互关系，从而让模型可以更加准确、高效地区分主旋律和噪声。与此同时，通过AI技术还可以对语音传输过程中产生的回音、啸叫等噪声进行降噪处理。

SN-Net：基于交互式语音、噪声双建模的噪声抑制算法

更精细化的神经网络架构，可识别上百种噪声

噪声的种类繁多，仅日常中常见的噪声就有150多种。通常对一种噪声建模相对容易，但同时建模多种声音就容易产生干扰，所以建模时既要保障数据的多样性，保证可以处理多种情况，也要保证语音传输的质量。研究员们在 Microsoft Teams 噪声抑制功能的语音处理时序模块上采用了复杂性较低的 CNN（卷积神经网络），同时在缩短延迟性上采用了因果卷积技术，播放端只需针对每一帧进行功能处理即可，这样既保证了低迟延又降低了复杂性。

在训练数据中增加真实录音数据，让处理效果不再违和

在训练数据方面，研究员们除了采用真实噪声与说话声的合成数据外，还使用了真实场景下含有噪声的录音数据。两者结合训练，既弥补了合成数据不符合真实场景声音而导致的模型在实际应用中不自然的缺陷，又应对了真实录音缺少纯净声音对比而无法评估模型好坏的不足。基于这种半监督的学习方法，研究员们训练了多个模型，以完善音频降噪处理。

真人试听大幅提升模型品质

在公开数据集上进行音频降噪测试时，通常注重的是模型运行出来的结果的分数高低，事实上有些模型尽管获得了很高的评测分数，但在人耳听起来仍有很大差距。在 Microsoft Teams 噪声抑制算法的模型评估中，研究员们采用了大量人力亲耳试听降噪后的音频，以选择出最符合人耳感受的语音，定义出最好的损失函数，从而设计出品质更高的模型。

做产品要实现系统当下最优，做研究则要探索未知

Microsoft Teams 的噪声抑制功能一经发布，便获得了用户的广泛认可。此外，在 ICASSP 2021 深度噪声抑制（Deep Noise Suppression，DNS）比赛的各项指标中，该噪声抑制算法模型都位居榜首。这一系列的成果，都归功于微软亚洲研究院与 Microsoft Teams 产品团队的紧密合作。

ICASSP 2021 DNS 比赛实时噪声抑制结果（Overall DMOS 越高越好)：其中 Microsoft-1 为微软亚洲研究院的算法模型

ICASSP 2021 DNS 比赛给定说话人的噪声抑制结果（DMOS 越高越好）：其中 Microsoft-1 为微软亚洲研究院的算法模型

ICASSP 2021 DNS 比赛网站：

https://www.microsoft.com/en-us/research/academic-program/deep-noise-suppression-challenge-icassp-2021/

ICASSP 2021 DNS 比赛结果：

https://www.microsoft.com/en-us/research/uploads/prod/2020/12/Challenge_Results.pdf

彭秀莲认为，与产品部门合作和此前纯粹做基础研究有所不同，因为双方的领域知识不同，所以可以从多个角度去探索同一个问题。“但这期间的沟通也很有挑战，当有不同观点时，我们需要用实验、数据等硬核的方式去确定下一步的工作走向，尽管增加了很多工作量，但也因此更加严谨，且离最优解更近。”

“研究通常是基于一个问题去找到好的想法，然后利用现有条件去验证想法的有效性。而实际的产品，不只要考虑某个技术的可行性，更要从各个维度考量它的工程特性，是一个系统工程。有时候解决了一个问题，还可能产生新的问题，但产品最终要追求的是整个系统的当下最优解。” 彭秀莲表示，这期间她也习得了更加积极主动的沟通方式。

研究员们在合作中还发现，作为一款全球化的产品，Microsoft Teams 背后的技术需要解决的问题也包含着不同文化间的差异。比如，除草机这类噪音，在欧美国家比较常见，而装修噪音，却是国内最常见的干扰。为了让 Microsoft Teams 的噪声抑制功能在多文化、多场景下都能达到最佳的效果，合作团队的沟通非常紧密，每次开会都会实地进行版本测试。

从深度参与产品项目再回归到基础研究，研究员们的科研思路也进一步打开。微软亚洲研究院多媒体计算组首席研究员吕岩表示，“身为科研人员，我们更加关注问题背后的本质。无论是背景虚化还是噪声抑制，都是基础性的时序问题，其关键在于任务重构或理解，所以我们也在尝试用一个神经网络结构同时覆盖视觉与语音两个场景，甚至更多，也就是同时处理同一类时序问题，而不是逐个解决问题，这才是研究的意义所在。”

事实上，微软亚洲研究院多媒体计算组十年前曾进行过在游戏主机里设置浏览器的项目研究，初衷是为了提升游戏主机的处理能力，该研究的理念和思路一直延续到云时代在云端进行多媒体渲染的研究和技术应用上。“即便时代变迁，这样的研究仍有价值，”吕岩强调，“以前我们在做多媒体研究的过程中，发现了多媒体和计算之间的关联。现在做 Microsoft Teams 项目，我们也会‘水平思考’，尝试不同的方向和方法，去探索哪个效果会更好。未来我们将会涉及更多未知领域，因为科研就是应该去探索未知，而不是去验证已经被认可的想法。”

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。