华盛顿大学开源语音深度学习算法，可以在嘈杂的环境中锁定某个说话者

作者 | Sergio De Simone

译者 | 明知山

策划 | 丁晓昀

“目标语音听力”是由华盛顿大学开发的一种新的深度学习算法，用户可以 “注册”（锁定）一个说话者并消除周围所有的环境噪音。

目前，这个系统要求佩戴耳机的人在盯着某人说话时点击一个按钮或看着对方三到五秒，这样可以引导深度学习模型学习说话者的语音模式并锁定它，这样即便戴耳机的人开始四处走动并且不再看着说话的人，仍然可以听到讲话者的声音。

一种朴素的做法是要求提供干净的语音示例来注册目标说话者。然而，这与实际的应用不太一样，因为在现实场景中获取干净的示例极具挑战性，这就带来了一个独特的用户接口问题。我们提出了第一个注册接口，佩戴者注视目标说话者几秒钟，以此来捕获目标说话者单一、短暂、高噪声的语音示例。

在注册步骤中，最为关键的是佩戴者需要朝着说话者的方向看，这样他们的声音就会在麦克风上对齐，而其他干扰噪音可能不会对齐。这个语音示例用于训练具有目标说话者特征的神经网络，并提取相应的嵌入向量。然后，将此向量与另一个神经网络一起使用，从一堆说话者中提取目标语音。

研究人员表示，与现有的降噪耳机相比，这是一个重大进步，现有的降噪耳机可以有效地消除所有噪音，但不能根据其语音特征有选择性地选择说话者。

为了实现这一点，团队必须解决几个问题，包括优化最先进的语音分离网络 TFGridNet，使其可以在嵌入式 CPU 上实时运行，并找到一种训练方法，使用合成数据构建一个能够推广到现实世界未见说话者的系统，等等。

“语义听力”项目的研究员之一 Shyam Gollakota 强调，他们的项目与当前的 AI 方法有所不同，因为它旨在使用设备上的 AI 来改变人们的听觉感知，而不依赖云服务。

目前，系统一次只能注册一个说话者。另一个限制是，只有当没有其他来自同一方向的响亮的声音时才会成功注册。如果用户对初始注册结果不满意，可以对着说话者再进行另一个注册来提高清晰度。

该团队已经开源了他们的代码和数据集，用以促进未来的研究工作，改进目标语音听力。

查看英文原文：

https://www.infoq.com/news/2024/05/target-speech-hearing/

声明：本文由 InfoQ 翻译，未经许可禁止转载。

苹果有史以来最疯狂的发布会！发布颠覆性个人智能系统Apple Intelligence，并彻底改革Siri