乐智网

深度学习也玩鸡尾效应:谷歌提出新型音频-视觉语音分离模型

2018-04-13 14:23 来源:机器之心

在《Looking to Listen at the Cocktail Party》一文中,谷歌提出了一种深度学习音频-视觉模型,用于将单个语音信号与背景噪声、其他人声等混合声音分离开来。在这篇文章中,谷歌通过计算生成视频,增强其中特定人员的语音,同时减弱其他人的声音。研究者的方法用在具有单个音频轨道的普通视频上,用户需要做的就是在视频中选出他们想要听到的说话人的面部,或者结合语境用算法选出这样的人。这种方法用途广泛,从视频中的语音增强和识别、视频会议,到改进助听器,不一而足,尤其适用于有多个说话人的情景。

乐智网、智能语音。谷歌

这项技术的独特之处是结合了输入视频的听觉和视觉信号来分离语音。直观地讲,人的嘴的运动应当与该人说话时产生的声音相关联,这反过来又可以帮助识别音频的哪些部分对应于该人。视觉信号不仅在混合语音的情况下显著提高了语音分离质量(与仅仅使用音频的语音分离相比,正如在本文中所证明的),但是重要的是,它还将分离的干净语音轨道与视频中的可见说话者相关联。

在谷歌提出的方法中,输入是具有一个或多个说话人的视频,其中我们需要的语音受到其他说话人和/或背景噪声的干扰。输出是将输入音频轨道分解成的干净语音轨道,其中每个语音轨道来自视频中检测到的每一个人。

为了强调该模型对视觉信息的利用,研究者从谷歌 CEO Sundar Pichai 的同一个视频中截取了不同的两部分,并将它们并排展示。在这个场景中,仅适用音频中的特征语音频率是很难实现语音分离的。然而,即使在这样富有挑战性的案例中,该模型也可以正确地分离语音。

该方法还有作为预处理应用到语音识别和自动给视频加文字说明的潜力。处理语音重叠的说话人对于自动的文字说明系统来说是很有挑战性的,并且将音频分离为不同的来源可以帮助生成更加准确和易读的文字说明:

谷歌认为该项技术有很广泛的应用前景,目前正在探索如何将该技术整合到谷歌的产品中。

版权与免费声明
①本网凡注明来源“乐智网”的所有作品,版权均属于乐智网。转载方务必在文中注明来源,并附带链接 http://www.lezhiot.com/。若转载方没有严格执行上述约定,乐智网将视为侵权,并追究相关法律责任。 ②本网转载其他网站作品的过程中会注明来源,目的在于为读者传递更多信息,并不代表乐智网赞同其观点或证实相关内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并主动承担版权等法律责任。
乐智网二维码

扫一扫关注我们