乐智网

谷歌开发新AI技术 可在喧闹中识别和分离个体声音

2018-04-16 14:43 来源:动点科技

据 Ars Technica 报道, 谷歌研究人员开发出一种深度学习系统,旨在帮助计算机更好地识别和分离出嘈杂环境中的个体声音。

正如谷歌本周在 Google Research Blog 上所称,该公司内部团队正试图复制“人类大脑专注于某个声音来源时,可过滤掉其他声音”的功能。谷歌发布了 YouTube 视频,展示了该技术的实际应用情况。

谷歌表示,这项技术可以应用于使用单一音轨的视频,并能在视频算法中隔离声音。谷歌称,这里的视觉组件是关键,因为当某人的嘴在动时,这项技术会观察到,以便能在特定时刻更好地识别在某人的声音,并为视频的长度创建更精确的个人语音轨迹。

这篇博客文章写道,研究人员在 YouTube 上收集了 10 万段“讲座和谈话”视频,从这些视频中提取了近 2000 小时的视频片段,并将音频与人工背景噪声混合。然后谷歌通过阅读人们在每个视频框架中说话的脸部动作和该视频原声带的谱图,训练技术人员将混合音频进行拆分。该系统能够分辨出哪个音频源在给定的时间内属于哪张人脸,并为每个扬声器创建单独的语音轨迹。

谷歌特别指出,封闭字幕系统是该系统的一个优势,但该公司表示,它设想了“这一技术的广泛应用”,并且“目前正在探索将其纳入各种谷歌产品的机会”。

版权与免费声明
①本网凡注明来源“乐智网”的所有作品,版权均属于乐智网。转载方务必在文中注明来源,并附带链接 http://www.lezhiot.com/。若转载方没有严格执行上述约定,乐智网将视为侵权,并追究相关法律责任。 ②本网转载其他网站作品的过程中会注明来源,目的在于为读者传递更多信息,并不代表乐智网赞同其观点或证实相关内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并主动承担版权等法律责任。
乐智网二维码

扫一扫关注我们