百方网
百方曝光台
当前位置: 首页 » 行业资讯 » 企业新闻 » 正文

谷歌用AI从嘈杂环境中提取独立音轨:或存隐私担忧

http://news.byf.com   2018-04-16  来源:百方网 
新闻纠错
 北京时间4月16日早间消息,谷歌研究人员开发了一种深度学习系统,可以帮助电脑在嘈杂环境中更好地识别和区分一个人的声音。

本周在谷歌研究博客中发布的帖子显示,该公司的一个内部团队试图复制鸡尾酒会效应,也就是像人类的大脑一样,可以主动关注一个声源,同时过滤其他声源——就像你在聚会上跟朋友对话时的做法。

谷歌的方法使用了一个视听模型,使之可以集中精力区分一段视频中的声音。该公司还发布了多段YouTube视频,演示这项技术的实际效果。

谷歌表示,这项技术可以适用于单音轨视频,而且可以通过算法分离出视频中不同人的音频内容,也可以让用户手动选取视频中的人脸,专门收听此人的声音。
谷歌用AI从嘈杂环境中提取独立音轨:或存隐私担忧

谷歌表示,视觉元素是关键,因为这项技术会关注一个人的嘴唇运动,从而更好地判断某个时点应该关注哪段声音,并为一段较长的视频创造更精确的独立音轨。

谷歌研究人员通过收集10万段YouTube“演讲视频”开发了这个模型,总共提取了大约2000小时的内容,然后将这些音轨混合后创造了“人造鸡尾酒会”,再添加上人工背景噪音。

谷歌之后训练该技术通过观察每一格视频中的人脸和视频音轨的频谱图,把混合后的音频进行分割。这套系统可以区分哪个声源在特定时间内属于哪张脸,并为每个人制作一段独立的音轨。

谷歌认为,隐藏式字幕系统会成为该系统的一大应用领域,他们还在设想更广泛的应用方向,而且还在探索更多的机会,希望将其整合到各种谷歌产品中。例如,如果把它加入到Google Home智能音箱中,便可区分出不同用户发出的指令。

不过,这个模型需要配合视频才能更好地发挥作用,所以可能更适合亚马逊Echo Show。谷歌今年早些时候面向Echo Show这样的智能显示器开放了谷歌助手,但该公司本身尚未推出这样的产品。

但这项技术可能也会引发隐私担忧。虽然该技术的实际效果远没有视频演示得那么好,但经过一些细微调整,的确有可能成为强大的监听和监视工具。
百方网微信
免责声明:本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议,文章内容仅供参考。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
40.5K电气行业新闻、技术文章投稿QQ:179005781 邮箱:zw@byf.com
本文相关关键词: 隐藏式字幕 应用方向 视频音轨
行业热点
四大亮点抢先看!2024第十九届中国上海锂电及储能展,将于7月18日重磅开幕~

四大亮点抢先看!2024第十九届中国上海锂电及储能展,将于7月18日重磅开幕~

新一轮能源革命已经到来,随着“双碳”战略的实施...[详细]

2024无锡太湖国际智能泵阀产业博览会将于8月底盛大举行

2024无锡太湖国际智能泵阀产业博览会将于8月底盛大举行

以“‘泵’向新征程 ‘阀’现新动能 展出新作为...[详细]

威图闪耀2024CHINAPLAS国际橡塑展,数智赋能橡塑新未来

威图闪耀2024CHINAPLAS国际橡塑展,数智赋能橡塑新未来

橡塑行业作为国民经济的重要组成部分,其发展状况...[详细]

关于我们 | 广告服务 | 会员服务 | 隐私申明 | 友情链接 | 联系我们 | 法律顾问 | 网站地图 | 管理制度 (c)2008-2021 BYF All Rights Reserved