雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

语音交互新突破 谷歌DeepMind研发语音仿真系统WaveNet

YiViAn 2016年9月13日)谷歌旗下的超级人工智能公司DeepMind已经研发出了一套能够生成模仿人类语音的系统,他们声称该系统比现有技术的性能高出50%。

DeepMind成立于英国,在2014年被谷歌以4亿英镑的价格收购。他们研发出了名为WaveNet的技术,这个技术可通过对人类语音进行实时采样并学习如何创建语音词句,来让人工智能模仿人类的声音说话。在使用美式英语和普通话的盲测中,人们发现由WaveNet生成的语音听上去比谷歌现有的文本语音转换程序更为自然,但跟人类语音相比仍然存在不足。

大部分由计算机生成的语音程序都是通过机器记录个人声音片段,构建出一个大型数据库,然后再次拼合并组成完整的表达语句。但这种方式并不自然,语气和情感并不完全对应,而且难以对语音进行修改。其他的系统通常是基于特定字母组合的发音规则,完全通过电子形式合成语音。虽然这些系统可以轻易控制语音,但比计算机生成的语音更不自然。

WaveNet是一种名为神经网络的AI,旨在模拟人类大脑的语音功能。这样的网络需要通过大型数据库进行训练。

挑战

DeepMind表示,WaveNet暂时没有商业应用的计划,因为该系统需要大量的计算性能:训练的音频信号需要达到每秒16000次及以上。每一个样本都需要基于之前的样本来建立对于声波样式的预测。DeepMind的研究人员也在博文中写道:“这确实是一个非常具有挑战性的任务。”

但各大科技公司都非常关注DeepMind的突破。从移动手机到汽车,语音对人机交互变得越来越重要。亚马逊、苹果、微软和Alphabet的谷歌都对能使用语音与用户进行交互的个人数字助手进行了投资。Google Play的国际总监Mark Bennett表示,用户20%的移动搜索是通过声音完成,而不是书面文字。

尽管研究人员在让计算机理解口头语言上获得了很大进步,但在模仿人类语音语气上则相对滞后。

策略游戏

WaveNet是DeepMind的又一个突破,YiViAn相信WaveNet将为AR-VR带来更自然的语音交互系统。DeepMind之前制作的人工智能系统AlphaGo击败了世界顶尖的围棋大师李世石,让所有人都记住了这个名字。

谷歌在今年曾对外表示,DeepMind的技术减少了数据中心40%的电力需求,节省下来的费用证明了谷歌收购这家人工智能公司是一个正确的决定。另外谷歌还指出DeepMind的技术极大地改善了YouTube、Google Play和谷歌的广告产品服务。但谷歌并没有透露DeepMind的研究会给自己带来哪些商业上的帮助。

引用参考bloomberg

本文链接https://news.nweon.com/21542
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯