语音交互将从云端向终端侧演进

来源:华强电子网 作者:杨碧玲 时间:2018-06-21 09:56

人工智能 语音 交互

  人工智能技术要真正服务于生活,语音交互的使用就很有必要。不过当前语音交互处理需在云端进行,对于一些用户来说,将他们的语音数据交给云端会引发隐私问题。以智能手机和最近异常火爆的智能音箱为例,有报道称,手机中的麦克风和芯片,谷歌家庭和亚马逊Echo扬声器等智能家庭设备都可以听到一连串的声音命令,但是它们不会分析这些命令,而是将繁琐的工作转移到运行复杂机器学习算法的强大远程服务器上。亚马逊的Alexa助手和Google智能助理都会在将它们发送给他们进行分析之前记录片段,并且他们保留这些语音片段,直到用户选择删除它们。虽然两家公司都表示他们使用录音来改善他们的服务并提供更多个性化的回应。但在某些情况下,录音并不保密。

  而解决这一隐私问题的方法是在终端侧来处理语音交互。在前不久的高通人工智能创新论坛上,高通人工智能研究项目负责人兼工程技术高级总监侯纪磊曾指出,一个非常重要的趋势是,语音交互功能正从云端向终端侧快速迁移。“今天,从商用而非研发层面看,语音交互还更多是一个以云端为中心的架构。即使在这种情况下,出于对低功耗、实时的考虑,语音交互所需的一些功能如语音降噪和语音激活都已经在终端侧进行处理。从云端到终端侧的迁移是一个渐进的过程,很快包括语音识别、自然语言理解以及文字转语音(TTS)在内的更多功能会逐步演进到以终端侧为中心。由机器学习驱动的端到端解决方案正在推动语音交互向终端侧迁移的趋势。”

  为什么语音交互会从云端向终端侧演进?在终端侧处理语音交互有什么优势?“我们认为首先是隐私。出于私密性考虑,很多用户并不希望自己的数据上传到云端进行处理,这是在终端侧处理语音交互最重要的优势。第二个优势是即时响应,在终端侧进行语音处理,不仅能及时响应,还能无中断地进行处理。其它优势包括始终开启以及情境感知。举例来说,语音交互在终端侧处理,个人助手就能感知当时语音处理的背景、知道用户在与谁交流、了解用户当时语言表达的情绪,从而及时调整自己跟人交流的方式。当然这并不表示就没有云端处理的必要,我们认为未来语音交互长远的发展方向应该是云端跟终端紧密结合。比如一些复杂的语音实例,在终端还不能完全支持的情况下,有在云端回落的必要。除此以外,还有我们经常谈到的模型训练、模型更新、知识库应用,以及一些更宽泛的服务,在云端进行这些处理可以跟终端进行更好的互补。”

  总的来说,除了保护隐私之外,终端侧的语音交互因为不需要将数据上传到云端,所以能立即响应命令,并且因为不需要互联网连接,所以这种方式更可靠。这是一种以某种神经网络来完成整个端到端系统的方法,这会让设备更自然地进行交互。

  其实早在2016年,Google 就创建了离线语音识别系统,该系统比当时的在线系统快7倍。该模型经过约2000小时的语音数据训练,尺寸为20.3兆字节,在智能手机上的准确率达到86.5%。当然,设备离线语音识别有其自身的一些限制。设计为脱机工作的算法无法连接到互联网来搜索问题的答案,并且错过在基于云的系统中通过更大且更多不同数据集进行改进。

  端到端语音识别在设备上实现已经成为可能。“在今年的CES上,我们演示了智能家居中端到端的终端侧语音交互,展示了自动语音识别和自然语言理解技术。从语音识别的角度看,我们的终端侧技术能支持大型的指令集,比如打开客厅灯、关闭喷头等,一些在家常用的指令都可以识别。意图理解也是一个非常重要的角度。比如说,当我想打开厨房的灯,我可能会有不同的表达方式。我们最不希望发生的,就是语音交互技术只能机械地记住我们一个指令。而通过深度学习,可以支持我用不一样的表达方式,都能最终映射到相同的意图。这对提高用户体验也是非常重要的一个技术。我们的研究和初步演示现实,在适应口音和环境后,在一个指令集相对狭窄的领域中,在终端侧已经能达到99%的意图理解率。这也为商业推广终端侧的语音交互技术打下了很好的基础。” 侯纪磊说道。(责编:振鹏)



本文为华强电子网原创,版权所有,转载需注明出处

关注电子行业精彩资讯,关注华强资讯官方微信,精华内容抢鲜读,还有机会获赠全年杂志

关注方法:添加好友→搜索“华强微电子”→关注

或微信“扫一扫”二维码

分享到:

资讯排行榜

  • 每日排行
  • 每周排行
  • 每月排行

华强资讯微信号

关注方法:
· 使用微信扫一扫二维码
· 搜索微信号:华强微电子