云平台加速中文语音识别的来临

来源:电子工程专辑 作者:—— 时间:2011-10-14 15:08

二、语音技术的三大种类

        除了人工智能,Siri的核心功能仍是基于语音识别的语音技术,其语音引擎来自Nuance,这家公司在全球手机输入法上处于垄断地位。

        这一技术并非革 命性的变革,早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的“Radio Rex”玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。

        近二十年来,语音识别技术取得显著进步,开始逐渐从实验室走向市场。据了解,许多大公司如IBM、苹果、微软、Google、AT&T和NTT等早在多年前都对语音识别系统的实用化研究投以巨资。目前主流的语音技术方案包括IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, ,Nuance公司的Nuance Voice Platform语音平台,Microsoft的Whisper,Sun的VoiceTone,以及科大讯飞的口讯等。

        “语音技术是一个典型的交叉科学,涉及到很多方面,不是说有钱就能做的,是有一定门槛的。你可以去APP下载一个我们的软件体验一下”。根据科大讯飞副总江涛对电子工程专辑记者的介绍,目前语音技术大体上有三个分支:

        第一类是语音合成技术(TTS),就是把文字变成语音,能够把文字读出来的技术,这个技术相对来说发展最早,也比较成熟。

        第二类是语音识别技术(ASR),它又有几个细分,比较技术成熟的有命令识别(voice command),在有限的指定空间中实现你说的命令,早期很多手机上的语音识别很多就是这个层面。还有一个分支是语音评测,能够对你说的不同语言的标准程度进行打分、评价与指导。

        第三类是声纹识别技术,因为语言中人的声带带有独特的物理特性,跟指纹、虹膜一样每个人的声音都是独特的,目前这种技术主要用在声音加密方面,可以识别不同人的声音。

        据江涛对电子工程专辑记者透露,目前最难实现的就是语音识别技术(ASR),尽管业内普遍以识别率作为软件评测的标准,但语音受影响的环境因素太多了,说话人的语气、语速、外围的噪音程度,麦克风的情况,尤其是云端识别,传输的信道好坏,很多很多因素都是不可控制的,“所以让官方去测一个系统识别率是多少其实意义不大,因为每个人用的具体环境都不大一样。最终做决定的还是消费者,他们会用自己的手机去投票”。

三、语音技术面临的诸多挑战

        据江涛介绍,目前语音识别技术在实现上还有几大难点需要解决:

        1、自适应方面

        目前,象IBM的ViaVoice和Asiaworks的SPK都需要用户在使用前进行几百句话的训练,以让计算机适应你的声音特征。这必然限制了语音识别技术的进一步应用,大量的训练不仅让用户感到厌烦,而且加大了系统的负担。现实世界的用户类型是多种多样的,就声音特征来讲有男音、女音和童音的区别,此外,许多人的发音离标准发音差距甚远,这就涉及到对口音或方言的处理。事实上,ViaVoice的应用前景也因为这一点打了折扣,只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满意的成绩。

        2、强健性方面

        语音识别技术需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可能指望手机能听懂你的话,来自四面八方的声音让它茫然而不知所措。很显然这极大地限制了语音技术的应用范围,目前,要在嘈杂环境中使用语音识别技术必须有特殊的抗噪(Noise Cancellation)麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音,如何让语音识别技术也能达成这一点呢?这的确是一个艰巨的任务。

        某位业内人士在微博上表示:“与iPhone 4一样,iPhone 4S也配有副麦克风,用来过滤背景杂音。使用过Nuance Dragon语音到文本产品的用户无疑会对这种情形非常熟悉:在语音输入时必须保证良好的音质并且减少杂音,即便这样语音输入结果也并非100%准确。基于此,我们认为iPad和iPod touch上的低音质麦克风无法让语音输入获得最佳效果,从而无法在短时间内用上Siri。”

        此外,带宽问题也可能影响语音的有效传送,语音技术的流量要求主要看语音的质量,越保真的语音传输量越大,现在主流的语音技术采用的都是16bit编码和8bit编码两种。在速率低于1000比特/秒的极低比特率下,语音编码的研究将大大有别于正常情况,比如要在某些带宽特别窄的信道上传输语音,以及水声通信、地下通信、战略及保密话音通信等,要在这些情况下实现有效的语音识别,就必须处理声音信号的特殊特征,如因为带宽而延迟或减损等。

资讯排行榜

  • 每日排行
  • 每周排行
  • 每月排行

华强资讯微信号

关注方法:
· 使用微信扫一扫二维码
· 搜索微信号:华强微电子