巨头混战,百箱争鸣:双十一“火拼“下的智能音箱行业趋势
来源:华强电子网 作者:席安帝 时间:2017-11-13 10:45
深度神经网络成算法标配 全面提升语音系统整体能力
对于提升智能音箱整体的用户体验而言,麦克风阵列还仅是物理入口,它只是负责完成了物理世界的声音信号处理,但想要实现语音识别率的提升还需要依靠软件算法技术的支持,比如苹果HomePod在硬件的基础上采用了大量的音效算法,其中包括自动低音均衡、声学动态建模等,更强大的算法支持也令其成为迄今为止速度最快且音效最棒的智能音箱。
对于语音识别算法系统而言,总体的处理流程相对硬件来说更为复杂,主要包括语音激活检测、特征提取、识别建模及模型训练、解码得到结果以及远场语音优化等几个步骤,具体如图2所示。其中,各个环节的匹配算法也都有出现一些新的演变趋势。
1、VAD(语音激活检测)
实际上,语音识别后续的操作都是在VAD截取出来的有效片段上进行,从而能够减小语音识别系统噪声误识别率及系统功耗。在近场环境下,由于语音信号衰减有限,信噪比(SNR)比较高,只需要简单的方式(比如过零率、信号能量)来做激活检测。但是在远场环境中,由于语音信号传输距离比较远,衰减比较严重,因而导致麦克风采集数据的SNR很低,这种情况下,简单的激活检测方法效果很差。目前来说,使用深度神经网络(DNN)来做激活检测是基于深度学习的语音识别系统中常用的方法(在该方法下,语音激活检测即为一个分类问题),比如MIT的智能语音识别芯片中使用了精简版的DNN来做VAD,该方法在噪声比较大的情况下也具有很好的性能,但是更复杂的远场环境中,VAD仍然是当下及未来研究的主流以及重点。
2、特征提取
特征提取方面,目前最主流的是梅尔频率倒谱系数(MFCC)特征,梅尔频率是基于人耳听觉特征提取出来的。MFCC主要由预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组、离散余弦变换几部分组成,其中FFT与梅尔滤波器组是MFCC最重要的部分。但是近年研究表明,对于语音识别而言,梅尔滤波器组不一定是最优方案。受限的玻尔兹曼机(RBM)、卷积神经网络(CNN)、CNN-LSTM-DNN(CLDNN)等深度神经网络模型作为一个直接学习滤波器代替梅尔滤波器组被用于自动学习的语音特征提取中,并取得良好的效果。
目前已经证明,在特征提取方面,CLDNN比对数梅尔滤波器组有明显的性能优势。基于CLDNN的特征提取过程可以总结为:在时间轴上的卷积、pooling、pooled信号进入到CLDNN中三个步骤。而远场语音识别领域由于存在强噪声、回响等问题,麦克风阵列波束成形仍然是主导方法,因此现阶段,基于深度学习的波束成形是自动特征提取方面的主流方法。
3、识别建模及训练
语音识别本质上是音频序列到文字序列转化的过程,即在给定语音输入的情况下,找到概率最大的文字序列。基于贝叶斯原理,可以把语音识别问题分解为给定文字序列出现这条语音的条件概率以及出现该条文字序列的先验概率,对条件概率建模所得模型即为声学模型,对出现该条文字序列的先验概率建模所得模型是语言模型。
而识别建模方面主要分为声学模型和语言模型两大类。在声学模型当中,目前最常用的声学建模方式是隐马尔科夫模型(HMM),在HMM下,状态是隐变量,语音是观测值,状态之间的跳转符合马尔科夫假设。其中,状态转移概率密度多采用几何分布建模,而拟合隐变量到观测值的观测概率的模型常用高斯混合模型(GMM)。基于深度学习的发展,深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等模型也被应用到观测概率的建模中,并取得了非常好的效果。而在语言模型方面,最常见的是N-Gram,随着近年深度神经网络的建模方式逐步被应用到语言模型中,深度神经网络未来将在该领域得到更进一步的普及和发展,比如基于CNN及RNN的语言模型。
目前阶段,端到端的建模方式是声学模型建模的重点研究方向,但是相比于其它的建模方式,其还没有取得明显的性能优势。如何在端到端建模的基础上,提升训练速度及性能,并解决收敛问题是声学模型的重要课题。
4、解码
基于训练好的声学模型,并结合词典、语言模型,对输入的语音帧序列识别的过程即为解码的过程。传统的解码是将声学模型、词典以及语言模型编译成一个网络。解码就是在这个动态网络空间中,基于最大后验概率,选择一条或多条最优路径作为识别结果(最优的输出字符序列)。而目前来看,语音搜索最常用的方法是Viterbi算法,而对于端到端的语音识别系统,最简单的解码方法则是beam search算法。
5、远场语音优化
远场语音优化是嵌入到整个算法处理流程中的,由于语音输入信号衰减比较严重,为了增强对语音信号的处理,不少公司常常采用麦克风阵列的波束成形技术来做核心支持,这显然提高了硬件的整体成本。如今,随着深度学习算法向该领域的纵深发展,该方法开始被应用到语音增强及分离处理当中,核心思想是把语音增强与分离转化成一个监督学习的问题,即预测输入声音源的问题。目前已有研究认为使用DNN来全面替代波束成形技术来实现语音增强,并在一定场景下取得了比较理想的效果,但是在背景噪声很大的环境中,该方法性能还有较大提升空间。
而在智能音箱的常用环境中,多人说话的情况下,如果不对输入信号做分离处理,而进行语音识别的话,识别效果会很差。对于该问题,在多个说话人距离较远的情况下,波束形成是一个比较好的解决方案,但是当多个说话人距离很近的时候,波束形成的语音分离效果也很差。为了避开波束形成所带来的场景分类问题,传统的方法多是在单通道下尝试解决该问题,常用算法有computational auditory scene analysis、非负矩阵分解、deep clustering 等,但是这些方法只有当噪声信号(除声源外的其他信号)与声音源信号有明显不同的特征时,这些技术才取得比较好的效果。其它情况下,这些方法在语音分离中取得的效果一般。2016年,俞栋博士提出了一种新的深度学习训练准则-- permutation invariant training,巧妙地解决了该问题,并取得了不错的效果。
总结
经过多年的推广和发展,智能音箱已经开始起量,且在巨头之间的“双十一火拼”助推下,2017年有望真正成为国产智能音箱市场的爆发年,但产品普及过快与技术不成熟之间则构成了矛盾,因此预计明年该市场增长率将逐步放缓,行业真正步入“冷静期”。技术方面,多麦克风阵列方案必然会持续占据主流(相信谷歌新一代产品也会使用麦克风阵列),随着麦克风阵列产品的走量以及价格、成本的优化,未来的技术比拼将更看重麦克风阵列的布局形式以及更核心的软件算法的整体实力。因此,编者认为市场份额的确十分重要,但整个产业的健康发展还需要理性,过早催熟一个产业必将为将来种下苦果。(责编:包永刚)
本文为华强电子网原创,版权所有,转载需注明出处
关注电子行业精彩资讯,关注华强资讯官方微信,精华内容抢鲜读,还有机会获赠全年杂志
关注方法:添加好友→搜索“华强微电子”→关注
或微信“扫一扫”二维码
- •今年全球半导体市场将增长20%,存储芯片市场将大涨52.5%!2024-03-11
- •三星以30.1%份额称霸全球电视市场,已连续18年夺冠2024-02-21
- •退出中国市场后,传Graphcore正考虑出售2024-02-19
- •2023年全球智能手机市场仅下跌4%,显现企稳信号2024-01-31
- •2023年中国智能手机市场:苹果第一,荣耀第二!2024-01-26
- •PC市场衰退势头终结,AI催生新一波应用成长动能2024-01-15
- •从147家国产半导体厂商Q3成绩单看最新市场趋势2023-11-02
- •半导体市场监测报告 | 2023年9月2023-10-11
- •半导体市场监测报告 | 2023年6月2023-07-13
- •2023 年第一季度,东南亚地区智能手机市场下跌 21%,但未来依然可期2023-05-26