软硬结合与数据驱动解决声纹识别两大痛点
上文提到声纹作为生物识别的一些优势,但事实上,在实际应用过程中,还有不少问题需要面对。声纹作为一种生物特征,相比于指纹、虹膜等其他生物特征而言,在识别过程中更容易受到外界或者人自身身体状况的影响,比如录音环境噪音,在编者体验微信声纹锁时,在马路上或是在茶餐厅等带噪音场景下,识别率就会大幅度降低。除噪音之外,声音的时变性、录音通道多样性、语音时长等变量较大的因素。那么,针对这些影响声纹数据的因素,目前对于提升系统鲁棒性都有哪些解决办法?
在录音获取的过程中,不同设备在声源采样率、声学信号处理法、压缩编码算法等方面都可能存在一定程度的差异。古擘表示:“这些差异会导致来自不同设备的录音数据存在不同程度上的失真和信息损失,其中就包括蕴藏在录音数据里的声纹信息的损失,尤其是在一些低信噪比的远场环境下,这种损失影响可能会被放大,进而导致声纹识别的准确定波动比较大,这对声纹识别模型的稳定性和鲁棒性提出了很高的要求。”
针对从获取录音的流程中所存在的影响,目前主要在算法和硬件两方面着手进行改进。古擘补充道:“为了解决这些问题,我们通过数据增强或者信道补偿的算法使得训练数据丰富多样化,这样模型在训练阶段就能得到较好的稳定性和鲁棒性。同时,我们还可以针对各个场景下采集设备的特点,配合特定应用场景提供更细化、更适配的算法模型。另外,声智还提供软硬一体的整体解决方案,比如给公安行业研发的声纹采集终端,采用4麦克风和6麦克风的阵列,每台设备出厂都会做麦克风一致性的校准,从硬件设计上减少语音采集的失真,再配合强大的麦克风阵列算法,为后端的声纹识别提供高质量的信号采集。同时,声智也在与第三方芯片和硬件合作伙伴紧密合作,不断进行用户体验的优化。”
李稀敏也有着类似看法,他认为当前针对噪音环境,可以从声纹传感器方面着手,从声纹的录制环节解决噪音问题。部分厂商开发了指定区域和距离内有效的声纹传感器,从而达到抑制噪音的目的。比如快商通的“智能声纹传感器及ASIC处理芯片协同开发与产业化”项目中,自研的声纹传感器就可以在指定区域和距离内有效拾音。除了硬件方面的改进,也会从语音增强算法方面部分解决复杂噪音环境的问题。
而针对个人声音的时变性,李稀敏表示,目前主要从研究提取更能表征个人特征的声纹信息着手,基于海量数据,利用深度神经网络模型挖掘稳定性特征。对于录音通道的多样性,则更多地是使用数据驱动的方式,利用更大规模的数据库来提取多种信道间的共性特征。与此同时,也有一些传统的方式,包括常规的无监督自适应技术、DAT、PDLA等方法,但李稀敏认为,未来趋势还将会是数据驱动。
作为一种生物识别技术,声纹识别除了识别率外,其安全性更加值得关注。比如声音模仿、录音重放都是此前对声纹识别系统常见的攻击手段,但随着语音合成技术的不断发展,也会极大影响声纹识别系统的安全性。目前,最优秀的语音合成技术可以使用非常少的数据训练出近似人类说话的声音,技术上完全可能通过机器语音合成来攻击声纹识别系统。
对此,古擘表示:“对于各种可能的攻击手段,声智科技的做法是,对声纹模型采用多种灵活的检测策略,同时结合前端语音处理,语音端点检测,语音合成检测,语音转录检测,说话人分离等多种技术手段,通过一系列的语音处理方法来保证声纹识别的安全性。”
针对声纹识别安全性的问题,李稀敏向记者介绍了快商通参加ASVspoof自动声纹识别欺骗攻击与防御对策挑战赛的一些情况。ASVspoof挑战赛的主要目标是提高声纹识别系统的防止欺骗攻击的能力,特别是来自虚假录音的攻击。而2017年的挑战主题是“重放攻击”,例如同一段虚假录音在与训练数据不同的重放环境、播放设备等条件下,考验声纹识别系统的鉴伪稳定性,而在声纹认证的攻击中,录音重放是最难检测的。快商通在首席科学家李海洲院士的带领下获得了ASVspoof 2017的第一名,据介绍,除了算法和系统外,解决方案还需要数据驱动,大量的录音样本、设备测试、不同采样率、不同时长、不同环境的训练。经过长时间的积累,快商通的声纹识别防欺骗攻击已经全面覆盖到不同场景,因此安全方面也有所保证。
同时,在如今智能家居等使用场景下,经常会遇到离线的使用环境,这对于较为依赖算力与数据库的声纹识别而言,是一个不小的挑战。对于在线与离线识别的区别,古擘表示:“一般来说,在线识别与离线识别的区别就是看模型部署在云端还是本地,模型部署在云端的叫做在线识别,部署在本地的叫做离线识别,声纹也是类似。在智能家居的家居设备控制场景下,受到终端设备的计算资源限制,通常可以定制从十几个到几十个不等的离线命令词,具备泛化能力则支持上百个离线命令词。在移动端场景下,因为手机的计算资源和存储较大,也能够安装接近通用识别的离线语音识别模型。”
“离线声纹识别相比在线声纹识别,一般说来相对较少的计算资源使得离线识别需要考虑参数,计算量,定点量化的等一系列的优化,使得离线声纹模型的性能会低于在线模型。其次离线声纹识别的安全性也会低于在线声纹识别,因为计算资源的限制,使得在有限的资源上难以集成包含前端信号处理,语音端点检测,语音合成检测,语音转录检测,说话人分离等一种或多种处理方式。”古擘补充到。
因此,从市场需求来看,不同场景下对于声纹识别的要求会有所差异,比如部分智能家居场景下的声纹识别是区分不同的用户,基于短命令的离线声纹可以满足这类要求。而据古擘透露,声智科技已经有成熟的离线声纹识别技术,并且已经成功应用在智能电视、智能音箱等智能家居的产品上。
声纹识别作为一项新兴的生物特征识别技术,市场应用还在开拓和培育当中,其应用场景非常广泛,但是单个应用场景尚未形成足够大规模的市场。但可以看出,在算法、硬件的配合,以及数据积累的帮助下,目前声纹识别技术的识别率和安全性已经得到长足发展,这为其未来在更多领域中的广泛应用打下了夯实的基础。虽然以市场需求驱动技术发展的层面看,无论从公安、金融,还是智能家居等领域,当前都已经到了声纹识别技术全面爆发的临界点。不过,要想实现真正的普及,声纹识别厂商们除了在开拓应用领域投入之外,还需要继续注重底层技术的开发。相信在现有应用落地的基础上,包容和不断优化声纹识别技术上的不足,将会持续推进这项技术的发展,声纹识别在未来或将会在我们生活中随处可见。
关注电子行业精彩资讯,关注华强资讯官方微信,精华内容抢鲜读,还有机会获赠全年杂志
关注方法:添加好友→搜索“华强微电子”→关注
或微信“扫一扫”二维码
- •电子元器件终端销售市场分析 | 2024年11月2024-12-04
- •最新全球TOP4电子元器件分销商Q3业绩大PK2024-11-28
- •最新国内TOP15电子元器件分销商Q3业绩大PK2024-11-14
- •电子元器件销售行情分析与预判 | 2024年10月2024-11-07
- •最新全球模拟芯片厂商TOP14上半年业绩大PK2024-10-31
- •最新全球TOP15车规芯片供应商上半年业绩大PK2024-10-25
- •电子元器件销售行情分析与预判 | 2024Q32024-10-18
- •电子元器件销售行情分析与预判 | 2024年9月2024-10-09
- •国内TOP15电子元器件分销商上半年业绩大PK2024-09-26
- •最新全球TOP40汽车Tier1厂商上半年业绩大PK2024-09-19