基于递归神经网络的语音识别快速解码算法

张舸; 张鹏远; 潘接林; 颜永红电子与信息学报 2017年第04期

摘要：递归神经网络（Recurrent Neural Network,RNN）如今已经广泛用于自动语音识别（Automatic Speech Recognition,ASR）的声学建模。虽然其较传统的声学建模方法有很大优势,但相对较高的计算复杂度限制了这种神经网络的应用,特别是在实时应用场景中。由于递归神经网络采用的输入特征通常有较长的上下文,因此利用重叠信息来同时降低声学后验和令牌传递的时间复杂度成为可能。该文介绍了一种新的解码器结构,通过有规律抛弃存在重叠的帧来获得解码过程中的计算开销降低。特别地,这种方法可以直接用于原始的递归神经网络模型,只需对隐马尔可夫模型（Hidden Markov Model,HMM）结构做小的变动,这使得这种方法具有很高的灵活性。该文以时延神经网络为例验证了所提出的方法,证明该方法能够在精度损失相对较小的情况下取得2~4倍的加速比。

关键词：语音识别递归神经网络解码器跳帧计算

单位：中国科学院声学研究所语言声学与内容理解重点实验室; 北京100190; 中国科学院大学; 北京100190; 中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室; 乌鲁木齐830011

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

在线咨询期刊咨询

基于递归神经网络的语音识别快速解码算法

服务介绍

期刊推荐

订阅杂志

期刊咨询