基于多流多状态动态贝叶斯网络的音视频连续语音识别

吕国云蒋冬梅张艳宁赵荣椿 H Sahli Ilse Ravyse W Verhelst 电子与信息学报 2008年第12期

摘要：语音和唇部运动的异步性是多模态融合语音识别的关键问题，该文首先引入一个多流异步动态贝叶斯网络（MS-ADBN）模型，在词的级别上描述了音频流和视频流的异步性，音视频流都采用了词-音素的层次结构。而多流多状态异步DBN（MM-ADBN）模型是MS-ADBN模型的扩展，音视频流都采用了词-音素-状态的层次结构。本质上，MS-ADBN是一个整词模型，而MM-ADBN模型是一个音素模型，适用于大词汇量连续语音识别。实验结果表明：基于连续音视频数据库，在纯净语音环境下，MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35．91％和9．97％。

关键词：语音识别动态贝叶斯网络音视频多流异步