线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于多流多状态动态贝叶斯网络的音视频连续语音识别

吕国云 蒋冬梅 张艳宁 赵荣椿 H Sahli Ilse Ravyse W Verhelst 电子与信息学报 2008年第12期

摘要:语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构。而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展,音视频流都采用了词-音素-状态的层次结构。本质上,MS-ADBN是一个整词模型,而MM-ADBN模型是一个音素模型,适用于大词汇量连续语音识别。实验结果表明:基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%。

关键词:语音识别动态贝叶斯网络音视频多流异步

单位:西北工业大学计算机学院 西安710072 布鲁塞尔自由大学电子与信息处理系 布鲁塞尔B-1050比利时

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电子与信息学报

北大期刊

¥1272.00

关注 31人评论|2人关注