基于声音多特征贝叶斯网络融合的话者识别研究

朱坚民张雷翟东婷雷静桃仪器仪表学报 2013年第09期

摘要：针对基于语音单一特征提取方法所存在的话者识别准确率较低的问题，提出将话者语音中反映人耳听觉感知特性的MFCC特征和接近心理声学临界频带的1／3倍频程（1／3octave）特征作为话者声音的特征参数，设计话者识别的贝叶斯网络，融合2种声音特征参数，通过贝叶斯网络推理实现话者识别。贝叶斯网络通过学习过程确定已注册话者各声音特征的条件概率。进行话者识别时，贝叶斯网络利用贝叶斯定理及条件独立性假设融合待识别话者声音的MFCC特征和1／3倍频程特征，计算每个已注册话者对输入语音特征矢量的后验概率，根据后验概率的大小实现待识别话者的推断。话者识别实验结果表明：提出的基于声音多特征贝叶斯网络融合的话者识别方法可行有效，识别正确率达到100％。

关键词：mfcc特征 1 3倍频程特征贝叶斯网络后验概率