线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

低数据资源条件下基于结构信息共享的无切分维文文档识别字符建模

姜志威 丁晓青 彭良瑞 刘长松 电子与信息学报 2015年第09期

摘要:无切分维吾尔文文档识别技术能够有效避免字符切分错误,但是对于低数据资源的新样本类型,原有模型往往难以获得较高的识别性能。为此,该文提出共享常用维文字体间相对稳定的字符结构信息,并用Bootstrap方法提高样本利用效率的解决方法。通过在实际书籍样本上的实验表明,仅利用规模约原始训练样本1/5的新类型样本,该方法在测试集上的平均字符识别准确率就可以达到95.05%;而与常用的最大后验概率估计方法相比,也能使识别错误率相对降低55.76%-63.84%。因此,该方法能够有效解决低数据资源条件下的维文字符建模问题,实现对新样本类型的高性能识别。

关键词:文字识别隐马尔可夫模型统计学习维吾尔文

单位:清华信息科学与技术国家实验室 北京100084 清华大学电子工程系 北京100084

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电子与信息学报

北大期刊

¥1272.00

关注 31人评论|2人关注