线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于规则、串频统计和上下文关系的现代汉语分词系统的实现

潘大志 成琥 黄青松 内蒙古师范大学学报·教育科学版 2008年第01期

摘要:介绍了一种集合了规则、串频统计和中文上下文关系分析的现代汉语分词系统.系统对原文进行三次扫描,首先将原文读入内存,利用规则将原文变成若干个串.构成语段十字链表;然后对每个串中的子串在上下文中重复出现的次数进行统计.把根据统计结果分析出的最有可能是词的子串作为临时词;最后利用中文语法的上下文关系并结合词典对原文进行分词处理.系统对未登录词的分词有很好的效果.

关键词:中文分词未登录词现代汉语自动分词系统

单位:西华师范大学数学与信息学院 四川南充637000 昆明理工大学信息与自动化学院 云南昆明650051

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

关注 45人评论|5人关注