摘要:随着各种数字化信息不断增长,如何对大量文档信息进行科学归类成为亟待解决的问题。文本自动分类方法成为目前解决该问题的一项关键技术。我国目前有超过1,000万的企业,企业经营范围是企业从事经营活动的具体描述。本文以企业经营范围数据为基础,根据其结构特征,以及与经济行业的关系,利用大规模文本数据的切分词优化、统计分类推断、属性关联分析等关键技术,通过在组织机构代码数据库中提炼相关数据进行实验比对分析,从而得出一种实用、高效的企业经营范围的文本自动分类方法。
关键词:经营范围 经济活动 行业类别 文本分类
单位:全国组织机构代码管理中心 北京100029 哈尔滨工业大学 哈尔滨150001
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社