线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

仿EM的多变量缺失数据填补算法及其在信用评估中的应用

蒋辉; 马超群; 许旭庆; 兰秋军 中国管理科学 2019年第03期

摘要:数据缺失会显著降低信用评估模型的准确性和可用性,尤其是多变量同时有数据缺失时。本文针对模型应用阶段的多变量数据缺失问题,提出了一种新的数据填补算法。该算法由两阶段构成:准备阶段和数据填补阶段。在准备阶段,算法基于朴素贝叶斯方法以初始数据集进行训练,对每个可能缺失的变量构建起相应的单变量预测估计模型;而数据填补阶段则借鉴了EM算法的思想,利用前期的单变量预测估计模型,对给定的多变量数据缺失样本进行交替迭代,逐步填补更新。理论证明,该算法具有单调收敛性。以人人贷数据集和UCI提供的德国和澳大利亚两个信用评估基准数据集为例,将其与众数填补法、EM填补法进行性能对比实验,结果表明本文方法的数据还原性能和填补后信用评估准确性都明显更优。这为解决信用评估时的数据多变量缺失问题提供了一种更好的处理方法。

关键词:em算法信用评估数据缺失数据挖掘

单位:湖南大学工商管理学院; 湖南长沙410082

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

中国管理科学

CSSCI南大期刊

¥1060.00

关注 32人评论|2人关注