线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法

翟云; 王树鹏; 马楠; 杨炳儒; 张德政 电子学报 2014年第07期

摘要:非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link&Distribution Density-SMOTE,OSLDD-SMOTE).OSLDDSMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率.

关键词:非平衡数据分类单边选择链分布密度重采样

单位:国家行政学院电子政务研究中心; 北京101089; 北京科技大学计算机与通信工程学院; 北京100083; 中国科学院信息工程研究所; 北京100093; 北京联合大学信息学院; 北京100101

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电子学报

北大期刊

¥1272.00

关注 25人评论|0人关注