一种基于混合重取样策略的非均衡数据集分类算法

谷琼袁磊宁彬吴钊华丽李文新计算机工程与科学 2012年第10期

摘要：非均衡数据是分类中的常见问题，当一类实例远远多于另一类实例，则代表类非均衡，真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视，非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点，是对传统分类算法的重大挑战。本文提出了一种新型重取样算法，采用改进的SMOTE算法对少数类数据进行过取样，产生新的少数类样本，使类之间数据量基本均衡，然后再根据sMO算法的特点，提出使用聚类的数据欠取样方法，删除冗余或噪音数据。通过对数据集的过取样和清理之后，一些有用的样本被保留下来，减少了数据集规模，增强支持向量机训练执行的效率。实验结果表明，该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。

关键词：分类非均衡数据集预处理混合重取样 smote