摘要:目前数据流分类算法大多是基于类分布这一理想状态,然而在真实数据流环境中数据分布往往是不均衡的,并且数据流中往往伴随着概念漂移。针对数据流中的不均衡问题和概念漂移问题,提出了一种新的基于集成学习的不均衡数据流分类算法。首先为了解决数据流的不均衡问题,在训练模型前加入混合采样方法平衡数据集,然后采用基分类器加权和淘汰策略处理概念漂移问题,从而提高分类器的分类性能。最后与经典数据流分类算法在人工数据集和真实数据集上进行对比实验,实验结果表明,本文提出的算法在含有概念漂移和不均衡的数据流环境中,其整体分类性能优于其他算法的。
关键词:数据流 概念漂移 集成学习 不均衡
单位:重庆邮电大学通信与信息工程学院通信新技术应用研究中心; 重庆400065; 重庆信科设计有限公司; 重庆401121
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社