分类中的类重叠问题及其处理方法研究

熊海涛吴俊杰刘洪甫刘鲁管理科学学报 2013年第04期

摘要：类重叠问题是数据挖掘与机器学习领域的瓶颈问题之一.如果其中还存在类不均衡问题时,情况变得更加复杂.有鉴于此,本文在已有文献基础上归纳了三种类重叠学习算法及提出一种新的方法：分隔法,并首次将支持向量数据描述算法用于实际数据的重叠样本识别,对类重叠问题及其与类不均衡问题的相互影响进行了系统研究.在真实数据上采用五种分类器的实验结果表明：1）多数情况下“分隔法”是表现最佳的类重叠学习算法；2）分隔法通常对基于分界面而非规则的分类器更为有效；3）分隔法在类不均衡问题中表现很好,当基础分类器为支持向量机时尤为突出.最后针对支持向量机的实验结果给出了理论分析.

关键词：数据挖掘分类类重叠类不均衡支持向量数据描述