基于频繁词集和k-Means的Web文本聚类混合算法

王乐田李贾焰韩伟红计算机工程与科学 2008年第08期

摘要：当前，Web文本聚类主要存在三个挑战：数据规模海量性、高雏空间处理复杂性和聚类结果的可理解性。针对上述挑战，本文提出了一个基于top-k频繁词集和k—means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理，k个频繁词集对聚类结果提供了可理解的解释。topHDC避免了已有算法中聚类结果受文档长度干扰的问题。在两个公共数据集上的实验证明，topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法。

关键词：文本挖掘聚类频繁词集