摘要:本文针对sIB算法仅适用于共现数据的问题,提出了一种能够自动进行范畴类型数据分析的sIB算法:CD-sIB.该算法根据范畴类型数据的离散化表示、不同属性值有限的特征,进行数据的属性的拓展和二元化处理,基于属性值的出现进行X,Y的联合分布的计算,使得sIB算法可有效应用于范畴类型数据的分析.实验结果表明:CD-sIB算法相对于现有的面向范畴类型数据聚类模式分析的算法GAClust和K-modes具有明显的优势;CD-sIB算法在进行数据属性概化程度高、类数据分布相对平衡的范畴类型数据的分析中,在效率和精确度方面均很突出.
关键词:ib理论 sib算法 范畴类型数据 概化 聚类
单位:郑州大学信息工程学院计算机科学系; 河南郑州450052; 北京交通大学轨道交通控制与安全国家重点实验室; 北京100044
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社