摘要:两阶段抽样算法从海量数据集中抽取样本数据用于数据挖掘,当数据集规模过大时算法效率偏低,当数据集规模过大且为稀疏数据集时抽样精度偏低。本文改进了传统两阶段抽样算法,提出新的抽样算法EAFAST,可自适应地调节算法参数,而且能充分利用历史信息进行启发式搜索。实验证明,EAFAST算法可同时提高算法效率和抽样精度,弥补了传统算法的不足。
关键词:抽样 两阶段 频繁项目集 剪枝 精度
单位:华中科技大学计算机科学与技术学院; 湖北武汉430074
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社