摘要:面对因特网上急剧增加的网页内容,通过对Web日志中的浏览记录进行聚类分析,可以改进信息搜索和个性化服务的效率。根据信息论理论,在会话一页面矩阵权值计算中考虑局部和全局权值的贡献;利用PLSA将隐式变量Z对页面P的条件概率转换为隐式变量Z对会话S的条件概率,然后在聚类分析中以此作为相似度计算依据。聚类算法采用了基于距离的k—medoids算法,以进一步改善聚类精度。实验结果验证了该算法的有效性和局限性。
关键词:web日志 web用户 概率潜在语义分析 聚类
单位:中国石油大学计算机与通信工程学院 山东东营257061
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社