线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于半监督LDA主题模型的ZeroNet文本内容分析

过小宇; 丁建伟; 江泓; 陈周国 信息技术 2020年第03期

摘要:新兴暗网零网(ZeroNet)是一种使用比特币加密技术和比特流(BitTorrent)协议构建的抗审查P2P网络,用户规模不断扩大。鉴于ZeroNet去中心化、抗审查等暗网的技术特点,从ZeroNet的体系结构分析入手,基于模拟登陆的方式设计并开发了ZeroNet文本抓取系统;采用半监督隐狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型针对ZeroNet网站中占比最大的博客和论坛文本数据中的中英文的文本数据进行建模分析;进一步,对比无监督LDA主题模型,文中采用的半监督LDA主题模型具有更好的分类结果,对于ZeroNet网站新内容的监控具有实践意义。

关键词:零网暗网主题模型文本分类

单位:保密通信重点实验室; 成都610000

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

信息技术

统计源期刊

¥292.00

关注 25人评论|0人关注