摘要:文档表示模型可以将非结构化的文本数据转化为结构化数据,是多种自然语言处理任务的基础,而目前基于词的模型在文档表示任务中有着无法直接表示文档的缺陷。针对此问题,基于生成对抗网络GAN可以使用两个神经网络进行对抗学习,从而很好地学习到原始数据分布的特点,提出了文档表示模型WADM,使用去噪自编码器作为其判别网络,由其隐层直接得到文档的分布表示。实验表明,WADM能够准确抽取文档特征,相比基于词的模型具有更强的文档表示能力。
关键词:文档表示 生成对抗网络 去噪自编码器 神经网络
单位:天津科技大学计算机科学与信息工程学院; 天津300457
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社