摘要:深度学习模型应用于自然语言处理任务时依赖大型、高质量的人工标注数据集。为降低深度学习模型对大型数据集的依赖,提出一种基于BERT的中文科技自然语言处理预训练模型ALICE。通过对遮罩语言模型进行改进并将其与命名实体级遮罩相结合,改善基础模型在下游任务中的表现,使其学习到的语言表征更贴合中文的语言特性。实验结果表明,与BERT模型相比,ALICE模型对于中文科技文本的分类准确率和命名实体识别的F1值分别提高1.2%和0.8%。
关键词:预训练模型 迁移学习 bert模型 文本分类 命名实体识别
单位:中国电子科技集团公司第三十二研究所; 上海201808
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
相关期刊
Neural Regeneration Research Journal of Rare Earths Rare Metals Cell Research Hepatobiliary Pancreatic Diseases International Journal of Integrative Agriculture Acta Metallurgica Sinica Hepatobiliary Pancreatic Diseases International International Journal of Minerals Metallurgy and Materials Acta Oceanologica Sinica