线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

大数据环境下基于元模型控制的数据质量保障技术研究

杨冬菊; 徐晨阳 计算机工程与科学 2019年第02期

摘要:数据集成环节,越来越丰富的异构源数据给集成后数据质量的提升带来了新的挑战和困难。针对传统ETL模型在数据集成后出现的数据冗余、无效、重复、缺失、不一致、错误值及格式出错等数据质量问题,提出了基于元数据模型控制的ETL集成模型,并对数据集成过程中的各种映射规则进行了详细的定义,通过将抽取、转换、加载环节的元模型和映射机制相结合,能够有效地保证集成后数据的数据质量。提出的元模型已经应用到科技资源管理数据集成业务中。通过科技资源管理数据集成实例分析,验证了此数据集成方案能够有效地支撑大数据环境下数据仓库的构建和集成后数据质量的提升。

关键词:大数据数据仓库etl元数据模型映射

单位:大规模流数据集成与分析技术北京市重点实验室; 北京100144; 北方工业大学云计算研究中心; 北京100144

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与科学

北大期刊

¥624.00

关注 46人评论|5人关注