线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于运行数据分析的Spark任务参数优化

陈侨安 李峰 曹越 龙明盛 计算机工程与科学 2016年第01期

摘要:运行数据是大数据系统中增长最快、最为复杂也是最有价值的数据资源之一。基于运行数据,软件开发者可以分析关于软件质量和开发模型的重要信息。Spark作为一个分布式系统,在运行过程中会产生大量的运行数据,包括日志数据、监控数据以及任务图数据。开发者可以基于运行数据对系统进行参数调优。然而该系统所涉及的参数种类繁多、影响多样且难以评估,若对系统了解不足,进行参数调优存在较大的困难。提出运行数据历史库的概念,历史库中存储的是以往运行任务的特征信息以及运行配置信息。同时提出了基于历史库搜索的参数优化模型,并实验验证了本文提出的参数优化模型对用户任务性能提升具有较好的效果。

关键词:大数据运行数据数据分析参数优化spark

单位:清华大学软件学院 北京100084 清华大学信息科学与技术国家实验室(筹) 北京100084

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与科学

北大期刊

¥624.00

关注 46人评论|5人关注