基于运行数据分析的Spark任务参数优化

陈侨安李峰曹越龙明盛计算机工程与科学 2016年第01期

摘要：运行数据是大数据系统中增长最快、最为复杂也是最有价值的数据资源之一。基于运行数据，软件开发者可以分析关于软件质量和开发模型的重要信息。Spark作为一个分布式系统，在运行过程中会产生大量的运行数据，包括日志数据、监控数据以及任务图数据。开发者可以基于运行数据对系统进行参数调优。然而该系统所涉及的参数种类繁多、影响多样且难以评估，若对系统了解不足，进行参数调优存在较大的困难。提出运行数据历史库的概念，历史库中存储的是以往运行任务的特征信息以及运行配置信息。同时提出了基于历史库搜索的参数优化模型，并实验验证了本文提出的参数优化模型对用户任务性能提升具有较好的效果。

关键词：大数据运行数据数据分析参数优化 spark