当前位置:首页 > 行业论文 > 正文内容

行业论文:多集群并行作业性能监测分析工具研究与实现

免费论文2年前 (2022-01-23)行业论文85

DMCCE(Distributed Multi-Cluster Computing Environment)是本文作者实验室与航天某院联合研制的分布式多集群计算环境,在这个环境中,集群被组织在Chord覆盖网络上,可以动态移入移出。DMCCE用来将物理上分散的集群计算资源构建成一个灵活的计算环境。多集群并行作业性能监测分析工具是DMCCE中任务负载管理系统的组成部分。它的目的是监测并行作业的执行过程,揭示并行作业行为,进而分析影响并行作业执行效率的因素。研究人员可以利用并行作业性能监测分析工具得到的结果来优化和改进并行作业的程序结构,提高它的运行性能。本文首先给出并实现了一种改进的多维属性范围查询算法来支持在DMCCE环境中共享和检索历史性能数据,该算法在DHT基础上使用向量索引来解决数字型属性的范围查询,通过对查询结果集进行交集操作来解决多维属性的简单查询,实验结果证明,改进后的算法具有比较好的可扩展性。本文给出并实现了基于TOP-BOTTOM三层组织模式的性能数据展现方法,基于阈值的实时性能分析方法,以及基于聚类分析的实时性能分析方法,并改善了大规模并行作业性能数据的可视化和自动分析,最后利用历史数据为用户选取阈值提供帮助。本文的最后利用上述的技术实现了DMCCE环境中的多集群并行作业性能监测分析工具,该工具使用分布式结构构建,便于与其它工具集成,可以灵活配置以分散工具运行开销对DMCCE环境中各集群管理节点的影响。

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。