当前位置:首页 > 行业论文 > 正文内容

行业论文:基于负载向量预测的多集群调度器的研究与实现

免费论文2年前 (2022-01-23)行业论文78

随着航天、军事、生物等领域对高性能计算的需求迅速发展,作为高性能计算领域主流的集群系统,由于其集中式管理,使其可扩展规模受到了一定的限制,造成单个集群所提供的计算能力已经逐渐不能满足高性能应用的发展需求。另一方面,对于一些组织,内部具有多个分散的集群系统,由于集群用户的工作性质、方式和时间的不同,造成了整个组织内部集群负载不均衡,计算资源使用率非常低。多集群系统就是为了解决上述问题而提出的,它是基于元计算的思想将分散的集群系统通过高速网络有效的组织起来,提供给用户一个强大的高性能计算环境,达到节省投资,提高计算资源的使用率。为此,多集群系统的作业管理系统研究是实现上述问题的基础,也是重点和难点,其目标是在多集群系统中,实现集群资源共享和负载均衡,统一管理和调度用户作业,提高作业吞吐率,缩短作业平均等待时间和总运行时间。因此,本论文以开源产品Torque为基础,依据IEEE组织确立的可移植操作系统批处理队列扩展标准,即POSIX 1003.2d,研究多集群调度相关技术,实现了多集群系统高层调度器。本论文首先对多集群的管理模式进行探讨,根据多集群调度的关键问题,对多集群间负载信息收集机制进行研究,并设计了基于最小子集更新的多集群负载信息收集策略。在此基础上,使用人工神经网络的BP算法对集群负载进行预测,并对比了基于负载预测的调度方法,提出了基于负载向量预测的最佳匹配方法。分析基于元计算思想构建的多集群系统结构和NPI组织提供的分布计算环境软件框架,设计了作业管理系统MCJSS(Multi-Cluster Job Scheduling System)的五层软件模型、执行流程和核心数据;设计并实现了多集群间的核心高层调度器,包括集群内部管理以及用户提交作业流程。本文最后对调度器的调度效率进行了实验比较。

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。