论文摘要:面向服务器集群的自主管理软件的设计与实现
随着互联网、网格计算、分布式计算技术的快速发展,服务器集群已经成为大规模分布式应用系统的普遍的高性能计算环境。然而,随着集群节点数量和应用系统的规模增大,对于集群计算环境和应用系统的管理变得越来越复杂,传统的手工管理方式越来越难以满足日益增加的管理需求。IBM自主计算的思想为集群的系统管理提供了一条行之有效的途径。论文首先介绍了自主计算和集群系统管理领域的研究现状以及相关的管理技术,分析了集群计算环境的管理需求,给出了一种以JMX管理标准为基础的基于规则的自主集群管理软件ACMS的体系结构,并设计了节点代理服务模块和管理服务器的功能结构。其次,主要从集群节点资源探针的动态加载、事件通知机制、节点代理的自配置机制等方面详细设计并实现了节点代理服务模块的功能结构。系统采用MBean组件模型实现资源探针的封装和动态加载,应用JMX Notification Model实现了两层的事件通知机制,并实现了基于组播通信的节点代理的自配置机制。然后,从自主管理控制环、分析决策引擎、负载预测模型以及中间汇集节点的自恢复机制等方面阐述了管理服务器的功能结构的详细设计和实现。论文设计了一种基于WEB的集群节点监控管理服务方法,实现了基于规则语言的管理决策引擎,使得系统具有自主管理特性。最后,论文通过对部署在浪潮天梭TS10000服务器集群计算环境上的Tomcat集群的自恢复控制实例,验证了该软件的可用性和有效性,并对下一步的研究方向进行了探讨。