CSM (Cluster System Management)
CSM是IBM公司开发,专门用于集群系统管理的中间件,在Cluster1350解决方案集成。CSM的设计思想与体系结构来自PSSP (IBM Parallel System Support Programs for AIX)与其它一些开源的集群管理软件。还有一些中间件及技术,虽然不直接为用户服务,但构成了CSM的不可或缺的基础,包括RMC、SRC、RSCT等。
CSM的体系结构如下图所示。
CSM体系结构
(引用自Linux Clustering with CSM and GPFS, IBM Redbook)
其中CSM Server只安装运行于管理节点,CSM Client安装运行于所有受控节点。CSM体系结构中各模块功能详细说明如下:
- Database and Distributed Management Server (DMS)
管理节点上的CSM系统数据库,用来存贮整个集群的配置信息。比如所有节点的参数,分组等。集群中的每一个计算节点都要注册到此数据库,才能通过CSM由管理节点控制。而CSM的大部分管理命令,都需要从此数据库中读取相关配置信息。 - l Managed Node
集群中正常连接并且已经正确安装配置好操作系统及CSM的节点。安装工作正确完成后CSM数据库中对应的节点属性会自动改为Managed,说明该节点已经由管理节点所控制。 - Node Group
对CSM系统受控节点的分组管理。默认的几个分组的判断条件是操作系统类型、版本,CSM版本,电源管理方式等。具体管理中可以实现自定义的分组。分组的定义方式类似于SQL中视图的定义,支持多条件及模糊条件,支持分组嵌套。另外CSM节点管理支持动态和静态分组。 - Distributed Shell (dsh)
使用dsh可以同时在集群中指定的一个或者多个节点上同时执行同一shell命令。比如 dsh -a date。 - Hardware control
硬件控制功能依赖于xSeries335, xSseries345节点机以及RSA卡的支持,以实现对集群节点的一些基本操作,如开机、关机、关闭系统、重新启动等。此功能与节点是否安装操作系统无关,因为这些指令直接由节点机主板上专门的服务处理器执行,只要节点电源正常,便会响应。 - Hardware Control Point
这里"硬件控制点"指的是RSA卡。 - rpower
rpower是CSM的一个重要的管理命令,用来控制节点的开机、关机、重新起动、状态查询等。一个典型的查询命令是这样的:rpower -n node01 query,表示查询名为node01的节点当前状态,正常结果on或off。 - Configuration File Management (CFM)
CFM的主要功能是保持所有节点配置文件同步更新。比如管理员要修改所有节点/etc目录下某个配置文件,他只需在管理节点编辑好一个同名文件,放在特定目录下,然后执行一个简单的命令CFM就可以将配置文件更新到所有指定的节点。CFM也可用于普通文件的管理,其过程和管理配置文件相同。 - rdist
rdist是CFM的一个内部命令,完成更新指定节点指定文件的功能。 - Remote Console
借助MRV In-Reach Terminal Server 或者Equinox Serial Provider (ESP),可以在管理节点上切换至任意一个在CSM数据库中定义的节点的控制台,而与其是否已经安装操作系统无关。 - Event Response Resource Manager (ERRM)
CSM的ERRM模块可以响应已定义的事件,执行命令或脚本。一些重要的事件已经由CSM预先定义,用户也可以根据需要定制新的事件。ERRM可以监控的资源包括文件系统、节点可达性、程序运行状况等。 - Sensors
Sensors是用户自己编写的脚本,以获得系统的某个特定参数,并将其发送给ERRM,再由ERRM做出响应。 - Install (kickstart, NIM, SIS)
此功能模块使得集群在安装配置好管理节点后可以同时安装所有计算节点的操作系统及CSM。kickstart安装方式只支持RedHat Linux,SIS方式支持的Linux类型比较多,如RedHat, SuSe等。 - Logging
利用CSM日志记录,可以方便地定位错误,帮助分析系统状态。 - RMC Daemon (Resource Monitoring and Controlling)
RMC Daemon后台进程运行于集群的所有节点,监控资源状态,发送、接收、执行CSM命令。CSM中所有的管理功能,除了基本的硬件控制之外,全部都需要RMC Daemon的支持。
小结
Linux集群技术近年来有了令人瞩目的发展,越来越多的服务商和研究人员致力于Linux集群各方面技术的研究,出现了各种各样的Linux集群系统解决方案。Cluster1350是其中一个优秀的方案,它融合了一些已经很成熟的UNIX集群的思想与技术,也不排斥当前可用于Linux集群的开源软件,并且诸多技术可以适应未来的随需应变的电子商务时代及实现集群的自主计算。Cluster1350将成为集群相关的商务应用和网格计算、高性能计算、高可用计算等技术研究的重要基础。
.分页: [1] [2]
- 上一篇:巧用windows 2008卷影副本功能
- 下一篇:详解集群系统的进程迁移