3.6 系统安装
集群系统的安装主要是指在各个结点上安装操作系统、文件系统、并行程序运行库、作业管理软件和系统管理软件等。它是集群系统投入应用的前提,所以集群系统的安装是一件非常重要的任务。一般集群系统由几十台,甚至上百上千台计算机组成,显然手工安装系统几乎是不可能的。一般集群系统的安装的机制是:
- 网络启动:设置需要的安装的结点网络启动,然后管理结点远程重启需要安装的结点。网络启动的结点启动后从启动服务器获得一个小的操作系统内核。网络启动一般采用Intel的PXE(Pre-Execution Environment)标准。 PXELinux是支持PXE的网络启动服务器。它可以在网络启动的结点启动一个小的Linux核心并运行指定的Init程序。由Init程序负责后续的安装。
- 网络安装:这个操作系统内核负责从安装服务器(通常是一个文件服务器)上取得安装软件包或系统镜像并在本地实施系统安装。有多种Linux工具可以完成基于网络的系统安装。这些工具中的典型代表是:KickStart、ALICE (Automatic Linux Installation and Configuration Environment)、SIS(System Install Suite)和PartImage。这些工具可以分为如下几类:
- a. 基于Script的安装:这种安装方式中,安装过程由安装脚本(Script)控制,可以通过修改安装脚本来配置安装过程。这种安装方式中,安装服务器实际上是一个文件服务器,它向结点提供要安装的软件包。除了软件包不是来自本地外,这种安装方法和本地安装并没有太大的区别,本地安装的各个步骤(配置硬件、安装软件包、配置系统等)它都要经过。KickStart属于这中安装方法。基于Script的安装比较灵活,但是它是操作系统依赖型的。象KickStart只支持Redhat Linux。
- b. 基于Imaging的安装:和基于Script的安装不同,基于Imaging的安装并不需要经过本地安装的各个步骤。它只需要把存储在文件服务上的需要安装的系统映象(Image)拷贝到本地的硬盘上。这个系统映象来源于一个已经安装和配置好的样机。Imaging的安装方式是独立于操作系统,但是它依赖于网络启动的操作系统内核支持的文件系统。Imaging的很大缺点是很难提供独立于操作系统的配置方法。PartImage属于Imaging安装方法。而SIS是Script和Imaging混合型的安装方式。SIS利用Linux的chroot命令在安装服务器的一个文件目录下安装一个虚拟的操作系统映象。同时SIS支持用户提供Shell脚本完成安装后的配置。
- c. 基于Cloning的安装:和Imaging安装方式相同的是,Cloning安装也采用系统映象。但是Cloning中的系统映象是样机上硬盘分区的Clone。因此,Cloning安装不需要识别系统镜像中的文件系统类型。所以它是独立于文件系统的,它只依赖于操作系统内核支持的硬盘设备类型(IDE或SCSI)。和Imaging一样,Cloning的很大缺点是很难提供独立于操作系统的配置方法。而且相对于Imaging而言,Cloning效率更低。你可以简单的用dd命令实现Clone。
下表归纳了几种安装工具的特点:
安装工具 | 安装方法 | 支持的系统 | 支持的网络协议 |
KickStart | Script | Redhat Linux | NFS、FTP |
SIS | Script和Imaging混合 | Redhat Linux SuSE Linux Turbo Linux … |
rsync |
PartImage | Imaging | EXT2、FAT、NTFS、HPFS… | 私有协议 |
3.7 域管理
你可以简单的把集群系统的域管理理解为结点管理,它主要包括如下简单的功能:
- 加入、删除和列举集群系统中的结点
- 对集群中的结点分组
实际上,我们也把作业管理纳入集群系统管理的任务。但是相对于其他系统管理任务而言,作业管理在集群系统中具有更重要的作用,而且通常的集群系统管理软件也不直接实现作业管理功能。所以我们把作业管理作为集群系统一个重要的软件部分,而不是集群系统管理的一项任务。
4 几种集群系统管理软件
集群系统管理软件和集群系统一样形形色色、多种多样。下面简要介绍几种集群系统管理软件并比较它们实现的功能。
4.1 IBM CSM
IBM CSM(Cluster Systems Management )是IBM eServer Cluster 1300上的系统管理软件。IBM的Linux集群战略的一部分就是把运行在RS/6000 SP平台上的PSSP软件移植到基于xSeries的Linux集群系统上。CSM大部分功能来源于SP平台,但是它也集成了WebSM 2000、xSeries、开放源码工具和其他技术。CSM是一款功能很全面的管理工具,而且还在不断的发展中。
4.2 XCAT
XCAT是用于IBM eServer Cluster 1300上的系统管理软件。它由Egan Ford开发。它基本上是由shell脚本写成,相当简捷。但是它实现了集群系统管理大部分的内容,是个非常出色的管理软件。
4.3 Mon
Mon在Linux平台上开发,但是也以运行在Solaris上而出名。Mon的服务器和客户都是基于perl开发的,所以很容易移植到其他UNIX和类UNIX平台。
下表比较了以上三种集群系统管理软件:
项目 | CSM | XCAT | Mon |
支持的集群系统 | IBM eServer Cluster 1300 | IBM eServer Cluster 1300 | 不特定于某个集群系统 |
支持的操作系统 | Redhat、SuSE | Redhat,结点可以采用Imaging和Cloning安装其他操作系统,甚至于Windows | 在Linux上开发,但是以运行在Solaris而著名。很容易移植到其他Unix和非Unix操作系统上 |
资源管理 | 提供统一的、可扩展的,全面的资源管理,但是由于强大而使用起来很复杂。 | 基本没有 | 基本没有 |
事件服务 | 提供事件订阅发布机制,并预先定义了很多系统事件和对事件的响应 | 将来会于Mon集成以完成事件服务 | 支持 |
配置管理 | 支持 | 无 | 无 |
监控和诊断 | 支持分布式Shell(dsh)、支持SNMP | 支持并发Shell(psh)、并发ping(pping) | 支持SNMP |
硬件控制 | 远程电源管理(rpower)远程控制台(rconsole) | 远程电源管理(rpower) 远程控制台(rcon、wcon) | 无 |
系统安装 | 支持KickStart和SIS 支持PXE | 支持KickStart、Imaging和Cloning 支持PXE和etherboot | 无 |
域管理 | 全面 | 基本没有 | 基本没有 |
集成性 | 除了必须的开放源码软件包,不与任何其他软件集成。但是底层资源管理和事件服务提供编程接口,集成很方便。上层可以通过命令调用集成。 | 自动安装PBS、Maui、Myrinet和MPI。将来会支持 SgridEngine Scheduler | 基本没有,应该可以通过命令行集成 |
易用性 | 提供强大命令行工具和简单的GUI工具 | 命令行工具,将来会和Ganglia集成提供一定的GUI | 提供命令行和基于Web的工具 |
.
分页: [1] [2]
TAG: linux 集群 资源 系统 管理