在本文中,以IBM eServer Cluster 1300为例介绍了Beowulf集群中硬件和网络体系结构和组成部分。
图 1是Cluster 1300的硬件和网络体系结构图
图 1是Cluster 1300的硬件和网络体系结构图。从图中可以看出,整个系统由5类计算或网络设备和5类网络组成。这5类设备是:
- 主控制节点(Control Node)
- 计算节点
- 以太网交换机(Ethernet Switch)
- Myrinet交换机
- Terminal Server
5类网络是:
- 集群局域网(Cluster VLAN蓝色)
- 管理网络(Management VLAN 右边绿色)
- IPC网络(IPC VLAN 棕色)
- Terminal网络(灰色)
- Service Processor网络(左边绿色)
本文的以下部分将介绍这些设备和网络的角色,功能和一般的配置。
2 Beowulf集群中的节点
这一节主要介绍Beowulf集群中的节点,节点的类型和相应的功能。根据功能,我们可以把集群中的节点划分为6种类型:
- 用户节点(User Node)
- 控制节点(Control Node)
- 管理节点(Management Node)
- 存储节点(Storage Node)
- 安装节点(Installation Node)
- 计算节点(Compute Node)
虽然由多种类型的节点,但并不是说一台计算机只能是一种类型的节点。一台计算机所扮演的节点类型要由集群的实际需求和计算机的配置决定。在小型集群系统中,用户节点、控制节点、管理节点、存储节点和安装节点往往就是同一台计算机。下面我们分别解释这些类型节点的作用。
2.1 用户节点(User Node)
用户节点是外部世界访问集群系统的网关。用户通常登录到这个节点上编译并运行作业。
用户节点是外部访问集群系统强大计算或存储能力的唯一入口,是整个系统的关键点。为了保证用户节点的高可用性,应该采用硬件冗余的容错方法,如采用双机热备份。至少应该采用RAID(Redundant Array of Independent Disks)技术保证用户节点的数据安全性。
2.2 控制节点(Control Node)
控制节点主要承担两种任务
- 为计算节点提供基本的网络服务,如DHCP、DNS和NFS。
- 调度计算节点上的作业,通常集群的作业调度程序(如PBS)应该运行在这个节点上。
通常控制节点是计算网络中的关键点,如果它失效,所有的计算节点都会失效。所以控制节点也应该有硬件冗余保护。
2.3 管理节点(Management Node)
管理节点是集群系统各种管理措施的控制节点:
- 管理网络的控制点,监控集群中各个节点和网络的运行状况。通常的集群的管理软件也运行在这个节点上。
- ASMA的控制点:ASMA(Advanced System Manager Adapter)允许将计算节点通过菊花链连接构成Service Processor网络用于接受计算节点的警报并收集SNMP Trap.
2.4 存储节点(Storage Node)
如果集群系统的应用运行需要大量的数据,还需要一个存储节点。顾名思义,存储节点就是集群系统的数据存储器和数据服务器。如果需要存储TB级的数据,一个存储节点是不够的。这时候你需要一个存储网络。通常存储节点需要如下配置:
- ServerRAID保护数据的安全性
- 高速网保证足够的数据传输速度
2.5 安装节点(Installation Node)
安装节点提供安装集群系统的各种软件,包括操作系统、各种运行库、管理软件和应用。它还必须开放文件服务,如FTP或NFS。
2.6 计算节点
计算节点是整个集群系统的计算核心。它的功能就是执行计算。你需要根据你的需要和预算来决定采用什么样的配置。理想的说,最好一个计算节点一个CPU。但是如果考虑到预算限制,也可以采用SMP。从性价比角度说,两个CPU的SMP优于3或4个CPU的SMP机器。
因为一个计算节点的失效通常不会影响其他节点,所以计算节点不需要冗余的硬件保护。
2.7 集群中节点的部署
虽然由多种类型的节点,但并不是说一台计算机只能是一种类型的节点。一台计算机所扮演的节点类型要由集群的实际需求和计算机的配置决定。在小型集群系统中,用户节点、控制节点、管理节点、存储节点和安装节点往往就是同一台计算机,这台计算机通常成为主节点(Master Node)。在这种情况下,集群就是由多个计算节点和一个主节点构成。
在大型的集群系统中如何部署这些节点是个比较复杂的问题,通常要综合应用需求,拓扑结构和预算等因素决定。
.
分页: [1] [2]
- 上一篇:linux Beowulf集群介绍
- 下一篇:详解Beowulf集群软件结构