当前位置:首页>技术交流>IBM Cluster群集技术
IBM Cluster群集技术

IBM Cluster群集技术

群集技术是实现并行(MP)的另一种方法,通常指多个操作系统内核通过群集管理软件或者并行计算应用软件进行并行处理,实现高性能或者故障恢复。而SMP技术则是使用单一的操作系统映像(内核)由支持SMP的操作系统进行任务的分配和调度。

由于SMP需要特别的硬件设计,Cluster则一般使用软件编程就可以实现,所以从实现成本考虑,Cluster技术在深度计算(deep computing)/高性能计算HPC(high perfpumance computing)上占据非常高的市场份额,越来越多的高性能计算机不是采用数量少,CPU数多的高端SMP计算机,而是采用只有少量CPU的廉价机进行叠加,依靠数量众多的计算机组成群进行计算,由应用软件切分任务,通过网络进行任务发送和结果回收,例如Linux群集。这一类群集技术的缺点要求软件能对任务进行很好的切分,否则无法实现并行计算的能力。

随着CPU之间耦合的程度不同,从最紧密的SMP到最松的软件群集技术,中间还有一类过渡技术的典型代表称为NUMA(Non-Uniform Memory Access)。与共享一切(CPU、内存、存储、网络对程序完全对等,没有区别)的SMP技术不同,也与什么都不共享的软件群集技术不同,NUMA将内存分为几个层次:第一层内存被单一的 CPU独占,第二层内存被2-4个CPU共享,第三层被更多的 CPU共享,不同层次内存之间依靠类似Cache的控制机制 进行协调。与SMP的L1/L2/L3 Cache机制最大的不同在于,对同一块内存,和不同的CPU是不同的,现在都没有多CPU的计算机是常年纳粹的 SMP架构了,都或多或少的引入了NUMA的机制。

提高系统性能的方式有多种,首先提高单一的 CPU性能,一般是提高主频或者更新换代,然后是通过SMP(增加操作系统中的CPU数目),之后是NUMA,也可以称为是多核加SMP技术的组合。再之后是软件的群集,系统性能提高的线性度越来越差,但是实现的成本越来越低,允许并行的节点数也越来越多。

除了负载分担,群集的另外一个目的是提高系统的冗余度,实现更高的可用性,高可用是另外一个比较复杂的技术,IBM小型机采用的是HACMP软件来实现双或者多机之间的故障保护,HACMP的技术综合利用了AIX操作系统的各种功能,详见本网站相关HACMP的介绍。

代理产品
本月热销产品