湘潭大学?作为毛泽东同志亲点的国家重点大学,秉承“博学笃行、盛德日新”的校训,以尖端科学研究为己任,通过对高性能计算平台的提升改造,为未来国家科技发展助一臂之力。高性能计算牵涉到各行各业,从科研到教学,科技的发展已经越来越离不开高性能计算在其中发挥的作用。曙光公司采用曙光4000L高性能计算系统为湘潭大学搭建出完美的高性能计算机机群系统,进一步提升湘潭大学的科研实力,加快教育事业的蓬勃发展。
精益求精,突破应用的瓶颈
湘潭大学是一所综合性全国重点大学,座落在毛泽东同志的故乡?湘潭市,是全国首批具有硕士学位授予权的单位,教育部本科教学工作水平评估优秀学校。 学校创办于1958年,学校学科已经形成了一批特色比较突出、优势比较明显的学科专业群体,在国内有较大影响。
目前信工院、物理学院、土力学院、数学学院、化学学院都涉及到高性能计算机的应用。为了学校各个研究领域突飞猛进的发展科学研究,计划对高性能计算系统实施改造,以更加稳定高效的网络系统来协助各学院应用软件顺利高效的运行。该系统主要是由学校多个学院共同使用,应用于多个研究领域,涉及图像分析与处理、海量数据挖掘、材料设计、材料结构与性能分析、并行算法研究等。
在原有的基础之上设计、完善高性能计算系统是一件复杂的系统工程,涉及从软件到硬件的各个层面,而且每一个环节都相互关联。在项目实施之前,项目组着重采访了湘潭大学此次项目的重要负责人,对方阐述到:希望采用目前最先进的系统架构及技术代替原有的技术,借以提高整个科研的发展速度和各种资源的完美整合。高性能计算系统是一个对于计算稳定性要求极高的系统,因此系统的建设不仅要体现出在各个节点机的稳定运行和网络系统的正常工作,还要具备非常完善的整合能力,能够及时发现和解决问题。由于三院共享这套高性能计算系统,用户的管理将非常重要。随着今后对数据精度和运算速度要求的不断提高,整个系统必然面临扩容的需求,那就需要这个系统必须具备很好的扩展能力并具备良好的向前兼容能力。
卓越的选择,以不变应万变
考虑到目前湘潭大学学院高性能计算系统的应用现状,经过与湘潭大学的充分沟通与实地考虑,最后决定采用基于机群架构的设计思想:高性能节点机的倾力打造与机柜子系统的搭建。该系统共采用68个节点,其中64个参与运算作为计算节点,其它四个节点分别承担I/O吞吐服务、用户登录服务、整个机群系统的管理、监控服务。在高性能计算领域里,计算节点是高性能计算系统中的单个计算机系统,它的计算能力是关系到整个系统性能的最主要因素,是整个高性能计算系统的基础,曙光公司选择了一款系能卓越的2U机架式的服务器节点机??曙光天阔A620r-E作为计算节点。天阔A620r-E能稳定运行多种32位和64位主流操作系统,采用了基于Opteron 64位处理器的架构,配置两颗AMD Opteron 270处理器,在单处理器上显示了强大的解决问题的能力,在多处理器系统上体现了近乎线性的性能加速比。在湘潭大学的高性能计算系统的搭建中,各院系的应用对于节点机的结构有着很高的要求,同时要考虑到应用的粒度、应用的计算特性、应用时效性等方面的因素。尤其是物理系,要保证所使用的商业软件能正常运行,这就要求能够运行64位程序的同时向下兼容32位应用,同时对CUP的浮点运算能力要求较高,需具有很高的系统峰值。曙光天阔A620r-E作为计算节点搭建的机群系统,其理论峰值运算能力达到1024 Gflops,Linpack 效率可达70%,实际运算能力可达716.8 Gflops,很好的解决了湘潭大学一直以来服务器处理能力不足,计算规模小的问题。曙光天阔A620r-E具有处理速度快、可用性强、易管理、可伸缩和噪音低等方面的强大优势,全面提高了湘潭大学网络系统效能。
在系统搭建以及优化过程中,由于机柜子系统是整个系统的承载部件,机群的主要子系统都安装在机柜系统中,同时其还承担了整个系统的供电和监控功能,于是在实际考察后,系统配置了一个曙光TC4000L主机机柜,三个扩展机柜,用以安装所有设备和相应的联结系统。曙光4000L独有SKVM网络、管理网络技术,大大减少节点机之间的连线,提高了系统的稳定性和可靠性。而机柜中机群电源系统、主干交换机、内置控制台等设备均采用了精心设计的内部网络和电源布线,同时做到近插接,构造了整洁的机柜内部环境,极大地方便了用户设备调试和问题分析,满足了各院系的整体应用需求。
此外,考虑到高性能计算对于网络性能的较高需求,湘潭大学的高性能计算系统采用了Myrinet 高速的通信网络,从而实现了高速度、低延迟、点对点的通讯能力。此项设计在解决数学的实际应用中尤为突出,数学系主要使用该系统作为并行程序设计应用,对一些算法的设计和优化进行操作,为其他学院提供一些程序设计的支持,对系统的通讯与交换能力有很高的要求。同时,在网络搭建中还采用千兆的无阻塞、全互连的快速网络,用以实现I/O吞吐,并通过网卡邦定技术,增加带宽,做到资源的充分利用。
在高性能计算环境的实现同时,由于三院共享这套高性能计算系统,用户的管理则显得非常重要,为了更好的方便用户使用,工程师又通过曙光4000L机群操作系统软件(DCOS)对湘潭大学进行了高性能计算系统的管理优化,曙光4000L机群管理软件大大提高了机器的使用率,减少了不必要的用户资源冲突,同时兼顾资源的共享和资源的合理应用。DCOS管理系统是一套多功能、易使用、可扩展的实用化机群管理工具,包含几个模块(DCMS、Mterm、DCIS、DCMM),完全符合SUMA标准,即具有可扩展性、可用性、可管理性和可靠性四个方面的特性。通过曙光的机群操作系统工具,可以实现对整个系统所有节点的全面整合,曙光的机群操作系统支持各种异构平台,在使用上更加方便。最后,本方案采用高可靠性、高可管理性、高性价比的全光纤磁盘阵列系统,保证了数据吞吐的高效性和可靠性,有助于满足用户的今天的各种存储需求,而且为满足未来存储需求的持续增长奠定了良好基础。
内外兼修,好处显而易见
项目完成之后,曙光公司的技术人员对该系统进行了一段时间的使用监测,最后结果显示:完全满足了湘潭大学系统搭建的先进性、稳定性、可管理性、可扩展性方面的需求。湘潭大学的项目负责人提到:在国外品牌与国内品牌的选择上,我们毅然选择后者,在与各种系统的兼容方面,国产品牌更能便于我们的使用,安全性也有很好的保障。尤其在售后服务方面,曙光五年原厂商免费服务,为我们排除了后顾之忧。曙光公司也承诺,服务永远本着让客户满意为止,保证第一时间的及时响应 。技术优势更是重中之重,曙光一直引领着高性能计算的研发,信息产业部、上海超级计算中心、中石油等一大批用户使用了曙光4000系列高性能计算机系统,应用覆盖科学计算、生物信息处理、数据分析、信息服务、网络应用等多个领域,这些都显示出,我们选择曙光服务器一定不会错。
曙光公司秉承发展我国高性能计算机产业化的宗旨,以坚定不移的信念和海纳百川的胸怀,开发推广具有自主知识产权和很强竞争力的高性能计算机产品,是目前国内唯一一家拥有全系列品牌服务器的厂商。多年来在多个行业领域做出了杰出贡献,在教育行业尤为突出。此次为湘潭大学搭建高性能计算平台再次验证了曙光服务器的整体实力,从产品的推出,到解决方案的配合,细致周到、执着追求客户服务为本,迎其所需,一切从客户出发 、一切为客户着想 、一切让客户满意。