DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

HPC TOP500的明星:微异构为何倍受青睐?

DOSERV服务器在线 原创报道: 2013年6月的TOP500榜单,注定成为一期令人瞩目的而又具有特殊意义的榜单,这不仅仅是因为在这一起榜单上,中国的天河2号系统以绝对压倒性的优势,再度让东方在高性能计算上登上冠军的宝座,更是因为这一期榜单出现的不同以往的“小插曲”。

在刚刚公布的全球高性能计算TOP500榜单中,使用加速器/协处理器(下文简称加速器)的高性能计算系统出人意料的呈现了减少的趋势,从2012年11月榜单的62套上榜系统迅速下滑到54套,而且,这一数字甚至低于2012年6月榜单中58套系统的数字。

受到这一下滑趋势显著影响的是NVIDIA的GPU加速技术,根据2012年6月和11月的榜单所显示的情况,在这两期榜单上使用NVIDIA的NVIDIA 2050、2070和2090的系统共同有53套,而最新榜单中39套的使用量,仅比2011年11月榜单中的35套多出了4套系统的使用量。

就是这样一种看似广泛、可靠及简单加速高性能计算技术发展速度的技术,却在2013年6月的榜单中出现接近15%的入榜系统下滑,对高性能计算行业产生了不小的震动。

难道国际高性能计算界认为是“魔力子弹”的加速器技术及其所带来的混合架构理念,出现了什么问题?还是国际高性能计算业界,发展了其中所藏的隐忧?

最近几年TOP500排行榜上使用加速器的产品套数发展趋势显著看到英特尔微异构所占份额的增加

加速器技术方兴未艾 谁是耀眼明星?

GPU及GPGPU加速器技术在2009年前后逐步被应用在高性能计算系统中,在2010年6月的TOP500榜单中,开始出现NVIDIA的GPU加速器的身影,并在当期榜单中帮助中国曙光公司的Nebulae高性能计算系统成为TOP500第二名的好成绩。

此后,加速器技术被TOP500及全球高性能计算行业逐步接纳,在半年后的2010年11月榜单中,中国的天河1A系统,更是成为了当年举世震惊的NO.1。

但令人不解的是,正是这样一种帮助高性能计算系统快速上升计算能力,并广被“高性能计算发展中国家”——如中国——使用的技术,却为何出现了规模性的下滑?

幸运的是,月亮总有两面:2012年6月,全球只有一套位于美国德克萨斯高级计算中心(TACC)的名为Stampede的高性能计算系统使用“定制版”的英特尔至强融核(Xeon Phi)作为加速器平台,但最新一期榜单中,已经有了12套高性能计算系统基于英特尔至强融核协处理器系统。

更引人注目的是使用英特尔至强融核协处理器系统的高性能计算系统火箭般上升的排名,以两套知名的系统为例:位于TACC的Stampede系统2012年6月的榜单中还只是名列第150位,但如今已经是第六名(甚至是进入前五的有力争夺者)的位置。

天河1号和天河1A的后续家族成员天河2号,通过使用与前两任完全不同的,由英特尔至强及至强融核协处理器组[袁1] 成的“微异构架构”之后,不仅自2010年11月之后时隔三年再度问鼎排行榜榜首,更在效率和计算性能上有了翻天覆地的变化:2010年11月,天河1A以4701.0TFlops的性能问鼎(Rpeak),2013年6月,天河2号的性能达到了惊人的54902.4TFlops(Rpeak)。

于是,当我们看到事实的另一面时就不难发现,并非是高性能计算中的加速器技术的采用出现了很大的问题,而是市场中用户——尤其是具有代表性的高性能计算用户——对加速器的选择出现了新的转向。

使用新的英特尔至强融核与至强处理器组成“微异构架构”的用户,以及未使用加速器的传统高性能计算系统架构的用户,正在逐步超过原有使用GPU及GPGPU加速技术的用户在TOP500排行榜上的位置。

微异构倍受认可 至强融核魅力何在?

为何一年过去英特尔至强融核协处理器系统能够取得如此大的进步,能在竞争对手的加速器架构跌出TOP500排行榜的情形下加速冲刺?

首先,英特尔至强融核为高性能计算系统带来了巨大的性能提升,早在2011年英特尔就在DGEMM 进行的协处理器现场演示中,进行了使用单颗“ Knights Corner”协处理器提供超过 1 TeraFLOPs(每秒 1 万亿次浮点计算)双精度实际性能的展示;在2012年年底进行的正式发布中,英特尔至强融核主要产品5110P能够提供1011 Gigaflops(即每秒1万亿次浮点计算)的双精度浮点计算性能。

Stampede系统是英特尔至强融核高性能最具代表性的受益者,这一系统在2012年6月仅以1809.9TFlops(Rpeak,以下同)位居第150位,但半年后的TOP500中就以3959.0TFlops的性能位列第七,更令人吃惊的是,这一系统目前已凭惊人的8520.1TFlops位列最新TOP500第六位。

其次,从Stampede的性能提升中我们不难发现,德州高级计算中心(TACC)在一年的时间里,不断飞跃式的性能提升已经明显验证了高性能计算系统性能提升的最佳“法则”——扩展更简单、性能提升更快、效率提升显著——这对传统的异构-混合架构而言是很难实现的。

这说明,TACC的工程师们在扩展硬件规模的同时,让应用程序“跑满”了系统的性能,让程序代码快速的适应了大规模动态扩展的系统(甚至是在一个混合架构中),这一(混合架构)系统的可编程性远远超过它的“同类”们:Stampede是(第一款)使用英特尔至强融核协处理器的TOP500榜单角逐者,采用英特尔的“微异构架构”(Neo-heterogeneous architecture)。

“微异构架构”(Neo-heterogeneous architecture)的架构以英特尔至强处理器和英特尔至强融核处理器组成,是一种具有多种类型、可提供计算力的硬件架构,但却由通用编程模型予以支持,以简化开发和优化过程。这一优势是传统异构架构(使用CPU与GPU加速器的组合)所无法实现的。

在这一架构中,用户能够充分利用在英特尔架构上使用的常见编程模式、技术和开发者工具——用英特尔并行编程传播总监James Reinders的话说:“如果你想用相同的语言(比如Fortran)、相同的并行编程模型、熟悉的工具满足高度并行的需要,至强和至强融核是最好的选择。”

尤其是在“并行时代”,英特尔“微异构架构”的优势更为明显。一方面,至强融核作为高度并行设备,在并行编程中能够获得强大的性能表现,而至强处理器也能够获益;另一方面,由于英特尔努力尝试着解决了硬件特定编码的问题,可以用Fortran、C、C++,编程不受限制,用户可以在英特尔至强+英特尔至强融核的“微异构架构”中以“同样的语言、并行编程模型和类似的工具来满足高度并行的需求”,英特尔“微异构架构”通过“可复用、简单、单一的编程模式”已经获得了大量用户的认可。

高效计算:高性能计算也看TCO

Stamped生动的说明,使用英特尔“微异构架构”的系统建设、扩展和编程工作更为简便易行,用户能够以更短的时间完成高性能计算系统在上线前的“整个生命周期”,这也就意味着更低的TCO——更短时间的人力、资金和编程资源投入——从而极大的提升高性能计算系统的效益。

更有力的证据来自天河2号:短短两年间,天河就完成了从天河1A到天河2号的两度问鼎,而且据了解,在天河1A时期已初步熟悉NVIDIA编程架构的天河团队,却并未让天河2号采用与天河1A一样的混合架构及编程模型,而是改用半年多前才刚刚正式发布的英特尔微异构架构,这一选择的结果就是,天河2号的效率更高、相对于第二名之间的领先优势更大。。

注重性能提升速度和系统应用效率的天河团队,当然不会不考虑更换新系统架构和重新适应编程模型的风险,去使用英特尔微异构架构,但英特尔微异构架构一脉相承的编程模型带给了他们信心:英特尔至强与至强融核的协同、单一编程模式效率更高,可编程性更好,编程工作更容易学习和在未来的商业应用上展开。

“改变是要冒极大的风险的,而重新学习和适应编程的成本则更高——除非这是他们早已熟悉的方式和方法。”

从开始设计系统,到开展编程工作,再到冲击TOP500排行榜和之后的商业运作,高性能计算系统漫长的周期构成了复杂的TCO(总体拥有成本)计算公式,在公式的左侧,是长期困扰行业的编程效率、计算效率、性能提升和复杂架构,而在公式的右侧——这个公式的答案——则是英特尔微异构架构和至强融核协处理器。

美国劳伦斯伯克利国家实验室副主任Horst Simon在评价混合架构(加速器)系统在榜单中下滑时所说的:“(过去三年)加速器并没有被用于商业系统广泛使用。”的情形,在英特尔“微异构架构”的带动下,将出现根本性的转变。

未经允许不得转载:DOIT » HPC TOP500的明星:微异构为何倍受青睐?