中国数据经济资讯与服务平台

Facebook为OCP贡献全新设计,更开放,更灵活

企业级服务器市场产业化程度高,产品形态各异,常见的有塔式服务器,机架式服务器还有刀片服务器,可以支持多种多样的应用,而且各种服务器彼此之间有许多差异。

对超大规模数据中心的运营者来说,他们要求这些产品尽可能整齐划一,并且价格要够便宜,管理要够简单。所以,超大规模数据中心在计算和存储方面的做法就比较有意思。

谷歌最近有动作,微软也有动作,微软的Project Olympus(奥林巴斯)最新动态同时涉及到了基于英特尔至强、ARM和AMD Naples(那不勒斯)三家处理器的服务器。六年前启动OCP的Facebook在开源硬件领域地位很高,最近也推出了一系列更新。

微软和Facebook都推出了加速机器学习工作负载的服务器,场景针对性很强,我们来看一下Facebook向OCP贡献出的通用计算系统吧,看看对别人有什么用。

服务器节点更新——Tioga Paas

去年,笔者梳理了当时Facebook的产品线,当时的OpenRack服务器主要有六种配置,都是基于双路Leopard(猎豹)或单路Yosemite(优胜美地,美国国家公园,以瀑布闻名,美国人很喜欢,苹果的MAC OS也曾以此命名)服务器节点打造的,适用的应用场景主要包括:Web前端、数据库、Hadoop大数据存储分析、Haystack对象存储、cache密集型应用等,都是Facebook常用的应用场景。

一年后,Facebook正式更新了这些服务器和存储箱子,包括三个标准的机器还有两个专为机器学习打造的盒子。

Tioga Pass

Tioga Pass

Leopard平台更新的产品代号为“Tioga Pass”(Tioga Pass原意是指Yosemite公园的东部入口处的一个度假村),与此前的Leopard一样,还是双路,更新后提供更大的内存和I/O带宽,可以更高效地发挥计算能力。

Tioga Paas采用的是Facebook第四代主板,基于英特尔至强处理器打造,详情如下图所示:

2

Tioga Pass与前代Leopard在外形上没有什么变化,6.5英寸x20英寸。任意三台Leopard和Tioga Pass可以并排放入OpenRack机架中。Tioga Pass主板针对英特尔的“Purely”硬件平台功能特性而设计,包括此前的一个产品以及今年年中将会出现的Skylake至强处理器。

Tioga Pass是双路设计,但是也支持单路模式,这样Facebook就可以为特定的工作负载选用更快的Skylake Xeon。以史为鉴,预计同时会有两代至强处理器共存于Tioga Pass机器中,随着英特尔产品的更新,未来可能会有三代至强处理器共存在Tioga Pass的机器中,这主要是制程工艺的变化引起的,从14nm过渡到10nm。

Tioga Pass主板支持在288针脚的内存槽中插入DDR4内存。Tioga Pass有两个版本,一种只在一侧有焊接电路,另外一种两面都有焊接电路,俗称双面打印。

双面打印的好处在于可以使用两侧的气流来冷却组件,两面同时来冷却。双面印刷的Tioga Pass单路模式每一面支持12个内存插槽,两个PCIe x16插槽通过转接器接在PCIe x2转接器上,支持32通道的IO路径。(Tioga Pass没有明说具体是PCIe 3.0还是PCIe 4.0,但是从英特尔的Roadmap中可以看到Skylake目前只支持PCIe3.0。)

单面印刷的Tioga Pass只支持一路,12个内存插槽,可选PCIe插槽可选,可是是两个PCIe x16插槽,一个PCIe x16插槽,或者两个PCIe x8。x16的插槽主要给加速器和某些I/O设备准备的(比如闪存),此前的Leopard只支持x24的插槽,意味着转接器不能支持x16的选项。

这些额外的插槽增强了Tioga Pass服务器的组合能力,可以用来连接高速全闪存的节点,连接全GPU的节点,让服务器为这些节点提供计算能力。Tioga Pass还有一个集成的100Gb/s以太网接口,可以用来管理近来推出的闪存存储阵列。

看起来,Facebook计划让Skylake处理器的每个内存通道放两个DIMM,内存频率跑在2.13GHz或者2.4GHz,Skylake另外还支持单DIMM跑在2.67GHz。

还要注意的是,Tioga Pass的每个DDR4都支持NVDIMM存储,mSATA被m.2取代,话说回来,微软三年前在OpenCloudServer中就开始用m.2了。

Tioga Pass采用了OpenBMC基板管理控制器,OpenBMC基板管理控制器最早在2015年伴随Yosemite微服务器——MonoLake(莫诺湖,也在优胜美地公园)一起出现的,它是专门为Xeon D微处理器而设计的。

3

MonoLake

MonoLake 微服务器节点

Yosemite V2机箱

Yosemite微服务器出现两年以来做了许多调整,新的Yosemite V2机箱(Chassis)仍支持MonoLake单路服务器,同时也支持Twin Lake节点。Yosemite V2机箱配备了新的电源子系统,允许对TwinLake服务器进行热插拔操作——这是一个大的提升。

另外,Yosemite V2机箱还很灵活,允许同时放入四处理器节点,也支持两个处理器配上两个加速器(比如FPGA或者GPU),或者放入闪存存储卡等。

放闪存卡的载体板代号“Glacier Point”,放别的外设的载体板——“Carrier Flat”。在Facebook的官方文档中写道,每个节点可以支持最多192瓦,每个Yosemite V2盒子最多支持600瓦,所以这里不支持放入250瓦或者300瓦的加速器。

4

左侧是闪存载体板Glacier Point,右面是Carrier Flat

Glacier Point盒子中有四个TwinLakes服务器节点,每个服务器节点都可以连接到共享的50Gb或者100Gb多主机网络接口卡。

这个就是一个本文所说的Yosemite V2盒子,有绿色提手的就是TwinLakes节点。

5

Yosemite V2

下图就是Yosemite V2盒子放入OpenRack vCubby的样子,数一数,可以并排放入四个。 6

MonoLake和TwinLakes节点都集成了四端口10Gb的网络接口,如果不需要50Gb和100Gb的网络端口的话,可以直连到OpenRack的Tor交换机上,省时省力。如果需要高速带宽,可以用PCIe 3.0×4 连到Yosemite V2的多主机控制器。值得注意的是,Facebook设计的四端口控制器同时也是个x4的夹层卡。另外,MonoLake和TwinLakes节点也都支持用PCIe x16来连到Yosemite V2机箱。

7

耐人寻味的是Facebook这次更新没说TwinLakes节点用的是什么处理器,上代产品中明确说了处理器的部分,考虑到Yosemite为了适应多平台,所以如果使用了英特尔的Xeon D,Skylake Xeon E3以外,还用了高通的Centriq 2400 ARM处理器,或者AMD Naples Opteron的也是很有可能的。

存储阵列更新——Bryce Canyon

2013年,Facebook向外界介绍了高密度的存储阵列——Knox,Knox的密度非常高,在一个托盘上放着两层3.5吋硬盘,2015年更新出了Honey Badger(蜜獾huan,爱吃蜂蜜,蚂蚁,坚果,外形看着挺低调的,其实挺凶猛,爱抓有剧毒的蛇,被称为世界上最无所畏惧的动物),将“Group Hug”的微服务器平台加入其中,从而又了计算元素,但是从没有大规模部署过。另外,“Group Hug”的微服务器平台是Yosemite微服务器的前身。

8

Honey Badger是两年前的东西了,这两年以来,Facebook上的视频流量激增,视频可比许多静态文件大多了,所以需要一个新平台了,于是就有了Bryce Canyon(布莱斯峡谷国家公园),Bryce Canyon的磁盘数量比HoneyBadger多了20%,计算能力是Honey Badger的四倍,是OpenVault(这也是给Open Rack配的简易、高效的存储方案)的一个变种。

之前的HoneyBadger给人的感觉比较山寨,Bryce Canyon看起来就比较正经,高大上多了。Bryce Canyon在外形设计上看起来跟超微,戴尔,HPE,华为的机器特别的像,磁盘之间也没铰链了,看起来很好,但是制造和使用起来就比较麻烦了。

9

Bryce Canyon

Bryce Canyon最多可放入72块3.5吋硬盘,可以把整体当成一个阵列或者把每36块切分成一个阵列。计算部分用的是基于Xeon D的Mono Lake微服务器计算卡,根据负载需求,可以选择一张或者两张计算卡。

Fcaebook的一位硬件工程师解释说:“我们发现,当采用单路架构的时候,跑Web和存储负载整体效率和单位功耗的性能表现比较好,我们早就把Web层负载迁移到了这种架构,并且在Bryce Canyon上采用了MonoLake”。

10

Bryce Canyon有丰富的网络特性,存储控制器支持6Gb和12GB的SATA,还有一个IO模块(Input/Output Module)可以把OCP网络夹层卡当成前端,可以同时支持25Gb和50Gb以太网NIC。IOM有两种不同的后端,包括PCIe 3.0 x 4 m.2口或者12Gb SAS控制器。

由于Bryce Canyon配备了多种多样的计算和I/O选择,所以可以灵活进行配置来对应不同应用场景,比如可作为JBOD,可支持Hadoop,冷存储和别的场景,另外,Bryce Canyon也用OpenBMC作为管理端。

11 “因为采用模块化设计,所以未来也能采用新一代的CPU,如果需要别的IO接口,新的IO模块也能满足需求。因为IOM有16通道的PCIe设计,充足的带宽可满足各种可能。“

系统设计的原则是协议无关,如果需要NVMe,这个存储控制器可以切换去支持基于PCIe交换机解决方案。如果选高配,通过两个MonoLake计算模块将Bryce Canyon分离成两个存储阵列。这里使用的I/O模块支持两个PCIe m.2插槽,用的是四通道的PCIe 3.0,作为OCP夹层板NIC的补充,m.2可用作缓存或者小文件的写合并。(编译整理:DOIT朱朋博)

未经允许不得转载:DOIT » Facebook为OCP贡献全新设计,更开放,更灵活
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!