算力增长的通信压力,OCP供应商会做出怎样选择?

对于Meta、Oracle Cloud这样的超级互联网供应商而言,通用服务器并不是他们的选择,原因很简单,面对超级互联网规模应用而言,通用服务器的效率不够高,需要进行定制,这也是OCP(Open Compute Project,开放计算项目)开源硬件社区与协作项目缘起的原因,从2011年开始已有多年发展的历史。

如今,针对AI算力日新月异的发展现状,OCP要采取哪些有针对性的措施呢?在10 月 13~16 日,美国圣何塞举办的 OCP 峰会上, NVIDIA(英伟达)分享了与Meta、Oracle Cloud的合作。

算力增长带来强大处理能力的同时,也对节点之间的通信能力带来了巨大的挑战,特别是当GPU规模超过NVLink互联限制的时候,Meta、Oracle Cloud的选择仍然会采用以太网互联的方案,其中,Meta就采用了NVIDIA Spectrum-X MiniPack3N 以太网交换机。对此,我查阅了一下MiniPack3N的基本配置,可以提供支持多达 64 个 800G 光模块端口,用于数据中心内设备之间长距离、高速率的互联。比如数据中心内不同机柜之间,或者数据中心不同区域之间的网络连接,MiniPack3N利用搭配光模块,可以满足低延迟、高带宽的通信需求。简单一句话,就是高端口、高密度。Oracle Cloud的实践显示,NVIDIA Spectrum-X网络在实现 95% 有效带宽利用率的同时,其延迟完全可以满足业务应用的需求,并没有带来更多的延迟增加。

如果Spectrum-X的端口密度还不能够满足需求,用户可以选择NVIDIA Spectrum-XGS系列网络产品,与Spectrum-X相比,XGS可以提供更高的端口密度,为保持竞争力,英伟达会让 Spectrum-XGS 具备较高的端口密度,例如,可能会达到 128 个甚至更多的 800G 端口配置,以适应大型数据中心和超大规模网络的部署需求。

除了高带宽和高密度之外,英伟达也针对超大规模数据中心AI应用的不同特点,推出更具针对性的产品,例如配备128GB GDDR7 内存的GPU新架构设计,尽管GDDR7带宽相对 HBM 要低,GDDR内存具有成本较低、容量较大的特点,非常适用一些对于带宽没有高要求的推理应用的场景。

在演讲中,NVIDIA特别提到了800V直流供电的产品设计。

相比传统的交流供电,800V直流供电在一些方面具有优势,比如减少了交流-直流电源转换带来的损耗,进而提高供电传输效率,降低损耗,用于支持更高的算力功率密度,有助于提升 GPU 等设备的容量和每瓦性能。但是800V 直流供电,意味着数据中心内大量设备,如服务器、网络设备等,需要在电源输入、内部电路设计等方面进行重新设计和改造,以适配更高的电压。目前,Meta等OCP厂商携手英伟达将800V方案付诸实施。截至 2024 年 11 月,中国电信运营商多采用48V 或 240V 高压直流(HVDC)供电方案, 而非 800V的方案,其原因在于传统电信基站设备,其内部电路设计多是适配 48V 直流输入,而互联网企业数据中心多采用240V HVDC 供电方案,并在长期应用中,从设备研发、供电网络搭建到维护管理,已经形成了一套成熟体系。

据悉,英伟达的解决方案已经获得了包括Intel、三星在内的众多生态厂商的支持!