算力增长的通信压力，OCP供应商会做出怎样选择？-DOIT-数据产业媒体与服务平台

对于Meta、Oracle Cloud这样的超级互联网供应商而言，通用服务器并不是他们的选择，原因很简单，面对超级互联网规模应用而言，通用服务器的效率不够高，需要进行定制，这也是OCP（Open Compute Project，开放计算项目）开源硬件社区与协作项目缘起的原因，从2011年开始已有多年发展的历史。

如今，针对AI算力日新月异的发展现状，OCP要采取哪些有针对性的措施呢？在10 月 13～16 日，美国圣何塞举办的 OCP 峰会上， NVIDIA（英伟达）分享了与Meta、Oracle Cloud的合作。

算力增长带来强大处理能力的同时，也对节点之间的通信能力带来了巨大的挑战，特别是当GPU规模超过NVLink互联限制的时候，Meta、Oracle Cloud的选择仍然会采用以太网互联的方案，其中，Meta就采用了NVIDIA Spectrum-X MiniPack3N 以太网交换机。对此，我查阅了一下MiniPack3N的基本配置，可以提供支持多达 64 个 800G 光模块端口，用于数据中心内设备之间长距离、高速率的互联。比如数据中心内不同机柜之间，或者数据中心不同区域之间的网络连接，MiniPack3N利用搭配光模块，可以满足低延迟、高带宽的通信需求。简单一句话，就是高端口、高密度。Oracle Cloud的实践显示，NVIDIA Spectrum-X网络在实现 95% 有效带宽利用率的同时，其延迟完全可以满足业务应用的需求，并没有带来更多的延迟增加。

如果Spectrum-X的端口密度还不能够满足需求，用户可以选择NVIDIA Spectrum-XGS系列网络产品，与Spectrum-X相比，XGS可以提供更高的端口密度，为保持竞争力，英伟达会让 Spectrum-XGS 具备较高的端口密度，例如，可能会达到 128 个甚至更多的 800G 端口配置，以适应大型数据中心和超大规模网络的部署需求。

除了高带宽和高密度之外，英伟达也针对超大规模数据中心AI应用的不同特点，推出更具针对性的产品，例如配备128GB GDDR7 内存的GPU新架构设计，尽管GDDR7带宽相对 HBM 要低，GDDR内存具有成本较低、容量较大的特点，非常适用一些对于带宽没有高要求的推理应用的场景。

在演讲中，NVIDIA特别提到了800V直流供电的产品设计。

相比传统的交流供电，800V直流供电在一些方面具有优势，比如减少了交流-直流电源转换带来的损耗，进而提高供电传输效率，降低损耗，用于支持更高的算力功率密度，有助于提升 GPU 等设备的容量和每瓦性能。但是800V 直流供电，意味着数据中心内大量设备，如服务器、网络设备等，需要在电源输入、内部电路设计等方面进行重新设计和改造，以适配更高的电压。目前，Meta等OCP厂商携手英伟达将800V方案付诸实施。截至 2024 年 11 月，中国电信运营商多采用48V 或 240V 高压直流（HVDC）供电方案，而非 800V的方案，其原因在于传统电信基站设备，其内部电路设计多是适配 48V 直流输入，而互联网企业数据中心多采用240V HVDC 供电方案，并在长期应用中，从设备研发、供电网络搭建到维护管理，已经形成了一套成熟体系。

据悉，英伟达的解决方案已经获得了包括Intel、三星在内的众多生态厂商的支持！

算力增长的通信压力，OCP供应商会做出怎样选择？

songjy

相关推荐

近期文章

热门标签