华瑞指数云登顶MLPerf™全球存力榜,单存储节点支持700+ GPU训练!

北京时间8月4日23时,全球最具权威的AI性能基准评测组织MLCommons®正式发布了最新一轮MLPerf™Storage v2.0存储性能基准测试的结果。华瑞指数云ExponTech作为AI-Native企业级全场景数据基础设施的领导者,与DDN, IBM, HPE, 华为,Hammerspace等众多国际国内领先的厂商同台竞技,凭借创新技术方案和产品参与测试,取得极为出色的成绩,多项指标位居世界第一。

本次测试中,ExponTech与合作伙伴英伟达,Scaleflux, AIC深度合作,采用了软件,硬件均有显著创新的产品方案,目标是验证在AI场景下,采用新一代分布式存储软件栈驱动更加精简,高效的硬件方案,达到更高的性能密度,容量密度和更低的成本,同时在网络方面采用RoCE网络,验证其大规模组网能力以及整体存储方案的大规模扩展能力和并行访问能力。硬件方面

与其他参测者采用的许多台高配置的存储服务器+IB网络的整体方案不同,ExponTech方案的存储节点仅使用一台2U的AIC盘框(JBOF F2026),盘框本身没有配置CPU和内存,没有处理能力,主要提供很高的容量密度和硬件可靠性,2U空间可以最多配置26块SSD盘,本次测试配置24块Scaleflux CSD 5000带压缩功能的SSD盘。

盘框内插入4张英伟达Bluefield-3 DPU卡,每个DPU提供200Gbps*2 RoCE网络带宽。ExponTech WADP分布式存储软件完全运行于DPU内,提供高性能,高可靠,功能丰富的分布式存储层。

网络方面,采用4台英伟达Spectrum-X 交换机组成一个2层的 RoCE 网络, 验证大规模组网时的拥塞控制能力。基于这个2层RoCE网络以及ExponTech WADP分布式存储软件,可以扩展到连接1024台盘框,形成一个EB级容量,上百TB级存储带宽的超大规模高性能存储池。软件方面

ExponTech WADP (WiDE AI Data Platform) 分布式存储软件,该软件基于完全自主研发的下一代分布式存储引擎WiDE以及下一代分布式元数据引擎天枢构建,在相同的存储池空间内,向上提供丰富的协议接口,包括块存储(NVMe-oF, vhost, iSCSi, CSI-NVMe-oF),文件存储(POSIX, NFS, SMB), 对象存储(S3),KV接口等。本次测试的WADP软件,以分布式架构的方式完全运行于4张Bluefield-3 DPU内,每张DPU仅配置了一块16核的CPU以及48GB内存,显示了WADP软件栈极其高效的硬件利用效率和IO处理能力。部署架构图

测试结果

1.    基于1个2U的存储节点以及1个客户端和2个客户端的测试结果显示,可以轻松满足模型ResNet-50的训练需求,单客户端能够支持的GPU卡的数量最高达到240块,带宽23.6GiB/s,在存储节点硬件采用DPU+JBOF, CPU和内存都不是很强(AI 控成本)的前提下,依然领先参与测试的所有厂商方案,位居世界第一。具体的测试结果数据如下:

通过上述测试数据测算,ExponTech WADP使用一个2U的存储节点,在配置4个客户端的场景下,可以支持超过700块 A100 GPU训练卡和约400块 H100 GPU训练卡的训练需求,稳定提供70+GiB/s的带宽,逼近存储节点网络带宽极限。ExponTech WADP也可以支持扩展到更多的2U存储节点,形成大规模高性能存储集群,支持超大规模的AI训练场景。

2.    MLPerf™ Storage v2.0测试新推出的检查点(Checkpoint)工作负载专门针对分布式扩展系统中大型语言模型(LLM)的训练场景,重点优化训练过程的备份与恢复速度。ExponTech WADP方案在Llama3-8B模型的实际测试数据位于全球领先水平。

ExponTech WADP方案的实测写带宽16.9GiB/s, 略低于JINIST(采用Huawei OceanStor A800方案)的19.4GiB/s以及ANL(采用开源DAOS方案)的18.1GiB/s, 位居世界第三。但是值得注意的是,ExponTech WADP方案采用的存储硬件配置远低于前两者,使用的物理盘容量仅为前两者的1/5, 展现了极为优异的存储软件栈效率。如果以Checkpoint写入带宽/容量来计算写入效率,ExponTech WADP排名将遥遥领先居第一。亮点总结
Key Highlights

  • 超高密度与能效,仅使用单台2U JBOF设备搭载DPU作为存储节点,硬件配置规格远低于其他的测试方案,展示出了超高的容量密度,性能密度和能效。
  • 超高性能表现,在硬件规格非常低的前提下,依然展示了超高性能表现,在ResNet50模型训练测试中,单客户端支持的GPU卡数和带宽排世界第一,Llama3模型的Checkpoint写入带宽排世界第三,但使用了最少的SSD盘数,以Checkpoint写入带宽/容量来计算写入效率,ExponTech WADP方案排名将遥遥领先居第一,展示了WADP存储软件极为高效的硬件利用效率。
  • 极致I/O效率,多轮测试均稳定保持96%以上的GPU平均利用率(AU)。
  • 弹性扩展能力,WADP分布式软件架构可并行扩展到1024个节点,实现存储容量,IOPS和带宽的同步并行扩展,同时保持稳定的微秒级时延。
  • 可扩展网络验证,四台NVIDIA Spectrum-X交换机搭建两层RoCE网络,拥塞控制表现优异。结合ExponTech WADP分布式存储软件,方案可横向扩展至超大规模AI训练/推理场景。
  • 存储效率倍增,ScaleFlux CSD5000 SSD提供透明数据压缩/解压缩,在零性能损耗、无额外资源消耗前提下实现存储容量与效率倍增。

首次参与即在MLPerf™ Storage v2.0 AI Storage基准测试中取得优异成绩,这一成就不仅彰显了华瑞指数云ExponTech存储技术的强劲实力,更标志着华瑞指数云ExponTech在业界又达成了一个关键里程碑。此次测试延续了WADP(以其子产品WDS名义)在2023年创下的SPC-1基准测试世界纪录,印证了其在企业关键业务(SPC-1:全球存储性能委员会)与AI工作负载(MLPerf Storage)领域的双重竞争力,是目前全球唯一的一个能够在SPC-1和MLPerf Storage上都能够测试出顶级成绩的分布式存储软件,成为真正覆盖全场景的企业级AI统一平台。在未来企业把AI工作负载与企业关键业务进行结合,实现AI能力在企业业务流程中全面落地的过程中,ExponTech WADP平台将发挥出更加全面的价值。

未来,华瑞指数云ExponTech将在AI大模型领域持续深耕,不断突破性能极限,打造全球领先的AI数据平台,为企业赋能新质生产力。在统一的数据平台产品上同时承载企业的核心生产系统和 AI 数据管道,帮助企业把核心生产数据与 AI 能力相结合,实现 AI 在企业级场景的快捷落地。近期,华瑞指数云ExponTech将正式发布ExponTech WADP的最新版本,一款融合支持企业级生产业务和AI训练推理业务,面向企业级AI的统一数据平台底座产品,欢迎持续关注。

关于MLPerf™

MLPerf™是影响力最广的国际AI 性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合谷歌、斯坦福大学、哈佛大学等顶尖学术机构共同发起成立,并于2023年推出 MLPerf™ Storage 基准性能测试,旨在公平公正且公开透明的统一基准来衡量 AI 工作负载的存储系统性能。目前,MLPerf™ Storage 基准测试的最新版本为 v2.0,包含2类工作负载的测试:训练(Training)和检查点(Checkpointing),支持两种模拟加速器(A100 和 H100),并涵盖五种典型的模型训练负载:3D-UNet,ResNet-50,CosmoFlow和Llama3。这些负载覆盖了顺序读取、随机读取、小文件读取等多种 I/O 场景,能够全面评估存储系统在不同场景下的吞吐量和延迟性能。

MLPerf Storage Benchmark Suite Results: https://mlcommons.org/benchmarks/storage/

MLPerf Storage Rules:

https://github.com/mlcommons/storage/blob/main/Submission_guidelines.md关于SPC-1

SPC-1(全球存储性能委员会)是企业级存储领域最权威的Benchmark评测,是一个专注于存储行业供应商性能评测的中立机构。旨在评估存储系统处理复杂请求和大规模数据的能力,对IO吞吐量、读写响应时间敏感度、工作负载动态变化、存储容量利用率、用户多样化、数据持久性等多种数据特征进行严苛考量。