Alluxio 和 Solidigm 携手打造面向人工智能工作负载的高级缓存解决方案

Alluxio 作为全球领先的 AI 缓存解决方案提供商,为基于 GPU 的 AI 工作负载提供最快速的缓存。它的可扩展架构支持数万个节点,能够显著降低存储带宽消耗。全球大型语言模型 (LLM) 的成功在很大程度上归功于Alluxio 在解决 AI 存储挑战方面的前沿技术。

“Solidigm 与 Alluxio 联手提供卓越的分布式 AI 缓存解决方案。将 Solidigm D5-P5336 用作读取缓存,并使用D7-PS1010 进行检查点写入,再结合 Alluxio 的低开销解决方案,为大规模 AI 工作负载提供最佳的成本与性能组合。我们对该解决方案进行了优化,以充分利用 Solidigm D7-PS1010 Gen5 TLC 固态硬盘的完整写入带宽和 Solidigm D5-P5336 Gen4 QLC 的读取带宽,同时在 TLC 和 QLC 固态硬盘上保持 1.02 的写放大系数。我们希望共同努力,继续为客户的人工智能需求提供成本和性能优化、低开销的解决方案,”Solidigm 战略规划和营销高级副总裁Greg Matson 表示。

Alluxio DORA 缓存架构的主要优势

图 1. Alluxio DORA 缓存架构DORA(Decentralized Object Repository Architecture 的缩写)是 Alluxio 的下一代架构。作为分布式缓存存储系统,DORA 提供低延迟、高吞吐量和成本节约优势,同时为人工智能工作负载提供高性能数据访问层。DORA 利用去中心化存储和元数据管理,实现更高的性能和可用性,同时支持可插拔的数据安全与治理,从而提升大规模数据访问的可扩展性和管理效率。

DORA 的架构目标

可扩展性:可扩展性是 DORA 的首要任务,它需要支持数十亿个文件,以满足 AI训练等数据密集型应用的需求。

高可用性:DORA 的架构旨在实现高可用性,提供 99.99% 的正常运行时间,并在主控层面防止单点故障。

性能:性能同样是 DORA 的核心目标,其优先优化模型训练、模型服务的速度,以及 AI 工作负载中的 GPU 利用率。

该架构由四个关键组件组成:服务注册表、调度程序、客户端和工作程序。这些组件协同工作,负责服务发现、分布式负载调度和数据存储等任务,同时确保整个系统的最佳性能。

NVMe 存储相关技术亮点

1. 页面数据存储可充分利用固态硬盘的最大性能,同时保持最佳的 WAF 和耐用性DORA 采用经过实战验证的页面存储模块进行缓存存储,实现对大文件中小到中等读请求的更精细化缓存。这种可靠的页面存储技术已经在 Presto at Meta、Uber 和 TikTok 等应用中得到了验证。DORA 的精细化缓存将读放大系数减少了 150 倍,并将文件位置读取性能提高了最多 15 倍。

页面数据存储采用日志文件系统,并将数据组织为两个级别的目录,使用固定的、大尺寸的块文件。所有写操作都附加到这些块文件中,当其中的对象被标记为删除时,文件本身只在不再需要时才被移除。这一设计确保了即使在使用 PCIe 5.0 TLC 固态硬盘时也能实现最佳性能,同时保持固态硬盘写放大系数(WAF)为 1,从而最大限度地提高固态硬盘的耐用性。

例如,在使用 Alluxio 的读取缓存与 QLC 固态硬盘时,存储引擎充分利用 QLC 的耐用性,而不会产生任何内部或垃圾收集 WAF,确保 QLC NVMe 固态硬盘的高效运行。

图 2. 工程师与最终用户视角

2. 去中心化元数据存储

DORA 将元数据分发给每个工作程序,以确保元数据始终是可访问和可用的。DORA 采用了两级缓存系统来优化元数据访问。第一级缓存是内存缓存,它将元数据条目存储在内存中。该缓存具有可配置的最大容量和生存时间(TTL)设置,以控制过期时间。第二级缓存是持久缓存,它使用 RocksDB 在磁盘上存储元数据条目。持久缓存的容量不受限制,具体取决于可用的磁盘空间。它采用基于生存时间(TTL)的缓存驱逐策略,避免了主动同步或失效操作。存储的元数据通过完整的 UFS 路径(如 Page Store)进行哈希处理。

这种内存和持久缓存的组合确保了元数据的高可用性和可访问性,同时实现了系统资源的高效利用。元数据的去中心化避免了由主节点集中管理元数据所导致的瓶颈问题。由于每个 DORA 工作程序能够存储多达 3000 万到 5000 万个文件,该系统可以支持包含数十亿个文件的大规模数据密集型应用程序。Solidigm 已验证内存元数据设计与 RocksDB 的结合可提供最佳的元数据存储解决方案。该设计充分利用 PCIe 4.0 QLC 固态硬盘(读 7GB/s,写 3GB/s)和 PCIe 5.0 TLC 固态硬盘(读和写 14.5GB/s)的读写速度。此外,RocksDB使用基于跳跃表的写缓冲区将许多小的写入合并为更大的顺序 2MB 写入,从而提高了写入效率,有助于最小化 SSD WAF,进一步增强固态硬盘的耐用性。

性能测试:Alluxio 结合 Solidigm™D7-PS1010 和 D5-P5336

测试配置

在最近的一项实验中,Alluxio 在使用英特尔 Gen5 BNC 存储服务器搭载 Solidigm D7-PS1010 和 D5-P5336 固态硬盘的环境下,展示了其在数据摄取和读取性能方面的卓越能力,特别是在 GPU 扩展方面。值得注意的结果包括:

缓存负载效率:Alluxio 缓存引擎在写入 PCIe 5.0 TLC 固态硬盘时,有效地饱和了 UFS QLC 存储的最大读取带宽。

Fuse 读取测试:Alluxio 的用户空间文件系统 (FUSE)框架几乎饱和了单个 PCIe 5.0 固态硬盘的读取带宽,表明在处理 NVMe 固态硬盘上的缓存命中时开销最小。

为了快速部署并展示 Alluxio 存储引擎的强大性能,我们设置了一个单节点测试环境值得注意的是,Alluxio 的最大优势在于其能够利用主机端的分布式复制缓存,随着 GPU 的扩展而扩展,并显著降低南北向存储带宽的开销。即使在单节点配置下,Alluxio 也表现出超高的效率,尤其是在搭配高性能 NVMe 固态硬盘时。对于此测试,我们将缓存配置为PCIe 5.0 TLC 或 PCIe 4.0 QLC,而底层文件存储 (UFS) 使用 PCIe 4.0 QLC。

要点

1,Alluxio 的缓存负载引擎效率极高,能够充分利用 UFS QLC 的最大读取带宽,并将数据摄取到PCIe 5.0 TLC 缓存固态硬盘中。即使 UFS 支持 10GB/s 的读取带宽,Alluxio 也可以轻松饱和 Solidigm D7-PS1010 的 9.3GB/s 写带宽。

2,Alluxio 的页面缓存存储引擎建立在 XFS 日志文件系统上,已使用 Solidigm Alluxio FIO 模拟器进行了严格的寿命测试。结果表明,无论使用TLC 还是 QLC 固态硬盘, Alluxio 都实现了 1.02 的写放大系数(WAF)。这种接近理想的写放大系数(WAF)为 1 的表现,最大化了固态硬盘的性能和耐用性,为最终用户提供了最佳的使用体验。

FUSE 的读取开销是最小的。在进行 FUSE 读取操作时,如果 SSD 缓存命中率达到 100%,并且绕过 DRAM 页面缓存,FUSE 框架几乎可以饱和单个 PCIe 5.0 固态硬盘的读取带宽,达到 14.8GB/s。

对于寻求高容量缓存解决方案的客户来说,Solidigm的 61.44TB QLC 固态硬盘是一个理想的选择。Alluxio 的存储引擎对写放大系数(WAF)非常友好,作为以读取为主的缓存系统,其写入操作极少,因此 QLC 闪存非常适合作为其读取缓存路径。得益于Alluxio 的高效设计,我们可以基于顺序写入总写入量(PBW)为 213PB 来估算 QLC 缓存设备的耐用性,这意味着 Solidigm 支持写入高达 213 PB 的数据。即使在 5 年周期内以 50% 的使用率(已是较高的阈值)计算,QLC 仍能支持 2900 MB/s 的写带宽,几乎达到其最大值。此外,QLC 每块 SSD 可提供高达 6GB/s 的随机读取带宽,使构建高性价比的Alluxio AI 缓存系统成为可能。

Solidigm 固态硬盘如何为 Alluxio 提供合适的存储

对于读取缓存,Solidigm D5-P5336 61.44TB QLC 固态硬盘 可提供卓越的性能和可伸缩性。对于检查点写入,PCIe 5.0 Solidigm D7-PS1010 提供世界级的写性能。

Alluxio 工程副总裁 Xuan Du 表示:“我们与 Solidigm 团队密切合作,验证了将Alluxio 的分布式缓存技术与Solidigm 固态硬盘和 NVMe 驱动器联合用于 AI 模型训练工作负载的性能优势。通过紧密合作,我们进一步优化了 Alluxio,利用 Solidigm 驱动器最大限度地提高了大规模 AI 工作负载的 I/O 吞吐量。” 

我们期待与Solidigm 继续加深合作,共同为我们的客户提供高性能、经济高效的解决方案,以构建、训练和部署大规模人工智能模型

Alluxio 和 Solidigm 的合作成果表明,Solidigm的 TLC 和 QLC 固态硬盘能够显著提高 Alluxio 的服务水平,同时降低运营成本。Solidigm 在质量和可靠性方面设立了新的标准,并拥有一支专门的客户服务团队,为 Alluxio 提供了卓越的支持。

关于作者:

Wayne Gao 是 Soldigm 的首席工程师和解决方案存储架构师。他从路径探索到商业发布,全程参与了 Solidigm 云存储加速层(CSAL)的开发工作。Wayne 拥有超过 20 年的存储开发经验,持有 4 项美国专利,并在 EuroSys 上发表过论文。

Yi Wang 是 Solidigm 的现场应用工程师。在加入Solidigm 之前,他曾在英特尔、Cloudera 和 NCR 担任技术职务。他拥有“思科认证网络专家”、“微软认证解决方案专家”和“Cloudera 数据平台管理员”认证。

Jie Chen 是 Solidigm 的技术营销架构师,负责云客户的生态系统支持,特别是在数据放置模式和存储 AI 方面。在加入 Solidigm 之前,Jie 曾在多种闪存和持久性内存产品的应用工程师、质量与可靠性工程师、产品开发工程师和项目经理等技术岗位上工作。