Oracle 与 AMD深化合作，助力客户实现下一代 AI 规模部署-DOIT-数据产业媒体与服务平台

自 2026 年第 3 季度起，Oracle 将首开超大规模企业先例，提供一款搭载 50000 颗 AMD Instinct MI450 系列 GPU 的公开可用的 AI 超级集群

Oracle 和 AMD (NASDAQ: AMD) 今日宣布将进一步深化双方长期以来的多代际合作关系，助力客户显著提升 AI 能力和拓展 AI 相关计划。以多年来的联合创新经历为基础，Oracle Cloud Infrastructure (OCI) 将凭借首个搭载 AMD Instinct™ MI450 系列 GPU 的公开可用的 AI 超级集群成为产品发布合作伙伴 — 从 2026 年第 3 季度开始先行部署 50000 颗 GPU，随后在 2027 年及后期逐步扩展。

在这一公告的背后，是 Oracle 和 AMD 强强联合，为客户提供基于 OCI 的 AMD Instinct GPU 平台。2024 年，双方第一次联手推出 AMD Instinct MI300X 驱动的 OCI 配置，后续又正式推出了搭载 AMD Instinct MI355X GPU 的 OCI Compute。未来，这些服务都将在 Zettascale OCI Supercluster 中提供。

随着新一代 AI 模型的规模突破现有 AI 集群的能力上限，市场对大规模 AI 算力的需求正加速增长。为训练和运行这类工作负载，客户需要具备极致规模与效率并且灵活、开放的计算解决方案。OCI 计划推出的新 AI 超级集群将采用 AMD 的 Helios 机架设计 — 该机架搭载 AMD Instinct MI450 系列 GPU、代号 “Venice” 的新一代 AMD EPYC™ CPU、代号 “Vulcano” 的新一代 AMD Pensando™ 高级网络。这是一种经过垂直优化的机架级架构，旨在为大规模 AI 训练与推理工作负载提供极致性能、可扩展性和能源效率。

甲骨文公司Oracle Cloud Infrastructure 执行副总裁 Mahesh Thiagarajan 表示：“我们的客户正在构建极具前瞻性的 AI 应用，这离不开稳健、可扩展且高性能的基础设施。而 Oracle 与 AMD 合作，意味着客户既能享受 AMD 前沿处理器的创新技术，又能获得 OCI 安全、灵活的平台以及 Oracle Acceleron 驱动的高级网络，凭借二者合力来自信地开拓新的边界。从 EPYC 到 AMD Instinct 加速器，Oracle 与 AMD 合作已有十年之久。未来，我们将继续联手 AMD，为客户提供一个开放、安全、可扩展且具有出色价格性能比的云基础架构，满足客户在新 AI 时代的需求。”

AMD 数据中心解决方案业务部门执行副总栽兼总经理 Forrest Norrod 表示：“AMD 和 Oracle 将继续引领云端 AI 创新风潮。我们的 AMD Instinct GPU、EPYC CPU 和高级 AMD Pensando 网络，能够以强大的新功能帮助 Oracle 客户训练、调优和部署新一代 AI。AMD 与 Oracle 联手，将能够以开放、优化、安全且专为大规模 AI 数据中心构建的出色系统加速 AI 发展。”

AMD Instinct MI450 系列 GPU 即将登陆OCI

搭载 AMD Instinct MI450 系列 GPU 的配置旨在提供高性能、灵活的云技术部署选择和广泛的开源支持。这将构建一个坚实基础，帮助客户运行当今前沿的语言模型、生成式 AI 和高性能计算工作负载。使用基于 OCI 的 AMD Instinct MI450 系列 GPU，客户能够获得以下优势：

突破性的计算和内存：针对 AI 训练模型提高内存带宽，帮助客户更快地获得结果、处理更复杂的工作负载、减少模型分区需求。每颗 AMD Instinct MI450 系列 GPU 将提供高达 432 GB 的 HBM4 内存和 20 TB/秒的内存带宽，支持客户完全在内存中训练和推理在规模上比前几代大 50% 的模型。

AMD 优化的 Helios 机架设计：通过高密度、液冷式 72-GPU 机架助力客户实现大规模运行，同时优化性能密度、成本与能效。AMD Helios 机架整合了 UALoE 纵向扩展连接性和基于以太网、符合超以太网联盟 (UEC) 标准的横向扩展网络，能够尽可能降低跨 Pod 与跨机架的延迟并提高吞吐量。

强大的头节点：在一个搭载新一代 AMD EPYC CPU（代号 “Venice”）的架构上加快作业编排与数据处理速度，助力客户充分提升集群利用率，简化大规模工作流。此外，EPYC CPU 还提供机密计算功能和内置安全特性，有助于端到端地保护敏感 AI 工作负载。

DPU 加速的融合网络：驱动线速数据摄入，以此提升大规模 AI 和云基础设施的性能并增强安全性。以完全可编程的 AMD Pensando DPU 技术为基础，DPU 加速的融合网络可凭借强大性能和安全性，满足数据中心在运行新一代 AI 训练、推理以及云工作负载上的需求。

面向 AI 的横向扩展网络：通过一个未来就绪的开放网络结构，帮助客户实现超高速的分布式训练和优化的集合通信。每颗 GPU 搭载多达 3 个 800 Gbps 的 AMD Pensando（代号 “Vulcano”）AI-NIC，可为客户提供无丢包、高速、可编程且支持先进 RoCE 和 UEC 标准的连接性。

创新型 UALink 和 UALoE 结构：帮助客户高效扩展工作负载、减少内存瓶颈、编排大型万亿参数级模型。这一可扩展架构不使用 CPU 进行路由，可以尽可能减少网络跳数和降低延迟；同时还能借助基于 UALoE 结构传输的 UALink 协议，实现机架内 GPU 之间直接、硬件协同的网络连接与内存共享。UALink 是一项专为 AI 加速器构建的开放式高速互连标准，以一个庞大的行业生态系统为后盾。因此，客户能够获得所需灵活性、可扩展性与可靠性，在基于开放标准的基础设施上运行具有严苛要求的 AI 工作负载。

开源 AMD ROCm™ 软件栈：通过一个开放、灵活的开发环境（包含主流框架、库、编译器及运行时系统）助力客户快速创新，自主选择供应商，简化现有 AI 与 HPC 工作负载的迁移过程。

高级分区和虚拟化：通过细粒度 GPU 与 Pod 分区、SR-IOV 虚拟化以及可靠的多租户技术驱动安全、高效的资源利用，帮助客户基于工作负载需求来安全地共享集群和分配 GPU 资源。

针对大规模构建 AI 模型以及运行 AI 模型训练和推理工作负载的客户，OCI 还宣布全面推出搭载 AMD Instinct MI355X GPU 的 OCI Compute。这些服务未来将在可扩展到 131,072 颗 GPU 的 Zettascale OCI Supercluster 中提供。搭载 AMD Instinct MI355X 的配置具有出色的性价比、云端灵活性和开源兼容性。想了解更多信息，请点击这里和这里。

Oracle 与 AMD深化合作，助力客户实现下一代 AI 规模部署

zhupb

相关推荐

近期文章

热门标签