自 2026 年第 3 季度起,Oracle 将首开超大规模企业先例,提供一款搭载 50000 颗 AMD Instinct MI450 系列 GPU 的公开可用的 AI 超级集群
Oracle 和 AMD (NASDAQ: AMD) 今日宣布将进一步深化双方长期以来的多代际合作关系,助力客户显著提升 AI 能力和拓展 AI 相关计划。以多年来的联合创新经历为基础,Oracle Cloud Infrastructure (OCI) 将凭借首个搭载 AMD Instinct™ MI450 系列 GPU 的公开可用的 AI 超级集群成为产品发布合作伙伴 — 从 2026 年第 3 季度开始先行部署 50000 颗 GPU,随后在 2027 年及后期逐步扩展。
在这一公告的背后,是 Oracle 和 AMD 强强联合,为客户提供基于 OCI 的 AMD Instinct GPU 平台。2024 年,双方第一次联手推出 AMD Instinct MI300X 驱动的 OCI 配置,后续又正式推出了搭载 AMD Instinct MI355X GPU 的 OCI Compute。未来,这些服务都将在 Zettascale OCI Supercluster 中提供。

随着新一代 AI 模型的规模突破现有 AI 集群的能力上限,市场对大规模 AI 算力的需求正加速增长。为训练和运行这类工作负载,客户需要具备极致规模与效率并且灵活、开放的计算解决方案。OCI 计划推出的新 AI 超级集群将采用 AMD 的 Helios 机架设计 — 该机架搭载 AMD Instinct MI450 系列 GPU、代号 “Venice” 的新一代 AMD EPYC™ CPU、代号 “Vulcano” 的新一代 AMD Pensando™ 高级网络。这是一种经过垂直优化的机架级架构,旨在为大规模 AI 训练与推理工作负载提供极致性能、可扩展性和能源效率。
甲骨文公司Oracle Cloud Infrastructure 执行副总裁 Mahesh Thiagarajan 表示:“我们的客户正在构建极具前瞻性的 AI 应用,这离不开稳健、可扩展且高性能的基础设施。而 Oracle 与 AMD 合作,意味着客户既能享受 AMD 前沿处理器的创新技术,又能获得 OCI 安全、灵活的平台以及 Oracle Acceleron 驱动的高级网络,凭借二者合力来自信地开拓新的边界。从 EPYC 到 AMD Instinct 加速器,Oracle 与 AMD 合作已有十年之久。未来,我们将继续联手 AMD,为客户提供一个开放、安全、可扩展且具有出色价格性能比的云基础架构,满足客户在新 AI 时代的需求。”
AMD 数据中心解决方案业务部门执行副总栽兼总经理 Forrest Norrod 表示:“AMD 和 Oracle 将继续引领云端 AI 创新风潮。我们的 AMD Instinct GPU、EPYC CPU 和高级 AMD Pensando 网络,能够以强大的新功能帮助 Oracle 客户训练、调优和部署新一代 AI。AMD 与 Oracle 联手,将能够以开放、优化、安全且专为大规模 AI 数据中心构建的出色系统加速 AI 发展。”
AMD Instinct MI450 系列 GPU 即将登陆OCI
搭载 AMD Instinct MI450 系列 GPU 的配置旨在提供高性能、灵活的云技术部署选择和广泛的开源支持。这将构建一个坚实基础,帮助客户运行当今前沿的语言模型、生成式 AI 和高性能计算工作负载。使用基于 OCI 的 AMD Instinct MI450 系列 GPU,客户能够获得以下优势:
突破性的计算和内存:针对 AI 训练模型提高内存带宽,帮助客户更快地获得结果、处理更复杂的工作负载、减少模型分区需求。每颗 AMD Instinct MI450 系列 GPU 将提供高达 432 GB 的 HBM4 内存和 20 TB/秒的内存带宽,支持客户完全在内存中训练和推理在规模上比前几代大 50% 的模型。
AMD 优化的 Helios 机架设计:通过高密度、液冷式 72-GPU 机架助力客户实现大规模运行,同时优化性能密度、成本与能效。AMD Helios 机架整合了 UALoE 纵向扩展连接性和基于以太网、符合超以太网联盟 (UEC) 标准的横向扩展网络,能够尽可能降低跨 Pod 与跨机架的延迟并提高吞吐量。
强大的头节点:在一个搭载新一代 AMD EPYC CPU(代号 “Venice”)的架构上加快作业编排与数据处理速度,助力客户充分提升集群利用率,简化大规模工作流。此外,EPYC CPU 还提供机密计算功能和内置安全特性,有助于端到端地保护敏感 AI 工作负载。
DPU 加速的融合网络:驱动线速数据摄入,以此提升大规模 AI 和云基础设施的性能并增强安全性。以完全可编程的 AMD Pensando DPU 技术为基础,DPU 加速的融合网络可凭借强大性能和安全性,满足数据中心在运行新一代 AI 训练、推理以及云工作负载上的需求。
面向 AI 的横向扩展网络:通过一个未来就绪的开放网络结构,帮助客户实现超高速的分布式训练和优化的集合通信。每颗 GPU 搭载多达 3 个 800 Gbps 的 AMD Pensando(代号 “Vulcano”)AI-NIC,可为客户提供无丢包、高速、可编程且支持先进 RoCE 和 UEC 标准的连接性。
创新型 UALink 和 UALoE 结构:帮助客户高效扩展工作负载、减少内存瓶颈、编排大型万亿参数级模型。这一可扩展架构不使用 CPU 进行路由,可以尽可能减少网络跳数和降低延迟;同时还能借助基于 UALoE 结构传输的 UALink 协议,实现机架内 GPU 之间直接、硬件协同的网络连接与内存共享。UALink 是一项专为 AI 加速器构建的开放式高速互连标准,以一个庞大的行业生态系统为后盾。因此,客户能够获得所需灵活性、可扩展性与可靠性,在基于开放标准的基础设施上运行具有严苛要求的 AI 工作负载。
开源 AMD ROCm™ 软件栈:通过一个开放、灵活的开发环境(包含主流框架、库、编译器及运行时系统)助力客户快速创新,自主选择供应商,简化现有 AI 与 HPC 工作负载的迁移过程。
高级分区和虚拟化:通过细粒度 GPU 与 Pod 分区、SR-IOV 虚拟化以及可靠的多租户技术驱动安全、高效的资源利用,帮助客户基于工作负载需求来安全地共享集群和分配 GPU 资源。
针对大规模构建 AI 模型以及运行 AI 模型训练和推理工作负载的客户,OCI 还宣布全面推出搭载 AMD Instinct MI355X GPU 的 OCI Compute。这些服务未来将在可扩展到 131,072 颗 GPU 的 Zettascale OCI Supercluster 中提供。搭载 AMD Instinct MI355X 的配置具有出色的性价比、云端灵活性和开源兼容性。想了解更多信息,请点击这里和这里。