CXL 2.0技术实践大突破,英特尔与阿里云联手让PolarDB变更强

2025年云栖大会的硬件基础设施展区被围的水泄不通。为了提高资源利用率,降低云成本,阿里云在硬件层面做了很多创新。这次除了备受关注的磐久128超节点服务器以外,PolarDB磐久CXL内存池化服务器也极具突破性。

这是全球首款基于CXL(Compute Express Link)2.0 Switch技术的PolarDB数据库专用服务器,在英特尔至强6处理器的支持下,它用CXL技术替代了原来的RDMA网络。在相同配置下,与本地内存相比,阿里云PolarDB数据库的扩展性可提升16倍。

阿里云跟英特尔联手打造的这台内存池化的数据库专用服务器,不仅让PolarDB数据库变得更强了,还让云计算的弹性和效率实现新突破,这是如何做到的呢?

PolarDB基于CXL的硬件大升级,带来三大变化

PolarDB是阿里云自研的云原生关系型数据库,既拥有分布式架构的低成本优势,又能像集中式数据库那样简单易用。此外,PolarDB采用存算分离的架构,因此有更高的弹性和灵活性,软硬一体化设计则提供了很高的性能和稳定性。

阿里云在PolarDB上有很多敢为人先的创新,在2018年就宣称成为全球首个使用了RDMA技术和傲腾技术的云数据库。用RDMA解决了远程节点数据访问延迟高的问题,同时搭配傲腾SSD的性能优势,提高了PolarDB的性能和稳定性表现。

如今,PolarDB俨然是非常成功的云原生数据库产品,已经规模化应用于政务、金融、电信、物流、互联网等领域的核心业务系统。用户数已突破10000家,包括友邦保险、米哈游、飞鹤等知名企业。

最近,阿里云对支撑PolarDB的硬件进行了一次升级,并发布了PolarDB磐久CXL内存池化服务器,服务器里用CXL 2.0技术搭配CXL交换机,替代原来的RDMA技术方案,配合阿里云自研的CXL内存模块和持久内存模块,带来了三大变化。

首先,构建了基于CXL的分布式内存池,内存资源使用效率大幅提升。

PolarDB磐久CXL内存池化服务器采用了英特尔至强6处理器,该处理器支持用CXL交换机让多台服务器连接到一个JBOM内存池节点,节点中有AliMemory内存模组和AliSCM模块。于是,多台服务器就能共享一个内存资源池。

以前数据库每台服务器都要自备大量本地主板上的内存来放缓存数据,现在有了CXL,就可以把这些数据都集中到CXL内存池里。这样每台机器只要留一点点本地内存就够了,既节省了内存资源,管理起来也更省心。

第二,它采用了非易失性内存,可实现数据库的快速恢复。

过去数据库服务器宕机了,DRAM里的数据一断电就全没了,重启后重建缓存的速度会很慢。现在,借助CXL加上阿里自研的AliSCM持久内存,能让服务器重启重新访问到之前的数据,不用重建缓存,大幅节省了重启时间。

第三,它还带来了多主数据共享,数据同步效率大大提升。

以前每个数据库节点都要自己拷贝一份数据,像是每个人都复印一份资料,既浪费又要经常比对更新。现在在CXL内存池里,大家直接看同一本原件,就像在线文档一样,不需要拷贝,有任何更改,所有人都能同时访问,协作效率大大提高。

英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立

阿里云在CXL技术应用上的创新均属于业界首创。英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立表示,阿里是首个完全使用CXL 2.0规范,最大化利用CXL技术的客户,不仅是中国领先,也是全球领先,这是双方团队共同努力的成果。

CXL帮助云数据库真正实现了计算、内存、存储的全解耦

在2025年的云栖大会上,阿里云数据库产品管理与技术架构部负责人王远在介绍PolarDB时提到,PolarDB作为云原生数据库,最大的特点就是资源池化和资源解耦,而CXL帮助云数据库真正实现了“计算、内存、存储”的全解耦。

阿里云数据库产品管理与技术架构部负责人王远

这一做法得到业内的高度评价。几个月前,阿里云PolarDB凭借全球首创的基于CXL Switch的分布式内存池技术,在SIGMOD 2025上再度斩获工业赛道“最佳论文奖”,得奖论文研究并提出了基于CXL协议的分布式内存池架构PolarCXLMem。

SIGMOD评审委员会的专家点评称:“该论文基于CXL互联技术,提供了实用可行的内存解耦设计方案,并成功集成到云数据库真实业务的生产环境,体现了从理论创新到工程实践的完美结合,是极具价值的研究课题。”

从王远的介绍中了解到,RDMA虽然能实现远程内存访问,但访问方式与访问本地内存不同,复杂性更高和性能会受影响。而CXL提供了内存访问语义,让远程内存和本地内存的访问方式进行统一,这会让开发变得更简单,让数据库性能更稳定。

而且,构建这样的内存资源池之后,PolarDB的计算节点就可以不保存数据,每个计算节点变成了无状态的。这样做的好处是在进行节点切换时,不用再进行恢复数据等操作,直接直接使用远程内存,切换时间大大缩短,用户体验也会更好。

此外,从RDMA升级为CXL,构建了共享的内存资源池之后,让数据库服务器突破了单机内存的限制,扩展能力更强,从而能支撑更大的业务需求。

王远解释了这一创新对云计算发展的意义。云计算依赖的三个核心是资源解耦、资源池化、以及在此基础上的规模化运营。解耦让资源使用更灵活,池化则让运营可以更高效、规模更大。这条原则几乎贯穿了云上所有软硬件,尤其是PaaS软件。

按照这个原则,数据库也必须解耦计算、内存、存储才能发挥最佳性能。但要实现解耦,底层硬件的高速互连能力必须跟上。阿里云从RDMA开始,到现在用CXL技术,他们一直追求软硬结合,让硬件创新推动软件能力提升。

王远强调,这也是阿里云与英特尔在技术上高度契合的原因之一,他们非常乐于尝试硬件层面的新技术带来的软件创新。

阿里云瑶池数据库面向AI场景的优化

王远表示,随着智能体的兴起,未来访问数据库的主体将不再局限于人类和固定应用,而是数量更庞大、种类更多元、调用时间更随机的智能体。这对数据库的架构、资源管理能力提出了更高要求,而CXL正是支撑这一切的基础。

有了CXL内存池加持的PolarDB,能在OLTP场景上用更强的弹性能力来应对AI Agent带来的挑战。而在OLAP场景上,凭借灵活的内存调度能力,既能提升大内存分析的性能,同时又能降低成本。王远介绍称,这些都已经在生产环境中发挥作用。

阿里云智能集团服务器研发高级技术专家黄涛在云栖大会的英特尔专场中提到,在AI场景中,经常会把CPU内存拿来给GPU当缓存,或者把多台CPU的内存通过RDMA连接成一个共享池,但这种方案在AI大模型时代难以满足更大规模的内存扩展。

阿里云通过引入CXL技术,把多种内存资源池化。除了传统DRAM内存以外,还能接入阿里自研的AliSCM,构建一个性能更强、容量更大的统一内存池,为AI训练和推理提供更高效的中间层存储。

更有意思的是,阿里云的PolarDB也做了面向AI场景的优化。王远介绍称,数据库正在从传统的在线事务处理(OLTP)、分析处理(OLAP),迈向新的推理处理(OLIP)场景,这要求硬件具备更强大的向量与矩阵计算能力。

而英特尔至强处理器所支持的AMX加速器以及AVX-512指令集为此提供了加速支持,使数据库能够在内部直接整合AI模型的能力,将推理计算与数据紧密结合,帮助企业更高效地挖掘数据价值。阿里云这次创新选择英特尔至强的原因还不止于此。

最新的英特尔至强6性能核处理器(P-core 系列),不仅拥有多达128个性能核,还有最高504MB的超大L3缓存。更大的L3缓存能让数据库查询和事务处理更快,减少访问主内存的次数,从而降低延迟、提高吞吐量。

陈葆立表示,英特尔与阿里云的合作已有15年之久。除了至强处理器硬件以外,英特尔还与阿里云软件团队深度合作,在AI加速、数据处理指令集优化等方面合作,让处理器性能得到最大化发挥。非常庆幸能与阿里云这样的技术领先者一直携手同行。