不知道大家是否和我以前一样,总认为GPU、AI芯片才是超节点的主角,CPU是配角,小配角。参加5月22日 鲲鹏昇腾开发者大会2026,我意识到Agentic AI已经到来,局面悄然发生变化,CPU重要性直线上升。小配角开始成为大明星。

为什么会有通算超节点?
在Agentic AI的应用中,系统性能瓶颈很有可能不来自GPU 算力,而是主机侧(Host,也就是 CPU + 内存 + 系统软件)处理能力不足。
简单说就是GPU 很闲,CPU 很忙,整个系统被 CPU “卡住了”。
这就是所谓的Host Bound(主机瓶颈 / CPU 瓶颈)挑战难题。
在Agentic AI 的应用中,其任务形态不再是单次 Prompt(提示词)到模型推理的线性流程,更多是多智能体(Multi-Agent)调度、任务编排复杂工作流,需要涉及多轮规划、工具调用、分支决策、上下文记忆管理、状态同步等内容,这些必须在 CPU 上执行,容易导致CPU、内存开销线性、甚至非线性增长。
如果CPU 处理速度跟不上,就会造成 GPU 利用率低下。
《A CPU-Centric Perspective on Agentic AI》研究论文显示:在Agentic AI应用工作流中,CPU处理环节耗时占比高达40%,甚至90%,主要驱动、串联整个智能任务,是当之无愧的核心调度者。有鉴于此,CPU使用量大幅上升。
按照TrendForce数据显示,在智算中心中,CPU与GPU的配比为1:4至1:8;随着Agentic AI部署,这个比例将演变为1:2,甚至1:1。
不仅如此,在Agent AI规模落地应用中,还需要系统性解决沙箱环境启动慢、Token及内存资源消耗以及越权与数据泄露的管控问题,这都是通算超节点要解决的问题。
内存资源池化,化解性能的难题
前面说过,Agentic AI在决策时要同时尝试多条路径,需要快速创建多个容器 / 进程并行执行。而传统容器 / 进程创建过程中,从初始化到启动就需要数百毫秒,甚至数秒,完全跟不上 Agent AI对多分支并发性能的需求。
传统跨节点访问,没有像Linux 本地fork()一样的直接访问父进程内存的能力,只能靠拷贝全量状态 + 文件中转,导致启动慢、开销大、线性扩展差。相比鲲鹏超节点在灵衢互联技术加持下,构建了全局统一编址内存资源池。
以此为基础,鲲鹏超节点就可以运用remote-fork 全内核快照的技术,把创建新智能体副本的时间,从秒级压缩到毫秒级。
remote-fork不是普通的用户态进程快照,而是捕获了操作系统内核级别的完整状态,包括进程地址空间、页表、文件句柄、设备状态、内核对象等,确保分叉后的实例和原实例行为完全一致。技术的本质就是内核级远程内存语义 + RDMA 直接访问 + 写时复制(CoW) ,它能够将跨节点的访问做得和本地几乎一样快、语义一致,瞬间就可以fork出成千上万个 Agent / 沙箱。
但是fork出的子沙箱,需要读很多公共数据(模型、权重、配置),需要为其授权读权限;但子沙箱又不能乱写(不能改公共权重、不能删系统文件、不能互相干扰),对此就需要进行写隔离 / 写关闭;另外,Agent只该看自己的工作目录,不该看到别的Agent的 数据。
这就要求通算超节点在文件路径读写权限上,不能写死,如:全开会导致安全灾难(随便改模型、越权删文件);全关就没法干活(读不到模型、写不了日志 / 输出)。要求能够按沙箱生命周期、按路径、动态设置开关权限,所谓“动态开启 / 关闭特定路径读写权限”的功能。目的就是沙箱的安全隔离(防篡改 / 防逃逸)、强制 CoW 共享(省内存)、快速启停、并保证每个Agent只能访问自己的数据和只读公共数据。
为了防止安全沙箱高危操作,鲲鹏CCA构建了Agent机密环境来阻断横向攻击,并结合openGauss数据库实现记忆加密以及记忆篡改秒级回滚,保障Agent “运行不出格、数据拿不走、故障秒恢复”。
小结
技术如此复杂,只需记住:以往是“GPU单点突破”,如今已是转向“CPU+GPU协同作战”,通算超节点的优势在在于智能体,与此同时,借助鲲鹏通算超节点独有的统一编址内存共享资源池,系统性解决沙箱环境启动慢、Token及内存资源消耗、越权与数据泄露的问题,奠定智能体应用价值。
本文来源于DOIT传媒,文章内容仅供参考,不构成投资建议。
评论列表