Agentic AI成就通算超节点

不知道大家是否和我以前一样，总认为GPU、AI芯片才是超节点的主角，CPU是配角，小配角。参加5月22日鲲鹏昇腾开发者大会2026，我意识到Agentic AI已经到来，局面悄然发生变化，CPU重要性直线上升。小配角开始成为大明星。

为什么会有通算超节点？

在Agentic AI的应用中，系统性能瓶颈很有可能不来自GPU 算力，而是主机侧（Host，也就是 CPU + 内存 + 系统软件）处理能力不足。

简单说就是GPU 很闲，CPU 很忙，整个系统被 CPU “卡住了”。

这就是所谓的Host Bound（主机瓶颈 / CPU 瓶颈）挑战难题。

在Agentic AI 的应用中，其任务形态不再是单次 Prompt（提示词）到模型推理的线性流程，更多是多智能体(Multi-Agent)调度、任务编排复杂工作流，需要涉及多轮规划、工具调用、分支决策、上下文记忆管理、状态同步等内容，这些必须在 CPU 上执行，容易导致CPU、内存开销线性、甚至非线性增长。

如果CPU 处理速度跟不上，就会造成 GPU 利用率低下。

《A CPU-Centric Perspective on Agentic AI》研究论文显示：在Agentic AI应用工作流中，CPU处理环节耗时占比高达40%，甚至90%，主要驱动、串联整个智能任务，是当之无愧的核心调度者。有鉴于此，CPU使用量大幅上升。

按照TrendForce数据显示，在智算中心中，CPU与GPU的配比为1：4至1：8；随着Agentic AI部署，这个比例将演变为1：2，甚至1：1。

不仅如此，在Agent AI规模落地应用中，还需要系统性解决沙箱环境启动慢、Token及内存资源消耗以及越权与数据泄露的管控问题，这都是通算超节点要解决的问题。

内存资源池化，化解性能的难题

前面说过，Agentic AI在决策时要同时尝试多条路径，需要快速创建多个容器 / 进程并行执行。而传统容器 / 进程创建过程中，从初始化到启动就需要数百毫秒，甚至数秒，完全跟不上 Agent AI对多分支并发性能的需求。

传统跨节点访问，没有像Linux 本地fork（）一样的直接访问父进程内存的能力，只能靠拷贝全量状态 + 文件中转，导致启动慢、开销大、线性扩展差。相比鲲鹏超节点在灵衢互联技术加持下，构建了全局统一编址内存资源池。

以此为基础，鲲鹏超节点就可以运用remote-fork 全内核快照的技术，把创建新智能体副本的时间，从秒级压缩到毫秒级。

remote-fork不是普通的用户态进程快照，而是捕获了操作系统内核级别的完整状态，包括进程地址空间、页表、文件句柄、设备状态、内核对象等，确保分叉后的实例和原实例行为完全一致。技术的本质就是内核级远程内存语义 + RDMA 直接访问 + 写时复制(CoW) ，它能够将跨节点的访问做得和本地几乎一样快、语义一致，瞬间就可以fork出成千上万个 Agent / 沙箱。

但是fork出的子沙箱，需要读很多公共数据(模型、权重、配置)，需要为其授权读权限；但子沙箱又不能乱写(不能改公共权重、不能删系统文件、不能互相干扰)，对此就需要进行写隔离 / 写关闭；另外，Agent只该看自己的工作目录，不该看到别的Agent的数据。

这就要求通算超节点在文件路径读写权限上，不能写死，如：全开会导致安全灾难(随便改模型、越权删文件)；全关就没法干活(读不到模型、写不了日志 / 输出)。要求能够按沙箱生命周期、按路径、动态设置开关权限，所谓“动态开启 / 关闭特定路径读写权限”的功能。目的就是沙箱的安全隔离（防篡改 / 防逃逸）、强制 CoW 共享（省内存）、快速启停、并保证每个Agent只能访问自己的数据和只读公共数据。