Agentic AI成就通算超节点

 

不知道大家是否和我以前一样,总认为GPUAI芯片才是超节点的主角,CPU是配角,小配角。参加522日 鲲鹏昇腾开发者大会2026我意识到Agentic AI已经到来,局面悄然发生变化,CPU重要性直线上升。小配角开始成为大明星。

 


为什么会有通算超节点?

Agentic AI的应用中,系统性能瓶颈很有可能不来自GPU 算力,而是主机侧(Host,也就是 CPU + 内存 + 系统软件)处理能力不足

简单说就是GPU 很闲,CPU 很忙,整个系统被 CPU “卡住了

这就是所谓的Host Bound(主机瓶颈 / CPU 瓶颈)挑战难题。

Agentic AI 的应用中,其任务形态不再是单次 Prompt(提示词)到模型推理的线性流程,更多是多智能体(Multi-Agent)调度、任务编排复杂工作流,需要涉及多轮规划、工具调用、分支决策、上下文记忆管理状态同步等内容,这些必须在 CPU 上执行,容易导致CPU内存开销线性甚至非线性增长。

如果CPU 处理速度跟不上,就会造成 GPU 利用率低下

A CPU-Centric Perspective on Agentic AI研究论文显示Agentic AI应用工作流中,CPU处理环节耗时占比高达40%甚至90%,主要驱动串联整个智能任务,是当之无愧的核心调度有鉴于此,CPU使用量大幅上升。

按照TrendForce数据显示,在智算中心中,CPUGPU的配比为1418;随着Agentic AI部署,这个比例将演变为12,甚至11

不仅如此,在Agent AI规模落地应用中,还需要系统性解决沙箱环境启动慢Token及内存资源消耗以及越权与数据泄露的管控问题,这都是通算超节点要解决的问题。

 

内存资源池化,化解性能的难题

前面说过,Agentic AI在决策时要同时尝试多条路径,需要快速创建多个容器 / 进程并行执行。传统容器 / 进程创建过程中,从初始化到启动需要数百毫秒甚至数秒,完全跟不上 Agent AI多分支并发性能的需求。

传统跨节点访问,没有像Linux 本地fork()一样直接访问父进程内存的能力,只能靠拷贝全量状态 + 文件中转,导致启动慢、开销大、线性扩展差。相比鲲鹏超节点灵衢互联技术加持,构建了全局统一编址内存资源池

以此为基础,鲲鹏超节点就可以运用remote-fork 全内核快照的技术,把创建新智能体副本的时间,从秒级压缩到毫秒级。

remote-fork不是普通的用户态进程快照,而是捕获了操作系统内核级别的完整状态,包括进程地址空间、页表、文件句柄、设备状态、内核对象等,确保分叉后的实例和原实例行为完全一致。技术的本质就是内核级远程内存语义 + RDMA 直接访问 + 写时复制(CoW) ,它能够将跨节点的访问做得和本地几乎一样快、语义一致,瞬间就可以fork出成千上万个 Agent / 沙箱。

但是fork子沙箱,需要读很多公共数据(模型、权重、配置),需要为其授权读权限;但子沙箱又不能乱写(不能改公共权重、不能删系统文件、不能互相干扰),对此就需要进行写隔离 / 写关闭;另外,Agent只该看自己的工作目录,不该看到别的Agent 数据。

这就要求通算超节点在文件路径读写权限上,不能写死,如全开会导致安全灾难(随便改模型、越权删文件)全关就没法干活(读不到模型、写不了日志 / 输出)要求能够按沙箱生命周期、按路径、动态设置开关权限,所谓动态开启 / 关闭特定路径读写权限”的功能。目的就是沙箱的安全隔离(防篡改 / 防逃逸)、强制 CoW 共享(省内存)、快速启停、并保证每个Agent只能访问自己的数据和只读公共数据。

为了防止安全沙箱高危操作,鲲鹏CCA构建Agent机密环境阻断横向攻击,并结合openGauss数据库实现记忆加密以及记忆篡改秒级回滚,保障Agent “运行不出格、数据拿不走、故障秒恢复

 

小结

技术如此复杂,只需记住:以往是“GPU单点突破,如今已是转向“CPU+GPU协同作战,通算超节点的优势在在于智能体,与此同时,借助鲲鹏通算超节点独有的统一编址内存共享资源池,系统性解决沙箱环境启动慢Token及内存资源消耗越权与数据泄露的问题,奠定智能体应用价值。

本文来源于DOIT传媒,文章内容仅供参考,不构成投资建议。

赞 ()

相关推荐

发表回复

评论列表

点击查看更多

    联系我们

    微信:百易小助手

    邮件:contact@doit.com.cn

    工作时间:周一至周五,9:30-18:30,节假日休息

    微信