大模型时代,智算能力建设是“标配”

2022年11月以来,以ChatGPT为代表的大模型成为世界数字科技领域新热点。在不到一年的时间里,全球大模型数量迅速增加。大模型浪潮日渐逼近,智算需求快速增长,国内厂商竞相发力,百度智能云、阿里云、商汤科技等纷纷加码,角逐“智算”。

在“十四五”规划的指引下,各地政府也积极投入智算中心建设,目前已有广州、长沙、重庆等多座城市建成或正在建设智算中心,经典案例包括京津冀大数据智算中心、长沙5A级智能计算中心等,其中还不包括企业自主建设的智算中心。

纵观运营商动向,自今年以来,中国电信和中国联通相继在贵州、福建、广东等多个省份布局智算项目,以满足客户需求;而中国移动更是在8月底对外宣布,要建设亚洲最大的单体智算中心,表现出行业领军者勇立潮头的气势和实力。

此外,中国移动还从基础设施的角度有力地支持人工智能相关产业的快速发展,促进软件和硬件端的相关产业长期稳健增长。今年下半年,中国移动陆续对外发布了NICC新型智算中心体系和国内首个支持智算应用一键式跨架构迁移的平台——算力原生“芯合”,体系化推进智算成熟,促进智算生态发展。

融云筑基,提高智算能力输出

紧跟国家与集团的发展步伐,中国移动涉云业务的主入口——移动云正逐步打造特色智算产品体系,增强特色模型即服务(MaaS)能力,并为此不断加强智算基础设施建设。目前已实现多种能力输出,构成了全栈自主可控、行业领先的智算中心架构。

面向算力网络创造技术平台,移动云牵头构建COCA异构算力基础设施生态,以COCA为核心构建统一算力内核,打造端到端自主可控的算力基础设施网络,实现国产GPU、DPU、RDMA芯片技术横向融合;并发展高性能算力基础底座,提升AI大模型训练、HPC高负载计算效率,推进算力多样泛在。

为满足智算中心和数据中心网络流量规模不断攀升、吞吐量呈指数级增长和对应延时要求不断提高的需求,移动云以自研RDMA网卡、交换机、控制协议结合用户态协议实现端到端大规模高性能组网方案构建,打破算力互联瓶颈;同时基于乌蒙网络,分阶段打造云智算高性能网络技术方案,推动中国移动算力网络全面升级。

同时,以软件定义算力架构完成GPU算力统一封装,摆脱传统硬件单机交付无法扩展的弊端,形成可管、可控、可查、可调的GPU池化技术,打破基础设施层GPU资源虚拟化技术壁垒,提供灵活、弹性的异构算力服务,提升智算利用率,助力实现算力无所不达、无所不在。

此外,面对大模型庞大的参数量和数据量,移动云通过对接天权底座,优化元数据架构,实现了大吞吐、高带宽的高性能文件存储,兼容多个智算场景,满足不同的人工智能场景需求。通过构建算力抽象层,移动云还实现了多种AI芯片接入,统一接口,构筑硬件兼容广泛、训练表现优异的AI开发生态,打造随心接入的多元服务。

除多项智算基础能力输出外,移动云依托九天智能算力平台、COCA异构算力基础设施架构、磐石硬件体系合力锻造,形成“九天+COCA+磐石”的技术能力集,能够实现基础设施融合算力和AI生态的一体化整合方案,提供从算力到数据湖再到AI的统一管控服务,满足各类科研和智能服务企业在云上的数据开发、存储以及模型训练和推理需求。至此,中国移动全栈自主智算能力已初现雏形。

释放算力,加速应用落地

为顺应大模型时代对于云服务商的新要求,移动云通过加强智算基础设施建设、依托“九天+COCA+磐石”的技术能力集,充分释放澎湃智算算力,打造具有移动云特色的模型即服务(MaaS)能力。

深入融合行业解决方案,移动云MaaS能力目前实现了已有服务规模化落地,正在逐步探索、补齐大模型服务及平台,汇聚集团内外部优质模型服务,构建MaaS服务体系,服务互动娱乐、市场营销、视频安放、公共服务等多个场景,在大模型训练、自动驾驶、基础科研、金融等领域广泛应用。

例如,在汽车云车路协同解决方案中,针对智能驾驶技术在不断发展过程中对路况收集、各种传感数据分析以及网络响应时延提出的更高要求,移动云将路、站、边、云等系统组成一个大型数据处理器,满足快速控制、安全预警等场景要求,提供创新、高效的算网协同服务,在智能交通、智能城市、智能汽车等领域发挥重要的作用。

随着智能算力的持续提升,我们可以看到大模型已经开始与领域、行业深度融合,人工智能技术将更加深入地应用到行业场景中,智能算力将进一步带动产业发展,成为拉动GDP增长的关键力量。

运营商加强智算能力基础建设,既是对政府主导算力基础设施建设的积极响应,也是在为自己赢得高确定性的增长空间。面对加速到来的智能时代,各方都应该加快培育智算能力,把握新机遇,应对新挑战,才能更好地推动我国人工智能产业与智能算力发展,助力科技强国。