AI大语言模型成功背后的全栈智能网络技术-DOIT-数据产业媒体与服务平台

以Chat GPT为代表的聊天机器人所表现出来的理解和推理能力让人惊叹，也让视频脚本、文案、翻译、代码，论文、邮件撰写等需要人类创意的工作变得简单。Chat GPT的背后是算力、算法和数据的支撑，按照国内云计算专业人士公认的一个说法：1万枚NVIDIA A100芯片是做好AI大模型的算力门槛，而A100的价格不菲。

根据研发ChatGPT的OpenAI公司的训练集群模型作为参考，1746亿参数的GPT-3模型，大约需要375～625台8卡DGX A100服务器（对应训练时间10天左右），训练一次的成本，需要花费460万～500万美元。这不是一般企业可以承受之重。

“别人笑我太疯癫，我笑他人看不穿;不见五陵豪杰墓，无花无酒锄作田。”

你看到的是结果和市场的潜力，我看到的是其背后巨大的花费和支出。如果说算力是Chat GPT等AI大语言模型必须付出的代价，那么，好钢就需要用在刀刃上，人尽其才、物尽其用，任何的效率低下和损失，所带来的损失将是倍增的效果。

压榨算力的关键并不在于CPU、GPU，其关键在于DPU和网络基础设施，试想一下，因为网络带宽和传输效率的问题，宝贵的CPU、GPU资源一旦出现等待，“没有声音，再好的戏也出不来”，在高性能计算领域，这样的情况就经常发生，考虑到规模，这样的局面不应该在AI大模型的应用中重演。

所谓专业的人做专业的事情，引入DPU与高性能的以太网网络平台和InfiniBand网络网络平台将是提高网络传输效率的关键，其中，高性能网络好理解，主要解决传输带宽的问题，因此关键在于DPU的使用。

通过集成ARM、ASIC和RISC-V处理器，NVIDIA BlueField-3 DPU可以对包括SDN软件定义网络、NGFW新一代防火墙、数据存储加速，DOCAFLOW 库、通信通道（Communication Channel）库、正则表达式（RegEx）库、App Shield SDK以及OVN IPsec 加密完全卸载等功能进行单独处理和加速，对遥测（Telemetry）、基于主机的网络（Host Based Networking）以及流量检测器（Flow Inspector）等功能服务进行了加强。如此一来，在降低CPU、GPU消耗的同时，大大提升网络处理和传输的效率。其中的原理也很简单，一来CPU、GPU不擅长处理这些事情，二来让CPU、GPU处理也消耗带宽的资源，增加等待的时间。

除此之外，DPU也被用于加速云计算，支持云托管更多虚拟实例；被用于多租户云的安全隔离，将业务应用域和基础设施域进行隔离，提供零信任安全的部署的平台；可以对Redis事务处理等进行加速，通过IPsec功能卸载，提升效率的同时，降低数据中心的能耗。

如果说，DPU的引入是关键，那么，DOCA 就将为DPU注入灵魂，这是一个面向DPU开发者的软件开发平台，如今，DOCA迎来了新的2.0 版本。

据了解，以后的BlueField 系列DPU都是运行在DOCA软件架构之上，它实现了底层硬件从驱动、库到相关的加速，很多功能都可以被卸载到DOCA，它向上提供编程接口，方便开发者利用DOCA进行编程。目前DOCA向下兼容以前的版本，比如最新发布的DOCA 2.0，也能运行在上一代BlueField-2 DPU上，差别在于有些功能没有办法完全实现。

DOCA环境非常体系化，分为SDK、RUNTIME运行时两部分，其中，SDK主要是驱动库、开发工具包括X86笔记本电脑上去模拟DPU构建的ARM开发环境，让你在笔记本电脑上也可以做DOCA的开发。而RUNTIME运行时提供了基本的DOCA服务，以及一些组件和一些已经写好的参考程序，用于帮助IT管理员和运维人员简化部署。

DOCA服务包括遥测等简单的功能，可以通过NGC可以简化部署，不用敲那么多命令行，几乎一键式就部署在服务器、甚至数据中心。通过虚拟化、迁移手段可以对不同硬件，比如x86进行迁移。

通过引入了DPA计算子系统（基于RISC-V），BlueField-3 DPU可以对设备仿真、IO密集型应用、高插入率、网络流处理和客户协议、集合和DMA操作进行了优化。

新的BlueField-3 DPU中改进了Regex 硬件引擎，增加了多项硬件增强的功能，如双向搜索，可以更快的找到自己需要的匹配相关内容的包；与此同时，在网络安全、应用软件/主机安全和应用协议识别和数据库加速等，新的功能非常有助于预防高并发的DDos攻击，实现高性能的恶意软件检测，有助于提升大语言模型AI训练的效率。

BlueField-3 DPU新增加了用于提升存储特性的SNAP v4，直接从DPU将相关数据交给GPU做训练，不用再经过CPU调度。未来，SNAP v4会被NVIDIA放在NGC，即可一键部署。

工欲善其事必先利其器，AI大模型也好，高性能计算也好，正在逐步演变为DPU之争，效率将会成功关键要素，需要引起足够的关注。

AI大语言模型成功背后的全栈智能网络技术

songjy

相关推荐

近期文章

热门标签