AMX加持，助第四代英特尔至强成为最适合AI的处理器-DOIT-数据产业媒体与服务平台

有研究显示，到2025年，新开发的企业级应用中有90%都会嵌入AI能力，人工智能的应用将越来越普遍。另外一组数据显示，数据中心里70%的英特尔至强可扩展处理器都在运行着推理工作负载。随着AMX加速器的引入，新一代至强还可以进行机器学习训练，也将更适合机器学习场景。

最适合人工智能的通用处理器

随着AMX加速器的引入，选择第四代英特尔至强可扩展处理器的用户，将在机器学习的效率和经济性方面迈向一个新的台阶，也将使得第四代英特尔至强成为目前市场上，最适合人工智能负载的通用x86处理器。

2023年1月11日，英特尔正式推出第四代英特尔至强可扩展处理器（代号“Sapphire Rapids”），凭借英特尔 AMX、英特尔 IAA、英特尔 QAT、英特尔 DLB、英特尔 DSA、英特尔 SGX、以及英特尔至强CPU MAX系列这七大“算力神器”，共同构成新一代处理器的最大特色。

加速器针对数据中心最常用的工作负载进行加速，它可以更高效、以更低能耗处理这些工作负载。以前需要多个核心完成的工作，现在需要更少甚至单个核心即可完成。这是加速器的最核心价值，也被认为是新一代处理器最吸引用户的关键原因之一。

发布后仅八周，采用该款产品的处理器设计数量创造了英特尔至强系列的历史纪录，其可用平台及出货平台数量也创下新高。如今，大多数主流OEM和ODM厂商都在出货基于该处理器的系统设计，前十大云服务提供商也将在今年部署基于该款处理器的云实例。

在新处理器得到越来越多应用的同时，一批采用新技术、、利用新处理器优势特性的案例也浮出水面。其中，关注度最高的当属人工智能引擎——英特尔高级矩阵扩展（英特尔AMX）加速器。

AMX：支持推理和训练，支持INT8和BF16精度

以ChatGPT引爆的新一轮人工智能热潮的背景之下，英特尔在新一代处理器的每个核心都嵌入了AMX加速引擎，使得英特尔至强不仅能用来做推理，还能用来处理一些机器学习训练负载，这也让英特尔至强成为最适合机器学习的通用x86处理器。

与上一代相比，第四代至强处理器推理性能提高了5.7-10倍

与上一代相比，第四代至强处理器训练性能提高了3.5-10倍

此前的至强通过AVX-512来提高向量运算性能，而现在的AMX则支持矩阵运算，计算效率得到大幅提升。

AMX支持INT8和BF16两种计算精度，两种使用频次都非常高。

其中，INT8常用于推理。众所周知，在日常生产环境中，推理的使用频次要远高于训练的次数，比如，每次刷脸完成身份验证、社交软件里每一次语音转文字以及文字转语音等都是推理过程。

混合精度浮点BF16也常用在训练场景中，并且使用频次在近年来逐渐增加。其主要优势是在可以在保持较高精度的同时，提高计算速度和减少存储空间。与AVX-512相比，每一个计算周期的计算性能都实现了大幅提升。

对这两种精度的支持，意味着至强处理器在实际应用中可以覆盖更多场景。

在互联网场景中的使用

阿里在淘宝中就使用了AMX加速器，其INT8精度和软件优化技术能够支撑淘宝的“地址标准化”服务。具体而言，就是帮助淘宝买家在填写收货地址的时候，提供相应的个性化提示，从而帮买家更快地填写地址。而在技术层面，这主要涉及到语义分析等技术，AMX则提高了语义分析的性能。

此外，阿里还将AMX的BF16计算精度用于手机淘宝首页个性化推荐的场景，配合软件层面上的优化，每天承载着高达亿次的请求，得益于AMX所带来的提升，最终性能达到了原来的3倍。

腾讯太极机器学习平台支撑的搜索和广告业务也基于AMX加速器实现了性能提升。其搜索不仅需要搜索的数量极多，同时也对搜索延迟的要求高。太极机器学习平台支撑的搜索业务部署在腾讯云上，所使用的云主机就基于第四代英特尔至强而构建，配合软件上的优化，不仅帮降低了所使用的CPU的数量，同时性能也有2到3倍的提升。

在生成式模型、大语言模型中的使用

从英特尔专家的介绍中了解到，注意力机制在现如今最火的生成式模型、大语言模型中应用的非常普遍，而恰好第四代英特尔至强可扩展处理器非常适合用于这些模型。

Stable Diffusion是AIGC领域最火的开源大模型之一，支持用自然语言生成图片。Stable Diffusion的技术构成上大量使用了注意力机制，而注意力机制需要矩阵相乘和指数运算能力。而新一代英特尔至强的AMX BF16可用于加速矩阵计算，AVX-512可以用来加速指数计算。

经测试发现，配合英特尔PyTorch扩展插件用Stable Diffusion，生成512×512图片吞吐性能提高了3.82倍,720P图片的吞吐性能提高了5.26倍。

在OCR场景中的应用

英特尔帮助更多企业独立软件服务商使用至强处理器处理OCR类的工作负载，实现降本增效。

比如，在亚信开发的电信智能营业厅方案中，用OCR来识别客户提交上来的身份证件和工商营业执照图片，OCR这种推理负载的需求量非常大，每年大概需要2000万次服务。当把业务迁移到第四代至强可扩展处理器上，并针对AMX做了优化之后，性能实现了3.94倍的提升。

用友企业ERP软件中有一个OCR模块，该模块主要是用于识别办公和财务领域发票内容，该业务每年需要支持3000万次的服务请求。当迁移到第四代至强可扩展处理器之后，结合AMX的优势，实际性能达到了原来的3.83倍。

金蝶的企业ERP也有一个OCR模块，当迁移到第四代至强可扩展处理器之后，一开始并没有使用AMX，只用AVX-512就有了1.65倍的提升。当用户对扫描精度要求更高时，就开始用AMX支持的BF16精度，不仅精度满足了需求，而且，性能也达到了原来的4.58倍。

医疗领域的东软也在用OCR技术来识别票据相关资料，当迁移到第四代至强可扩展处理器而不做优化时，性能提升比较有限，当使用AMX时，性能达到了原来的2.29倍，最后配合软件做优化时，性能达到了原来的4.46倍。

AMX加持，助第四代英特尔至强成为最适合AI的处理器

zhupb

相关推荐

近期文章

热门标签