火山引擎用英特尔至强硬件加速技术，迎接Token规模化的成本挑战-DOIT-数据产业媒体与服务平台

今天我们在使用AI工具时，很少会关心每次对话到底消耗了多少算力和成本？然而，对AI服务商来说，这个问题却至关重要。因为随着用户规模和调用频率不断增长，Token成本越来越重要。

在国内，豆包是最典型的例子。有数据显示，豆包有大致1.72亿月活用户，是中国最受欢迎的移动AI工具之一。而在背后默默支撑豆包的，是字节跳动的公有云平台——火山引擎。

在火山引擎FORCE原动力大会，火山引擎总裁谭待宣布，“中国公有云上每产生两个Token，就有一个是火山引擎生产的。”这一说法的数据来自IDC，数据显示，火山引擎在2025上半年中国大模型公有云服务的市场份额高达49.2%。

但问题也随之而来，当需要大量产出Token，AI成本压力要如何得到缓解？答案并不在模型本身，而是在底层的基础设施，包括计算、存储系统等。今天，我们的故事围绕火山存储和英特尔至强硬件加速器展开。

CPU利用率飙到了80%！存储处理负担很重

故事的主角是火山引擎的存储系统。这些年，随着RDMA、万兆网卡以及NVMe SSD技术的普及，支撑火山引擎存储的CPU负载经常能达到80%。这其中，有将近1/ 3的操作都是压缩、解压缩、加解密和CRC（循环冗余校验）等高频操作。

在在线系统中，当CPU利用率达到80%，通常意味着CPU的调度余量非常有限，请求排队和尾延迟会被显著放大，系统对突发流量和抖动的容忍度明显下降，属于需要重点关注和优化的状态。

英特尔至强处理器的硬件加速器可以卸载部分处理负载：比如，用IAA来做压缩和解压缩，用QAT来做加解密和CRC，用DSA来做数据搬运、拷贝。这是从第四代英特尔至强可扩展处理器开始就引入的硬件加速器。

不看不知道，用专用硬件替换软件加CPU的方案，确实能带来非常显著的效率提升。比如，当用一个QAT设备来运行LZ4算法时，吞吐能达到大约3.7GB/s，而如果用单个CPU核心加软件，吞吐约为800MB/s，两者相差了近5倍。

Deflate比更LZ4压缩效率高，但算法本身更复杂，当用一个CPU核心加软件，吞吐只有可怜的100MB/s，想要保持高吞吐会消耗跟多CPU资源。如果换成一个QAT设备，吞吐能达到大约3.9GB/s，两者相差了惊人的40倍。

英特尔QAT硬件加速器能显著提高压缩效率，而且，无论是吞吐能力，还是压缩比上，QAT硬件加速方案都明显优于纯软方案。除了压缩场景之外，在加解密、CRC校验以及数据搬运等任务重，硬件加速方案也有类似的效果。

为充分利用英特尔至强加速硬件，火山引擎联合英特尔开发出veSAL

英特尔至强的硬件加速器虽好，但如何融入火山引擎存储架构则是另外一个问题。虽然现有开源方案也支持硬件加速器，但在功能完整性、系统适配性以及在线存储复杂场景支持等方面，仍无法完全满足火山存储的需求，因此，双方联合开发了veSAL。

veSAL（Volcano Engine Storage Acceleration library）是一个开源软件，主要针对火山存储中会高频出现、计算量大、对性能敏感的操作（比如，如压缩/解压缩、加解密）而设计。与此前ISA-L侧重于软件优化不同，veSAL则更擅长利用硬件加速器的能力。

veSAL目前包含三大组件，Codec是压缩/解压缩模块，支持lz4、zstd、deflate、zlib算法卸载；Cypher是加解密模块，支持AES-XTS和Sha256两种算法卸载；DataFlow是数据流模块，支持CRC和MemMove卸载。

veSAL的性能很强。通过为每个业务线程分配独立的Codec channel，把压缩任务所需的QAT硬件会话、上下文和加速资源封装成线程私有通道，从而彻底避免多线程之间的资源共享和竞争，实现稳定、可预测的极致性能。

搭配英特尔至强QAT硬件加速器之后，veSAL在压缩和解压缩场景的时延和吞吐表现都得到了极大提升，相较于原来基于单核CPU驱动veSAL这种纯软方案而言，优势非常明显。

在时延表现上，在LZ4算法中，纯软件方案在小数据块还有一定时延优势，但随着数据块变大，软件方案的时延呈线性增长。而基于英特尔QAT硬件加速的veSAL时延增长更为平缓，对数据规模的敏感度显著降低。

而在吞吐能力方面，在LZ4算法中，单CPU通过veSAL全力调用后端加速器，即可实现最高约20GB/s的压缩吞吐，相比纯软件方案提升30-50倍。在Deflate等高压缩比算法上，硬件加速带来的性能提升更为明显，同时时延表现也非常优秀。

火山存储veSAL实战：大量节省CPU资源，显著提升性能

在火山存储的一个时延敏感业务场景中，系统需要从网络端持续拉取16K至32K的大数据块。对于这种大数据块，如果直接用CPU驱动软件压缩，速度太慢，时延不达标，无法满足业务要求。

于是，聪明的工程师想到了办法：把16K数据块拆成4个4K文件，用4个CPU核4个线程并行做压缩和CRC，最后满足了时延上的要求。这种靠拆数据加上堆CPU核数的做法是第一阶段的方式。

第二阶段中，工程师开始引入veSAL，但处理逻辑没有变化，仍然是把它拆成4个4K数据块，然后对veSAL发4次请求。不同的是，这次实际干活儿的不是CPU核心，而是QAT，这样就省下了4个CPU核。

第三个阶段中，在用veSAL的同时，不再拆16K数据块，而是一次性把16K数据交给QAT。上文也提到，硬件做压缩时，即使数据块变大也不会显著增加延时。这一阶段不仅满足延时要求，省下了CPU核心，处理逻辑得到简化，而且压缩效果也更好。

另外一个案例显示，在高性能网络传输场景中，火山存储用零拷贝（Zero-Copy）技术来减少了数据搬运的开销，但零拷贝技术的数据在内存中呈现高度碎片化状态。这一特性给后续的数据校验（CRC）带来了挑战。

在原有的业务逻辑中，面对碎片化的网络数据包，CPU需要对每一个细碎的数据片段单独计算CRC，最后再将这些结果合并。如果改成先拼接，在计算CRC的话是无法满足时延要求的。所以，整个过程中，CPU必须要参与大量的计算工作。

当接入veSAL后，火山存储利用英特尔DSA硬件加速器的数据搬运与计算能力，重构了处理流程。它将所有零散的数据片段一次性发给后端DSA硬件加速器，在这里完成内存拷贝与拼接，同时并行完成CRC校验的计算。

如此一来，通过把负载卸载到专用加速器，整个过程中CPU不再插手数据的搬运与计算，于是，该业务场景下的CPU使用率从原本的7.2%骤降至0.47%。大幅节省算力的同时，也解决了时延的挑战，资源效率与服务质量双双得到优化。

结束语

可以看到，AI的成本问题，不只是模型或算法的问题，而是系统工程的问题。veSAL将压缩、加解密、CRC等操作从CPU核心卸载到英特尔至强硬件加速器上，帮助火山存储大幅提升了资源利用效率。

对于需要承载海量Token生成的云厂商而言，这种软硬协同的优化，正在成为降低Token成本、支撑AI产品规模化普及的关键。随着AI应用持续向更多场景渗透，可以预见，类似veSAL这样的工程实践还会不断出现。

火山引擎用英特尔至强硬件加速技术，迎接Token规模化的成本挑战