液冷SSD，真的有必要吗？-DOIT-数据产业媒体与服务平台

你肯定见过给显卡上液冷的，毕竟功耗几百上千瓦，烧得跟小太阳一样，上液冷天经地义。但如果我告诉你，现在有人开始认真考虑给SSD也上液冷，你是不是会觉得有点大题小做了？

一块SSD才多大点功耗？二十几瓦撑死了，风扇吹吹不就完了？

还真不是这么简单。因为问题从来不在一块SSD上，问题在于，当你把几十块高性能SSD塞进一个1U的服务器机箱里，让它们7×24小时满负荷运转的时候，事情就完全变了味道。

今天我们就来聊一件事：液冷SSD，到底是厂商造出来的伪需求，还是一个正在步步紧逼的真问题？要理解液冷SSD为什么会被提上日程，我们得先搞清楚一个很多人忽略的事实，那就是SSD的发热量，这些年其实一直在悄悄增长。

SSD散热，正在成为一个真问题

早些年SATA接口的SSD，功耗也就大概三五瓦，产生的热量靠机箱里的空气流动就能轻松带走，根本不需要操心散热。那时候服务器工程师考虑散热问题时，优先考虑CPU、内存还有加速卡什么的，SSD排在最后面，甚至有时候根本不考虑。

但你看看现在。NVMe协议普及了，PCIe通道从3.0升到4.0再到5.0，马上6.0也要来了。每一代接口带宽翻倍，SSD的读写速度坐上了火箭，但代价就是，功耗也跟着往上蹿。

一块PCIe 5.0的企业级NVMe SSD，峰值功耗轻松超过20多瓦。你可能觉得20瓦不多。但一台1U服务器里可以并排塞进超过30块，每块20多瓦，光SSD的功耗就六七百瓦，跟一块显卡也差的不多了。这些热量全部挤在一起，而且是持续不断地产生。

现在的NVMe SSD内部，主控芯片是最大的发热户，它相当于SSD的大脑，里面集成了多个ARM核心和硬件加速器，负责处理FTL映射、垃圾回收、磨损均衡、数据加解密，干的活又多又重，堪比一个小型SoC。

然后是NAND闪存颗粒，写入和擦除的时候发热量很可观，而且随着3D堆叠层数越来越高，散热越来越难。再加上DRAM缓存芯片、电源管理IC，所有这些热源挤在一个巴掌大的PCB上，热密度高得吓人。

那温度一高会怎样？SSD又不会像人一样喊热，它只会默默的踩刹车。

当主控温度触及预设阈值，固件会主动启动过热保护，强制降低读写频率。性能曲线直接断崖式下跌。标称速度14GB/s，一过热可能直接掉到5GB/s甚至更低。对用户来说，这个降速是不可预测的，什么时候触发、降多少、持续多久，都取决于当时的热环境。

对于普通个人用户，这可能就是游戏加载慢了几秒。但对于数据中心里跑着的延迟敏感型业务，这种不确定性是致命的。

不仅如此，高温还会加速NAND闪存的电子流失，影响数据保存的可靠性；长期高温运行会加速芯片和封装材料的老化，缩短SSD的寿命。温度这个东西，就像慢性毒药，短期看不出来，长期还是非常要命的。

那你可能会说，服务器里不是有风扇吗？企业级服务器的风扇墙转速很高，吹出来的风跟小台风似的，还不够用？在过去确实够用。但现在的问题是，高密度部署把风冷逼到了墙角。

想象一下，一台1U服务器里，30多块SSD密密麻麻排在一起，中间的缝隙极其狭窄，空气想流过去都费劲。而且服务器里不只有SSD，还有CPU、内存、网卡，这些散热大户加热过的风，只能让SSD感受到温暖，指望着它散热，可就困难了。

这就好比大夏天你开着车，车在堵着，窗户开着，外面的热风灌进来，你把电扇开到最大档也不会凉快。SSD也是这个道理，当热到一定程度，你再怎么提高风扇转速，散热效果的提升也微乎其微，但噪音和风扇自身的能耗会急剧增加。

结果就是，你花了更多的电，制造了更大的噪音，换来的散热提升却越来越少，这就是风冷的尴尬。如果不换液冷就真的扛不住了。

液冷用液体代替空气来搬运热量，液体的热容量和导热性远高于空气，同样体积的水，搬运热量的能力大约是空气的3000倍。液冷早在大型机时代IBM就用过，只不过后来风冷够用了，液冷就退居幕后。现在，它又被请回来了。

SSD要怎么用上液冷？

目前数据中心里的液冷方案主要分两大流派。

第一种叫冷板式液冷。在发热组件上面贴一块金属冷板，冷板内部有精密的微流道，冷却液在泵的驱动下流过这些流道，把热量吸走，再输送到远端的散热器释放掉。液体全程密封在管路里，不和电子元件直接接触。本质上，它跟PC玩家给CPU装的一体式水冷是一回事，只不过工程化程度高得多。

第二种叫浸没式液冷。它把整台服务器，连同里面的SSD、CPU、内存、主板，全部泡进一种特殊的不导电液体里。热量从组件表面直接传递给液体，液体再通过循环系统把热量带走。听起来很疯狂，但它确实管用，而且效果极好。

那这两种方案用在SSD上，各自是什么情况？

先说冷板式。把冷板贴在SSD上，技术上完全可行，但工程上非常头疼。企业级SSD的形态五花八门，U.2、M.2、E1.S、E3.S外形各不相同，你得为每种形态设计专门的冷板和安装方式。而且，冷板加上管路会增加SSD的厚度，可能不能像原来那样塞进现有的服务器了。

但最大的难题还不是这些，而是热插拔。

企业级SSD有一个刚需，就是万一一块盘坏了，能直接拔出来换一块新的，不用关机，业务不中断。这在风冷时代很简单，拔线、抽盘、插新盘，运维人员闭着眼睛都能干。

但你给SSD接上液冷管路之后呢？拔盘的时候，你得同时断开电信号连接和液体管路，而且液体不能漏出来哪怕一滴。设计一个能做到这一点的连接器，技术难度和成本也挺高。这是目前冷板式液冷SSD最大的拦路虎。

再说浸没式。从SSD的角度看，浸没式反而更省心。SSD不需要任何改造，直接用市面上的标准产品往液体里一泡就行。液体包裹住SSD的每一个角落，主控、NAND、PCB板，全都能均匀散热，不存在局部热点。而且什么尺寸的SSD都能泡。如果需要，SSD甚至可以把自带的散热片和金属外壳去掉，进一步简化设计。

实测之后发现，浸没式液冷能把SSD的工作温度稳稳压在一个很低的水平，哪怕持续满负荷写入，性能曲线也几乎是一条直线，不抖不降。技术上确实漂亮。

但浸没式的问题在另一面。那种不导电的冷却液不能腐蚀和溶解PCB、焊料、标签、塑料件等部件。

然后要换一块SSD的时候，你得把它从液体里捞出来，擦干净，处理好，流程比风冷环境下复杂得多。

而且整套浸没式系统需要专门的密封槽、循环泵、换热器、冷却液管理系统，这些东西传统数据中心里根本没有，改造成本非常高。

所以你看，不管走哪条路，液冷SSD都挺麻烦。冷板式卡在热插拔接口上，浸没式卡在基础设施改造上。这就注定，液冷SSD不可能一上来就全面铺开，它只能先从那些不用不行的场景切入。

那到底什么场景是不用不行的？

第一个，极端高性能计算。

超级计算机里，那些跑气候模拟的、跑基因测序的、跑天体物理计算的场景，成千上万个计算节点同时工作。这些系统有一个关键操作叫检查点——定期把内存里的海量数据快速写入存储，防止计算中断后前功尽弃。

这个过程要求存储系统在几分钟内承受巨大的写入带宽。如果SSD因为过热降速，检查点时间就会被拉长，整台超算的有效计算效率直接下降。

而且超算里遵循木桶效应，最慢的那一个IO请求决定了下一步计算什么时候能开始。哪怕只有一块SSD因为热降频慢了一拍，整个系统都得等它。液冷能确保每一块SSD在任何负载下都跑在峰值性能，不拖后腿。

更现实的是，超级计算机本身就追求在有限空间里塞进最强算力，机柜功率密度极高，风冷早就扛不住了，CPU和GPU已经全面液冷化。

SSD作为系统的一部分，不可能独善其身，必须融入整体的液冷架构。在这个场景里，液冷SSD不是锦上添花，是刚需。

第二个，大规模AI训练。

训练一个大语言模型，需要反复、高速地读取TB甚至PB级别的训练数据。存储系统的读取速度直接决定了GPU能不能被喂饱。一块顶级AI加速卡动辄几万美元，如果因为SSD过热降速导致GPU空转等数据，那浪费的不是电费，是真金白银的算力。

而且AI服务器里本来就塞满了高功耗GPU，这些卡早就上了液冷。为它们提供数据缓存的本地NVMe SSD，和这些火炉挤在同一个机箱里。你给GPU上液冷、给SSD吹风扇，又有水管子又有风扇，显然又复杂又乱糟糟，把SSD也纳入液冷循环，才是正理。

第三个，超高密度数据中心和边缘计算。

城市土地越来越贵，数据中心运营商想在同样的面积里塞进更多算力。现在已经有人在探索单机架超过100千瓦的部署方案。到了这个密度，空气冷却完全失效，浸没式液冷成为首选。在这种环境里部署的所有设备，包括SSD，都必须适应液冷环境。

液冷技术点落地与普及，还差什么?

说到这里，液冷SSD的好处已经很清楚了。但一项技术能不能落地，光看好处不够，还得看代价。

最直接的代价是钱。不管是给每块SSD配冷板和快拆接头，还是建一套浸没式冷却系统，初始投资都远高于风冷。光冷却液本身，价格就不便宜。

液冷的支持者会说，虽然前期投入大，但省下来的电费、减少的空间占用、延长的硬件寿命，长期来看总拥有成本更优。这笔账理论上说得通，但实际算起来非常复杂，取决于电价、负载模型、硬件更新周期等一堆变量。让客户为未来可能省下的钱，现在就掏出一大笔，难度也不小。

第二个代价是标准化的缺失。冷板式方案目前没有统一的液冷接口标准，各家液冷厂商各做各的，用户担心被单一供应商绑定。企业级SSD的形态本身就多样，为每种形态设计通用液冷方案，复杂度很高。没有标准，就没有规模效应，没有规模效应，成本就降不下来。这是一个鸡生蛋蛋生鸡的困局。

第三个代价是运维习惯的颠覆。数据中心的运维人员习惯了插拔风冷硬盘，简单、快速、不需要特殊技能。换成液冷系统后，他们得学会处理冷却液的添加和更换，学会安全地操作带液体接头的设备，学会应对泄漏。

还有一个现实：目前绝大多数数据中心用户的SSD散热需求，风冷还能应付。真正感受到强烈痛点的，只是金字塔尖的少数玩家。市场需求没有爆发，SSD厂商和服务器厂商就缺乏足够的动力去大规模投入研发。

截止到，2026年，我也只看到了专注于企业级SSD市场的Solidigm推出了液冷SSD——D7-PS1010，这也是业界第一款液冷企业级SSD，它适合用在英伟达HGX B300这种液冷服务器里。作为第一款产品，这款SSD是采用了比较小巧的E1.S的规格，这样更容易维护。

其他的，要么是发烧友自己改装的非标液冷方案，要么是顶级HPC项目里高度定制的一次性工程，要么就是浸没式数据中心里标准SSD，直接泡在了液冷环境里。从产品化的角度看，液冷SSD还处在黎明前的黑暗里。但黎明前的黑暗，恰恰意味着黎明不远了。

如果要画一条时间线，我预测未来大概是这样的。

未来一段时间，市场上还会有高度定制化的形式液冷SSD方案，这主要用在全球最顶尖的超算中心和少数科技巨头的实验性集群里。浸没式方案也会有，因为它绕开了标准化的难题。

再往后三到五年，随着PCIe 6.0甚至7.0的出现，SSD功耗继续攀升，行业联盟可能会推出针对高密度存储的液冷接口开放标准，到那时候，可热插拔的冷板式液冷SSD会开始出现在主流服务器厂商的产品线里。

更远的将来，当数据中心整体液冷化成为常态，液冷SSD就会像今天的NVMe SSD取代SATA SSD一样，在高性能市场成为标准配置。

甚至可能出现把微流道直接做进SSD主控芯片内部，做到芯片级的直接液冷。到那个时候，回头看今天说的SSD有没有必要上液冷的话题，应该就像我们现在十年前讨论SSD有没有必要替代机械硬盘一样，答案不言自明。

所以回到最开始的问题：液冷SSD，有必要吗？这个问题本身就问错了。它不应该是一个有没有必要，而是要问什么时候要。

液冷SSD，真的有必要吗？

zhupb

相关推荐

近期文章

热门标签