【编者按:2025年3月27日,“2025人工智能基础设施峰会”在上海龙之梦万丽酒店盛大召开。本次峰会以“智能基石 创新赋能”为主题,由上海市计算机学会指导,DOIT传媒主办,算力豹、百易存储研究院、CXL技术应用俱乐部、上海市计算机学会存储技术专委会、上海交通大学计算机系支持,汇聚产业链上下游企业、机构及专家学者,共同探讨AI基础设施的前沿趋势、技术创新与应用,推动中国AI产业迈向新高度,会议同期还发布了算力全景图(2025版)分析报告。会场吸引近千名观众参加。

“2025人工智能基础设施峰会”会场
固态存储已在各类云计算、大模型场景广泛部署核心存储设备。

数据智能技术应用分论坛现场
在下午召开的数据智能技术应用论坛上,华东师范大学教授、博士生导师,上海市青年科技启明星石亮以“大规模固态存储盘故障预测及部署”为题,介绍了一种智能化的故障预测方法和部署过程中的优化技术实现预测准确率的大幅提升的同时,实现性能影响最小化。

华东师范大学博士生导师,上海市青年科技启明星石亮教授
以下内容根据速记整理,未经本人审定。
石亮教授:
尊敬的各位来宾,大家好!我是华东师范大学大数据智能系统实验室的石亮。非常荣幸能在这次人工智能基础设施峰会上,与大家分享我们在大规模固态存储盘故障预测及部署优化技术方面的研究成果。
大规模闪存存储系统背景
在当今数字化时代,闪存存储设备已经广泛应用于数据中心、消费电子等各类场景,成为现代存储系统的核心组成部分。从2008年我开始研究闪存存储系统至今,见证了闪存技术的飞速发展,其发展趋势主要体现在三个维度:一是从2D到3D再到4D的架构演进;二是堆叠层数的显著增加,从24层提升至300层;三是每单元多比特技术的不断成熟。这些进步使得闪存具备了轻便、高性能、低功耗等显著优势,推动了全闪存化在数据中心等场景的大规模部署。
随着闪存技术的持续演进,SSD介质正朝着存储高密度的方向发展,加速替代传统的HDD介质。在人工智能、大数据等全场景中,闪存能够提供更高效、更安全的存储能力,并且使用成本也不断降低。预计到2026年,国内企业级固态硬盘市场规模将增至669亿元,2022-2026年期间复合增速约为23.7%,而PCIe固态硬盘市场份额比例将在2026年进一步增至89.3%。

然而,在大规模部署闪存存储设备的过程中,硬件故障问题日益凸显。数据中心全闪阵列的年故障率可以达到约2.5%,而QLC等新型闪存设备的故障率可能更高。设备一旦出现故障,可能导致数据丢失等严重后果,传统的多备份方案虽然可以解决数据丢失问题,但却带来了高昂的开销和性能下降。因此,学术界和企业界普遍采用故障预测和恢复机制相结合的方案来应对这一挑战。
差异化的机器学习SSD故障预测研究
为了提前预知SSD故障,我们开展了一系列基于机器学习的研究工作。整个研究过程包括数据收集、数据预处理、特征选择和模型搭建等关键步骤。
(一)数据收集与预处理
我们从华为数据中心收集了超过20万个SSD设备的长期运行数据,时间跨度从2017年10月至2021年9月。这些数据按照NAND类型、容量分为六类,SMART信息则从固有属性、错误相关、工作负载、持续时间及磨损等不同角度进行分类。在数据预处理阶段,我们对收集到的数据集进行了清洗、归一化等操作,以确保数据的质量和一致性,为后续的模型训练奠定基础。
(二)特征选择与模型搭建
通过分析不同类型的SSD设备,我们发现MLC和TLC等不同固态存储设备的失效特征存在显著差异。例如,MLC的出厂坏块数量通常比TLC少,但其部署的应用类型可能导致其更容易出现故障。基于这些观察结果,我们提出了差异化的机器学习解决方案。该方案将SSD设备根据负载类型、使用时间、部署时间、容量、类型等因素进行分类,构建不同的模型进行故障预测。同时,我们引入了回溯周期和恢复周期的概念,以便更全面地捕捉设备的故障特征。
(三)实验结果与性能评估
实验结果表明,我们的差异化机器学习方案在故障预测方面取得了显著的性能提升。以随机森林算法为例,当召回率达到0.91时,精确度可以保持在0.81,相比较传统方法,查准率提升了约0.4,查全率提升了约0.35。这一结果远超现有数据,达到了可以商用的目标。
基于预测备份的RAID快速恢复技术

在故障恢复方面,传统的RAID恢复机制存在占用计算资源、影响服务且速度较慢等问题。为此,我们提出了一种基于预测备份的RAID快速恢复技术。
(一)技术原理与实现过程
该技术的核心思想是提前预测故障设备,并在故障发生前生成镜像设备。具体实现过程如下:首先,预测算法识别出可能故障的正样本设备;然后,预恢复机制使用备用设备与正样本设备组成RAID1阵列,在不影响正样本设备正常运行的情况下进行数据备份;在观察期间,RAID1在上层RAID5中作为单个设备运行,携带正样本设备上的数据,等待设备故障;最后,在正样本设备发生故障后,移除故障设备,保留镜像设备,从而实现快速恢复。
(二)实验结果与性能优化

实验结果表明,基于预测备份的RAID快速恢复技术在性能方面表现出色。在预恢复过程中,前台工作负载的吞吐量下降不超过正常吞吐量的93%,而镜像生成过程对前台工作负载的影响也较小。相比之下,传统故障后恢复机制会导致性能大幅下降,随机读吞吐量和顺序读取吞吐量分别下降到正常吞吐量的23.4%和23.9%。此外,通过调整模型参数,我们可以在不同的准确率和召回率之间进行权衡,以满足实际应用场景的需求。
总结与未来展望
总结而言,我们的研究工作通过差异化的多模型训练和基于预测备份的RAID快速恢复技术,有效解决了大规模闪存存储系统中的故障预测和恢复问题。在70万块SSD设备的规模下,年故障率为2.23%的情况下,我们的方案能够显著提升故障预测的准确性和召回率,并在故障恢复过程中保障系统的性能和服务能力。
展望未来,我们将继续深化在大规模存储系统故障预测与恢复领域的研究。一方面,我们将致力于精细化数据汇聚,从多个数据中心和供应商收集更广泛的数据,丰富数据集的多样性和时间跨度;另一方面,我们将研发更先进的模型,提升预测精度、扩展预测时间范围,并增强模型的通用性,使其适用于不同品牌和型号的SSD。此外,我们还将推动智能化方案的实施与监控,实现故障预测模型的实时监测与预警,并通过持续收集运行数据,不断优化和改进模型,为大规模固态存储系统的可靠性和稳定性提供更有力的保障。
以上就是我们在这次峰会上的分享,感谢各位的聆听!