国内可能要有闪存的寿命测试标准了，保持期待！-DOIT-数据产业媒体与服务平台

2021年全球闪存峰会上，7月30日上午举办的闪存测试与分析论坛，特邀出品人&主持人为华中科技大学“华中卓越学者”特聘教授，博士生导师谢长生教授。

论坛中，前有陈海主任介绍了国家标准测试技术现状和规划方向，接下来华中科技大学武汉光电国家研究中心教授级研究员，吴非教授具体谈到了关于闪存寿命测试标准制定的一些研究和思考，也可以说是未来即将发布的闪存寿命测试标准的前沿预告一起学习!

闪存的形态很多时就存在着很多问题，比如可靠性，比如寿命，如何对闪存进行评测和标准制定呢？

首先，为什么要制定标准？所有信息产业的发展历程是一条线路——第一阶段是解决从无到有的问题，没有CPU就造CPU。第二阶段是满足基本需求，产品能投入应用。第三阶段，掌握核心技术，参与标准制定，最后就是形成完整的产业链。

而形成完整的产业链一定是标准先行。

闪存的发展历程中，早期是各国乱战局面。2006年，由于接口不同，接口命令也不同，彼此之间无法兼容，六家厂商成立联盟——开放式NAND闪存接口，即ONFI。2007年，三星和东芝联手推出了Toggle接口标准。好处是后端使用芯片可以快速开发，真正落地到产品。ONFI和Toggle也就是我们现在用的闪存接口标准。

对国内的存储，从介质到控制器到设备及各类存储软件，我们已经有了一定的生态系统和产业链。围绕从下层到上层的过程也在制定不同的存储类标准，比如云存储标准，闪存标准等。

但协议和标准也存在一些问题。很多来自国外直接翻译，并且为了保证兼容性，我们无法加入自主协议。此外还存在测评体系不完善的问题，说明评价标准还没有评价起来。

比如我们有很多的SSD厂商，如何比较各个盘？这不是简单的0和1的过程，不同的SSD本来应用不一样，一个是消费级的SSD或企业级的SSD，或者军工级的SSD级，一开始针对不同应用时，设计主控的体系架构完全不同，比如用到军工时考虑的最关键因素是环境适应性，这时候需要牺牲性能，降低读写性能保证宽温的特性。闪存介质本身并不完美，因此我们要制定一系列的标准。

闪存是什么样的介质？

对于闪存来讲，增加容量有三种技术：

首先把楼盖高，采用堆叠方式提高容量。

第二是让房间里坐得“人”越多越好，采用了多位方式。

第三是房间里做得“人”越瘦越好，可以放得更多。

用这三种方式提高容量，我们看到的是“人”挤“人”，会导致数据存进去之后彼此之间的串扰增大，导致可靠性降低。

另外一个问题在于闪存的机理决定了会有寿命受限问题。对闪存来讲，存数据靠得是三层，写时把电荷往里写，会导致相关漏洞，存储电荷能力变弱，这是闪存存在的寿命问题。

多值存储时，让阈值电压分布变得很窄。写入次数增多，即PE增加时，阈值电压的分布在展宽，这时面临的问题是，两个数据之间进行交叉，数据会出错，其实是氧化层的磨损和退化造成的。

另外一个问题是，当采用3D方式时，单元间耦合电容变大，这就存在可靠性的问题。

到底如何衡量闪存的寿命？

闪存是数据存储的基石或存储的单元。硬盘唯一的缺点是数据能存就存，不能存就报错。而闪存是渐变退化的方式。何时芯片寿命终止？当PE次数增加时，PE的可靠性越来越低，阈值电压的展宽变大。当错误率随阈值电压漂移增加时，误码率越来越严重，当达到ECC纠错能力时就被认为是寿命终止。

ECC做纠错时有一个最大纠错能力，当达到最大纠错能力时会输出错误数据，这时输出的数据不可用，可以从这个角度判断芯片的寿命终止。

整个误码率最后和哪几个因素有关？和PE有关，但和读的次数也有关系。为什么会这样？从这些方面来看，我们是否有办法对闪存芯片进行快速测试，告诉大家闪存的寿命或属于哪个级别的闪存，给哪一类用户使用，这是我们想要做的一件事情。

我们发现，如果能建立一个规则的模型做这件事情很难，因为本来所呈现出来的所有的数据关系都是非线性关系。第二，不同批次的闪存，不同厂家的闪存所面临的现象完全不一样，没有办法统一建模。最简单的方法是机器学习的方法，可以用黑盒的方式进行表示。

除了编程延迟和擦除延迟可以判断寿命，还可以用原始误码率的总数，原始错误调和平均值等多元化数据的方式。

基于AI对闪存的数据进行预测，首先对闪存芯片进行测试。基于某些固定PE的周期实验获取序列数据集。我们采用的方式是每一个PE周期记录数据。这时候写入什么样的模式，然后采集特征数据集，在这个过程中，特征数据集采用得是刚才分析的数据，然后基于机器学习训练方法进行训练，在训练过程中采用GP（遗传编程）的算法和人工神经网络的方法，其实有更多AI的方面可以尝试。

关于输出，基于AI计算时输出可以选择，在输出过程中选了两类，一类是剩余寿命一类是百分比，进行动态学习的过程。

还有采用的另一种方法是CNN（卷积神经网络）的方法，好处是自学习、自适应、自组织，比较适合用非线性系统进行建模。关于如何对闪存寿命进行评测，我们写了一个基本框架，即对于闪存寿命测试的基本框架。我们也有不同的测试方式，这不一定完善，今天抛出来，希望各个厂商可以给更多指导意见。在试验方法方面，对故障的类型以及耐久力等进行测试，最后会形成一套评估方法给出对于该闪存属于什么样的等级和寿命，给大家做指导性的标准。

今天主要是抛砖引玉大家一起讨论，谢谢各位同行，请批评指正。

（本文未经演讲人审核）

国内可能要有闪存的寿命测试标准了，保持期待！

崔欢欢

相关推荐

近期文章

热门标签