雷迎春解析达沃时代的分布式存储-DOIT-数据产业媒体与服务平台

12月9日，在DOIT传媒与存储在线联合主办的2016中国存储峰会上，北京达沃时代科技股份有限公司副总裁雷迎春发表主题为“新IT，新存储”的精彩演讲，他阐述了在新IT时代下，未来存储市场的发展趋势，并详细介绍了达沃时代自主研发的分布式存储系统。

达沃时代副总裁雷迎春精彩演讲

以下为雷迎春演讲实录:

经过了2016，有一些体会。总体来说，存储行业的大趋势是从第二平台向第三平台转移，第二平台有PC机、客户端服务架构、局域网和互联网。第三平台有云计算、大数据、分析和社交。转移过程当中整个信息技术价值已经从计算和业务驱动为中心，转向到以用户和数据为中心。

所谓”新存储”，第一是指分布式存储，第二是多种访问协议，第三是以闪存为中心，第四，应用定义。其实我们来看同样阵列也好，存储本身都是使用英特尔平台。硬件存储会用专用或定制化硬件，他们可能提供高集成度接口，可能会用定制化的东西，服务器里面会增加BBU，或者外面增加UPS，或使用好的服务器，硬件服务器主板会提高要求，通常情况下使用硬件存储。从软件上面来说，为了支撑硬件存储，会在软件上做很多工作，比如说内置分配，电源一起整合，每次申请内存都会看有没有足够电源。

分布存储可能会使用商品化服务器，比如Dell XC服务器。分布式存储更相信自己的软件，对系统的可靠性，对性能的保证。我认为分布式存储和阵列本身最大一个区别，应该是不同软件的哲学。

阵列里面一个进程只能看到直联的存储资源，所有资源是属于硬状态，当一个故障发生时候会发出一个信号，说磁盘故障，只能看到本地资源。而分布式存储不一样，每个介质有独立存在，整个OSD向Metosrv汇报，OSD存储之前呈现出抽象的状态。Metasrv不能直接看见存储资源，其上的Objects是软状态，存储故障可能在下一秒发生。软件协作是先天的。

达沃是分布式软件存储提供商，主要两个产品部署，一个是超规模，另一个是超融合，面向单数据中心和多数据中心，硬件平台用的商品化硬件。所以在IT发展上，看自身如何提供多协议和闪存与定义来适应存储要求。

达沃自主研发文件系统，比较受Google GFS影响，主要数据是元数据服务+对象存储服务组成。标准POsix语义。最开始元数据服务是HA，在2013年左右变成了三个节点，最多我们做了6个节点，在实验测试，我们做的这种分布式一个元数据，10亿级规模。存储软件比较早是以磁盘为中心，整个存储面向磁盘的，闪存为辅。

这是我们的一个软件结构，可以看到整个元数据设计比较复杂，实现文件系统的语义，同时管Objectmetasrv本身。整个来说元数据非常重，因为HA和存储HA是独立，自己要去实现存储语义以外，自己来做很重的事物，是分布式的东西，近似于在做一个分布式数据库的工作。右边我们整个I/O受元数据一个驱动，磁盘并不是说把简单把磁盘用I/O换过去就很好的I/O了，I/O模型并不能充分使用这个闪存，有必要去升级一下我们软件的结构。

这是达沃2.0软件结构，今年突然一下发现我们本身从10亿级规模到千亿级规模本身，软件数据规模太大了，怎么会一下子有这样的需求，用户把大数据提进去了，现在来说我们的4、5个项目千亿级项目本身，确认达沃软件要升级的事情。第二，各种应用并存，需要多种协议支撑，还有数据百亿级的数据化，生产型和非生产型在一个平台上，因为不可能迁移，有这样一个需求，以闪存来支撑整个系统本身。

达沃1.0有中心，怎么将其变成全分布式多中心，我们把软件分成了独立开出一个层次，在上面怎么来用上层使用。整个来说2.0是这样一个背景。这是我们对象存储一个结构，因为是中心存储，实现全对称元数据，管理对象状态，随着系统大规模增长，也不会担心状态受限于这个规模。

I/O第一次访问元数据，第二次可以直接跳到对象存储上面。对象存储本身支持混合存储或者全散，全散支持消重和压缩。这是我们的一个I/O框架，称为ROWS，独优化和写顺序。两种配置，混合存储和全闪存存储。ROWS（Read optimally，Writesequentially）读写分离，性能层服务绝大多数I/O。缓存，分离、压缩、消重。顺序写，到性能层的异步I/O写，到容量层的异步I/O写，读优化，自缓存层的同步I/O读，自性能层的同步I/O读。

我们这一块本身实现了缓存、分层支撑性能东西，可以看到几个配置，是有全散配置等等。

达沃的全分布式文件系统属于千亿级规模。这是我们分布存储最基础、文件存储地方调用对象存储的I/O，对象存储库把一个文件I/O变成一个对象本身往下扔，主要做的事情是File到Object的映射。元数据整个工作原理这样一个事情。每个MDU里面组织方式有定长部分，还有变长部分。通常来说每个节点分配8个MDU。我们MDU本身分散不同的MDU，名字空间动态分区不是基于子树，随机深成不同的MDU里面去。整个来说我们事物两种思路，一个是MDU思路本身，还有跨MDU，还有涉及超级大的目录操作，或者以千万单位的目录，跨MDU，整个操作都是事物型的。

在统一存储方面，由于达沃是做分布式文件系统出身，自然而然用文件方式管理资源。可以看到File Store的名字空间，还有Blob Store的名字空间，还有Disk Store的名字空间。BLob Store是File Store的简化。这是我们分布式对象存储，我们把Blob分成1K，所有1K放在Object，所有1K在一个地方。删除一个对象，只需要植一个位就可以。

磁盘比较简单，只是一个大块映射道不同的Object上。我们未来会做跨中心，还有混合云方面的工作。我们觉得这些年的体会，首先是存储需要多协议访问，一个存储池既需要通过NFS、SMB 、ISCSI 等等，还有数据的多协议访问，同一个数据可能需要被NFS访问到，同时需要被Web对象访问到，还需要Hadoop，未来随着这种流处理，在线处理分析一定是一种常态。所以我们认为本身要做出数据多协议，不仅是存储资源。

第二，规模和性能，全分布式系统本身是一个解决规模的问题。而闪存这边我们认为好的我们叫现成模式，或者通过I/O通道模式本身，才能把闪存发挥好，而不是简单的替换一个介质。

最后一个是应用定义，我们觉得超融合里面存储本身有一些人用的Lang，超融合里面经常给VM本身设定他的快照或者迁移，很多时候需要存储做配合的事情。

雷迎春解析达沃时代的分布式存储

zhangnn

相关推荐

近期文章

热门标签