DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

曙光信息产品总监石静:深耕·落地,超大规模分布式存储集群实践探究

按:12月3日,为期两天、由百易传媒(DOIT)主办的2019中国数据与存储峰会(DATA & STORAGE SUMMIT)在北京盛大开幕,与会专家对新一代关键存储技术趋势及数据创新应用进行了热议,大家一致认为数据智能将成为数字产业发展的关键推动力,驱动中国和企业数字化转型。

峰会第二天,共举行了十场分论坛。在“分布式存储与应用论坛”上,曙光信息产业有限公司产品总监石静以“深耕·落地,超大规模分布式存储集群实践探究”为题发表演讲,阐述了超大存储集群面临的技术挑战、如何基于曙光ParaStor构建海量数据存储最佳方案以及十多年来深耕细作行业的成功案例。

以下内容根据速记整理,未经本人审定。

图:曙光信息产业有限公司产品总监石静

石静:尊敬的各位嘉宾,大家下午好!今天听了很多同行专家们讲了很多产品,很有启发。也有荣幸站到这里,分享曙光公司对大规模分布式存储实践的探究。

海量数据存储  从云端到落地

近年来,超大集群建设需求逐渐增加,数十乃至数百PB数据共享,分布式存储机遇与挑战共存。

中科曙光的重点应对是三个领域。

一是先进计算,国家“十三五”规划的时候已经把先进计算纳入重点发展的范畴。先进计算包括常见一级计算云计算、智能计算等等。我们现在处于一个计算多元化的时代。随着5G商用的加速,边缘计算也大行其道,带给用户们便利的同时,其实也有海量数据的管理和存储需求。

第二,视频监控。视频监控也面临两个趋势,第一大趋势就是超高清,第二大趋势AI智能化,两大趋势都带来了数据大幅度的增长一个市级行政规模里面,一年可以达到数PB。

三是现在各行各业都做的数字化转型,数字化转型期间这种云存储资源池是IT建设必经之路。以运营商为例,一个资源池一年有数十PB规模。我们部署了一百多个节点,但真要管理数百PB规模的时候,对于产品和技术挑战也是非常大的。

超大存储集群面临的技术挑战

一是要解决超大存储集群里如何保障高效传输。二是集群大了以后承载的业务也是非常大的,性能需求也是迥异,一套存储怎么满足这种各个不同的性能需求,三是在超大规模里边如何能够保证一个安全可靠。

基于曙光ParaStor,构建海量数据存储最佳方案

曙光公司基于自研分布式存储系统ParaStor,结合多年技术积累,市场耕耘的市场经验,打造一个整体的解决方案,其特点是涵盖海量数据管理、高速网络技术、存储协议栈优化等,超大规模部署实践经验,数百个存储节点,数万个计算节点,7X24小时稳定运行,成功在先进计算视频监控商务信息等各个领域有大规模甚至超大规模的部署。

在应对上面三个挑战的时候都是怎么做的,接下来给各位逐一分享。

1)精细化控制,高效率的实时保障

集群交付的高效。分布式集群内部存储节点之一,业务客户端和存储系统的交互信息需要在每个节点实时同步。我们可以有N个节点,N个节点和N减一个节点进行交互,首先是拓扑视图,我们需要知道节点位置和磁盘位置,每一个节点运行状态,节点性能指标需要同步,N个节点增加的时候,我们通信是非常大的。ParaStor不再是基于节点做的,而是以小组作为通信,通信增加了颗粒度,增加颗粒度的方式减少通信的次数,能够做到秒级更新。此外交互的过程中肯定存在某一个时刻有多个源向同一个目标交互,我们加入了随机因子,可以避免多个源向同一个点同时交互,避免冲突的等待。

另外,分布式存储里面所有的数据传输交互都是基于网络链接的,在一些性能的场景中大家都会用到RDMA协议,RDMA协议每一条网络链接都是需要分配内存的。一个直观的认识,如果说我有一万个计算节点,需要和某一个节点建立交互的,光建立一万个链接就耗费50G内存,系统资源有限的,对于整个网络通信是不稳定的,我们怎么做的呢?我们在这里边不再说每一条单独分享内存,分配内存的时候先分配一部分,等到用完再分配,这样降低资源的消耗,实践中带一套集群里面,每一个节点配置128G内存,这是交互的高效性。

为了保证多个客户端访问到数据实时更新的,需要一致性。ParaStor借助分布锁的机制保证数据一致性,每一个请求的时候都要带一个锁资源。当集群规模很大的时候,光是维护这些锁的资源开销非常大。整个维护锁资源的服务器是集群模式,可以出发锁请求的服务器很多的,并发服务的,这样就相当于增加了锁的数量,提供锁服务器,可以优化锁的申请和释放队列每一个锁服务器可以提供的并发度也是提升的。

这是应对第一个挑战。

2)多维度优化,满足多样化性能需求

智能预读。对于多样化的性能要求,运行一段时间后,存储系统可以智能识别业务的IO模式,是一直连续的,还是一直是随机的,是4K访问还是1M访问,获知这种IO模式以后,存储系统可以自适应采用不同的方式给不同的应用不同的加速引擎。

多层加速。整个的IO链路上有不同级别缓存的,从业务客户端的内存到存储节点的内存,三个不同级别里边根据数据热度进行不同的热度缓存加速,有的业务用到分级存储,我们实现跟大部分产品一样的功能,基于一个文件一个策略,比如说什么是最后访问的,文件大小多少,符合文件属性的迁移到热数据或者冷数据区,在此之上做到更细的监控,根据文件某一段经常访问的数据,1G文件里面128K做一个迁移。大家都知道虽然现在SSD的成本大幅度的下降,但是资源总是有限的,而通过这种方式可以提升整个系统的效率。

智能QOS。大规模系统里面业务的性能需求是各异的,总有那么一些VIP业务对性能要求是不一样的,用户也不希望所有的业务都同样去用存储资源。通过智能的QOS带宽的服务能力,保证关键业务的业务资源。这种方式多维度的优化可力争做到以不变应万变,不管业务怎么变都可以提供稳定可靠的性能。

3)超大规模 安全可靠

大部分的产品都有多种冗余机制,从部件到网络到数据的冗余方式,不管如何去冗余,去保护在大规模系统,但总有故障的时候。当出现故障的时候也不可怕,曙光能够做到快速的故障切换,快速进行业务的切换,去保证业务的连续性。这里边我们就是利用刚才讲到的保证集群,交互高效率,通过拓扑及时更新保证故障及时切换。

大规模系统里面有这么一种场景,如果一块盘不能读了就是不能读了踢出去就好,有一些盘不能读了还能响应你一会儿。有一些时断时续的方式,还有一些假死的,这些节点网络会成为害群之马,不管你也不行,还给我通信,管你总能影响我性能。这是非常致命的,我们的处理方式监控到数十种亚健康的状态,网络节点亚健康及时割裂出去。上午有很多同仁讲到海量小文件性能优化问题,这里边提一下修复过程中怎么去优化海量小文件的修复性能。我们在ParaStor底层可以直接管理到物理磁盘,底层可以做一个小文件聚合,实际的效果我们1KB小文件修复性能可以达到一个小时每秒,大家想一下什么概念,我们一般都是说大文件修复的时候,一个TB三十分钟,小文件可以做到一个小时,极大提升可靠性。

4)多套集群统一管理,运维无忧

大规模集群里面还有一种场景,不是说单一系统就上一百个PB,或者50个PB,有多套集群,比如说视频监控,每一个县级市或者地级市都有这种存储需求,不是很大一个集群分散在多个地方的集群,这种情况下对运维管理人员来说,肯定希望能把这些集群做一个统一管理。ParaStor内置管理软件,可以做到这一点。给大家放一个图,中间这一块,不管是买多少套ParaStor,只要有我们标准软件的话,就会提升这个功能,我们在一套系统同时管理最多64套集群,管理起来比较方便的,只要是我的管理网络可达,就可以监控起来,提供标准的API接口,用户可以定制属于自己的监控平台。

以上就是我们大规模集群里面的优化,都离不开我们多年以来在技术上的积累。

十年历程 深耕细作

ParaStor从2009年发布以来,经历了十年的历程,产品做了四次迭代,2012年第二代产品融合了NAS,随着云上来集成了对象接口,2018年是我们的分水岭,当年发布了全新一代支持全对称/非对称架构支持文件/对象接口,2019年融合了iSCSi接口,分布式统一存储。我们支持块接口比较晚,一方面我们的产品的规划,另外一个方面是我们对于产品的定位。我们深耕细作的,不仅做一款产品,更是把产品和应用做更好的适配,现在已经在九个应用领域里边得到广泛的应用,也取得了不错市场表现。

这是我们的典型应用,大家可以看一下.

最后给大家分享几个典型案例。

首先讲到就是说第一个大规模场景先进计算,曙光公司致力于各地先进计算的建设。在先进计算中心里边有大规模数据存储需求,举这样一个例子,先进计算A中心和先进计算B中心。可以看到A中心已经部署了100PB存储容量,存储节点260个,支撑的节点13000个。中间是一个地球模拟装置,这里边要求节点数不是很多,有一个性能指标聚合带宽达到1TB每秒,已经成功做了验收并实施一段时间,承载的业务150类业务。这是先进计算。

看一下中国气象局,这一套用于叫做PAI系统,气候变化支撑系统,聚合带宽200GB/s有23PB存储空间,2017年做的,3000个客户端,部署以后,两年稳定运行。

看一下石油行业的案例。众所周知,石油行业是典型的一个HPC应用,对性能存储要求极为苛刻的,对存储空间使用极为苛刻.系统上去以后,出到多少GB带宽很容易,石油行业里边经常把存储空间用到80%,90%,要求你的存储性能不能有任何下降的。ParaStor在中石油中海油中石化部署了三十余套,累计存储容量40+PB,对专业的石油软件,GeoEast、CGG做到代码级的优化,当存储使用率达到85%甚至以上的时候性能是没有任何损耗的,这是石油的案例。

在智慧交通领域,京雄铁路综合视频监控项目。我们每天坐高铁有一些沿途线路,每一个沿途线路都会放一套存储有视频图片文件,以前的方案都是用SAS存储,京雄铁路SAS存储换成了我们分布式存储,铁路每一条铁路沿线都会放PB存储空间,多套集群统一管理。

今年一直做的,相信友商的很多同仁知道这个项目,就是利国利民关系国计民生的好事,就是取消省界收费站项目,广东为例提供了70余套ParaStor。40个路段,38条高速路合计700个龙门架提供存储资源。

最后一个是智慧医疗的案子。今年上半年,曾经在央视网上曙光公司的一个机器人,AI机器人去真正的取代医生去做一些病人的检测,这个就是机器人背后用了ParaStor系统,天坛医院在这系统里面有一个成功应用,给用户提供7PB在先存储能力,支撑序列比对拼接。

我的分享就到这里。

技术不停,我们曙光ParaStor也不会停,希望我们未来产品和各位友商产品一起服务于整个的社会,也能够去创造更多的价值,谢谢大家。

编后:本次2019中国数据与存储峰会(DATA & STORAGE SUMMIT)为期两天,包含主论坛、CIO高峰对话,以及大数据、闪存系统、分布式存储、第二存储与容灾备份、超融合与云存储、人工智能、数据创新与安全可控、容器创新与应用、SCM第五代存储与闪存控制器等十大主题论坛,超过100场的专业知识分享。初步统计,本届峰会吸引了来自政、企、产、学、研、媒体等各方参会者约2000人,在线直播观看观众再创新高,超过10万余人次。

未经允许不得转载:DOIT » 曙光信息产品总监石静:深耕·落地,超大规模分布式存储集群实践探究