DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

Shared Everything的分布式存储,来了!

引子

11 月 17 日,北京首钢园,XSKY 星海全闪架构暨星飞存储发布会现场,“星星之火”、“数据常青”道旗映入眼帘,初以为只是一个口号,但我并没有意识到:其与接下来的令人惊叹发布间的必然联系。

那么,为什么说这次的发布内容令人惊叹?

答案是:它或许能够给现在的企业级存储市场带来翻天覆地的变化。

所谓星星之火,蕴含着从XSKY发布星海全闪架构开始,存储市场都会追随其脚步,引发一场彻头彻尾的存储产业革命

XSKY就有这样的格局和自信。

请问XSKY的自信从何而来呢?

数据常青不是口号是使命

XSKY的自信来自数据常青的使命感!也正是这种使命感,推动XSKY产品技术不断向前!

什么是数据常青?数据常青的含义是什么呢?

这不是XSKY第一次提数据常青,此前我也听到过,但没有像这一次,真正意识到深奥含义。

XSKY星辰天合CEO胥昕

对于数据常青,XSKY星辰天合CEO胥昕给出的解释是:数据存储,古老但常青。在这里胥昕提到了“数据平权”的概念。

“以数据训练为例,所有的数据都同等重要,不能说一部分数据很快,而一部分数据很慢,对于存储系统而言,全部数据存取需要同等的可靠性和稳定性。”胥昕说。

理想丰满,现实骨干。

在现有生产和实践中几乎没有办法做到“数据平权”。与“数据平权”相对应的,我想应该就是数据分层,根据数据重要性的不同,区分为冷热温数据,对应不同的存储技术。其中,采用专属硬件设计的高端存储,价格最为昂贵,可靠性、稳定性有保障,质保周期通常为6年以上。

与之相比,分布式存储以通用硬件为基础,借助横向扩展的设计,满足海量数据存储和数据处理的需求。但通用硬件的质保周期近有3年,3年以后呢?其上的数据还能够做到数据常青吗?

“我们的用户中,如光伏用户、医疗行业的用户,对于数据常青的要求是40年,甚至60年,需要能够在浩如烟含的数据中,准确查找、定位到所需要的制造数据、医学影响的数据。” 胥昕说。

现有的存储做的到吗?做不到!

那么,是什么制约了“数据平权”的实现?

带着这样的思考,最终就有了XSKY星海架构(XSEA)的诞生!

星海架构(XSEA)的创新和突破

XSKY星辰天合 CTO王豪迈历数了现有存储系统的三大障碍:可靠性低、QoS不足,以及存储成本太高。

以可靠性为例,在多核、PCIe、GPU、DDR5以及25Gb/100Gb网络的加持下,现在分布式存储性能,延迟已经缩小到100us的水平,不逊于高端存储,但是对于异常故障的回复时间,始终没有办法突破,维持在10S左右水平。

在性能方面,分布式存储始终存在P99(99%的调用时延都在某个值以下)的问题,也就是说,存储系统在99%时长可以保持性能稳定,但是总有1%的可能会出现性能异常,访问缓慢。特别对于关键业务应用而言,对于可靠性求达到5个9(99.999%),1%的性能抖动是完全不可以接受的。

以前谈存储性能抖动的是SSD垃圾回收,它可以通过策略加以解决,但是此处的P99是分布式存储的痼疾,有的分布式系统甚至只有P95(95%),完全达不到应用的需求。

此外,全闪存产品的价格始终和磁盘系统保持4~5倍的距离,没有办法普及。分析其中的原因,胥昕指出:磁盘技术也不不断进步,如今20 TB、22TB已经常见,这就是使得GB/$成本保持占优,闪存始终没有突破。

解铃还须系铃人。

问题需要从存储软件架构进行突破

在过去的8年间,XSKY星辰天合不断磨砺新的星海架构(XSEA),不断进行新的技术突破,主要集中在以下三点:

一是Shared Everything的全共享模型,每个节点都能直接访问所有 SSD,提供更好的性能可扩展性和服务质量,并且拥有全局视角的逻辑;

二是采用单层闪存介质:采用 Append Only 写入,面向 TLC NVMe SSD 优化,减少硬件配置复杂性;

三是端到端 NVMe设计:不仅存储系统对外提供 NVMe-oF 协议,内部复制网络和 IO 处理也同样采用 NVMe-oF 技术,确保 IO 路径的高效处理。

借助以上三项技术突破,星海架构(XSEA)实现了 3 个 100

• 能够在 40%-60%负载下实现 100 微秒的超低延迟;

• 通过全局 EC 和数据压缩技术可以实现超过 100% 的存储系统得盘率(可用容量/裸容量);

• 针对慢盘、亚健康网络问题时,能在 100 毫秒内快速切换,以保证系统的稳定运行。

有了这3个100,就突破了分布式存储原有的三大痼疾

这在技术上也并不难理解。

为什么现有分布式存储会有P95、P99的问题?为什么会有高达10S的故障排查?原因很简单,因为分布式存储采用通用的硬件,通用的服务器,通用的以太网络,而以太网丢包就是常见的问题,无论采用多副本,还是EC,当数据出现丢包的时候,就意味着个别数据写操作没有完成,从而拖累了系统整体的性能,而性能抖动也是类似这种数据盘写操作的亚健康状态引起的。

对于传统分布式存储而言,存储节点之间不是Shared Everything,也就是说,数据盘对于其他节点不可见,需要节点之间进行协同、排查,因而性能差。通过采用新的星海(XSEA)存储架构,全部数据盘对于所有节点都可见,当再次遭遇亚健康的时候,无需等待,直接剔除反应缓慢的亚健康盘,就可以将异常排查从10S缩短到100ms。

此外,有关GB/$也得到了解决

因为有了Shared Everything,一来可以实现全局EC,大大提高盘的利用率;二来因为Shared Everything,从而消除了对于DWPD= 3 SSD缓存盘的需要。也就是以上所说的单层闪存介质,全部采用低DWPD= 1 的SSD介质。

可以预见,因为星海架构(XSEA),这个存储产业的面貌会为之一新,星星之火,必然会成为燎原之势。

我对星飞全闪存储的困惑

基于星海架构,星辰天合在本次发布会上发布了星飞软件和星飞 9000 一体机全闪存储,这也是业界首款采用全共享架构的分布式全闪主存储。

星飞 XINFINI 9000 一体机全闪存储

星飞软件继承了 XSKY SDS 块存储和文件存储的成熟能力,提供统一存储平台,支持融合部署,可以为虚拟化、私有云、OLTP、HPDA、AI/ML 等场景提供支持;星飞 9000提供一流的全闪存储性能、集中式存储的可靠性和出众的空间效率。

在此次发布会现场,星辰天合携手客户与合作伙伴,重点演示了 NVMe DAS 对比测试、集中式全闪对比测试、公有云高速云盘对比测试三种场景。

星辰天合联合英特尔实验室,测试了面向 OLTP 数据库场景的 NVMe DAS 对比场景。英特尔中国区解决方案部技术总监高丰表示,经过双方联合测试,借助 QAT 加速数据压缩/解压缩的强大能力,与 NVMe DAS 配置相比,星飞 9000 获得相同延迟的同时,还可以实现更高的空间利用率,并大幅降低运维成本,提升业务连续性。

在面向 OLAP 数据库场景的集中式全闪对比场景中,星辰天合与江苏省农村信用社联合社(简称:江苏农信)进行了联合测试。江苏农信信息科技部云计算专家曾光明表示,经过测试,部署星飞软件的分布式全闪集群,跟混闪存储相比有着巨大的性能优势,与既有的集中式全闪性能基本持平,这样大幅的的性能提升,让江苏农信对全闪数据中心的实现有了巨大的信心。

越来越多的客户正在关注多云化 IT 架构,特别是数据密集型业务的下云方案,而既有的集中全闪和分布式存储产品都无法很好解决客户在多云存储规划上的挑战。经过与某互联网客户的联合项目测试表明,在公有云高速云盘的对比场景测试中,星飞全闪产品能够实现云上云下一致的数据服务,可提供更高的冗余度和可靠性保证,并且将整体拥有成本降低 50% 以上。

尽管如此,但是此次星飞 9000全闪存储一体机的设计方式,还是在一定程度上影响了我对星海Share Everything架构的理解

我的理解中,高端存储是Share Everything的架构,好处在于系统管理颗粒度可以精确到盘,可以通过RAID对数据盘进行保护;与之相比,分布式存储是通过多副本或者纠删码进行保护,也可以对故障数据盘进行更换,但如果存储节点出现故障,势必牵涉到众多数据盘的集体恢复,其管理颗粒粒度应该就是存储节点。

这也是双方的差距。

星海Share Everything架构的设计突破,是不是跨越了管理颗粒度的障碍呢?

如果仅仅从星飞 9000设计来看,似乎这个问题并没有得到解决。

为此,我也请教了存储大咖西瓜哥,他解决了我的困惑。他的解释是:目前星飞 9000采用的是集成一体机的设计,外观上和以往产品相似,但是核心其是已经是脱胎换骨了!未来,也会有分散式部署的产品形态,那时候,颗粒度的问题就得到了解决,完美媲美集中式存储!

小结

纵观存储产业发展,从直连存储到网络共享存储,再到分布式存储,每一次存储架构的变革都带来了翻天覆地的变化,也带来了存储整体成本的不断降低,深刻影响产业发展的格局。这有些类似当年互联网应用架构,从C/S到B/S架构的转变,基于HTML和HTTP标准迅速普及开来,推动了互联网应用成本的急速降低和大流行;从大型机、小型机到x86标准化服务器的变革,推动了算力的大发展,而到了云计算架构时代,让算力成为了更为便利使用的能力;在芯片领域,从封闭的主机芯片、相对封闭的CISC芯片,到开放乃至开源的ARM架构和RISC-V架构,不断地将芯片设计的成本大幅度降低,大幅地推动了芯片的无处不在的使用。

存储架构变革也是如此。如今 XSKY星海架构(XSEA)的发布,将存储架构变革带到了Share Everything的门前。从Share Nothing到Share Everything并不是简单的技术升级,而是一场从里到外的革命。因为Share Everything,分布式存储的计算和存储将实现彻底的分离,计算不足扩计算,存储不足扩存储,不仅如此,更为重要的是,它突破了影响分布式存储技术应用的三大痼疾,从而让存储的面貌为之一新,也必将开创并引领存储产业的新局面

这算不算令人惊叹?

让我们跟上技术发展的步伐!

未经允许不得转载:DOIT » Shared Everything的分布式存储,来了!