数聚AI,市场领先:浪潮信息存储构筑智慧未来

Gartner 2023年第二季度市场报告显示,浪潮信息存储装机容量以10.7%的份额位列全球前三,成为承载用户数据最多、数据存力贡献最大的存储厂商之一;企业级存储销量也以接近14%的市占率继续保持国内第二,其中分布式文件存储以21.5%的份额位居国内第一。

浪潮信息存储产品线副总经理刘希猛

“这些市场成绩的取得,离不开过去这些年浪潮信息在整个存储领域持续的研发投入和布局。”11月29日,浪潮信息存储产品线副总经理刘希猛在2023中国数据与存储大会上发表题为《数聚AI,智慧未来》的主题演讲中分析成功因素时指出,公司在器部件、集中式、分布式等各方面持续投入、迭代演进,无论是硬件系统、核心软件还是管理软件,都可实现基于客户应用的全栈定制;基于跟业界众多合作伙伴的联手,实现了存储网关、云存储、备份存储、归档存储、数据库一体机等各种专业存储产品的定制开发,提供了满足客户需求的全栈解决方案。

应对AI时代 数据存储新要求

人工智能时代,内容的生成源于数据,浪潮信息可提供经过验证的全栈方案。作为国内AI/HPC领域的领先厂商,浪潮信息致力推动数据要素和人工智能模型结合,促进算力基础设施建设。

今年8月。浪潮信息发布了OGAI大模型智算软件栈,从算力基础设施的集群系统环境部署、算力调度保障到模型开发管理各领域降低算力基础设施的建设门槛,帮助用户加速大模型的开发效率,保障大模型的生产和使用。当然,OGAI的框架对存储也提出了新的要求,这些要求集中在数据的搜集、准备、训练、推理以及归档五个阶段。如在数据归集和数据准备阶段,由于模型从过去的文本模型向图片、视频等多模态模型演进,数据类型越来越丰富,数据量也越来越大。

据了解,浪潮已经支持一家训练数据集达到了1PB的客户,这意味着原始数据已经接近10PB、包含了千亿数量的文件,同样参数量的模型里采用视频或者图片的训练数据集是文本集的100倍。而训练和推理阶段对存储需求集中体现在性能方面。PB级的训练数据包含了千亿数量的文件,在训练开始之前,要把文件目录信息全量加载到系统中,同时,GPU在训练过程中可能出现断点、故障,需要对checkpoint数据进行快速的保存和加载。浪潮信息存储系统可提供超200GB/s的读写带宽,超过300万的OPS,提升训练效率。之所以能满足这样级别的人工智能应用需求,是因为浪潮信息此前已经将自身的分布式融合存储、AI/HPC算力服务器,以及11月27日正式发布的源2.0的模型等,都在这样的系统上进行过训练、推理,积累了丰富的经验。

分布式、集中式并重,以存储平台筑基存力底座

浪潮信息秉承一体布局,分层解耦的理念助力数据中心的建设。在数据多元化、应用多样化的背景下,不同的CPU、GPU或者XPU上将运行千行百业的应用。如何以一套架构能够满足多架构、多元数据的存储要求,同时也能够提供持久的存储,灵活的扩张?刘希猛表示,分层解耦就是为应对上述问题而推出的解决方案。首先是云数分层。

当前,20%的用户数据部署的混合云的架构,未来3~5年后占比将达到60%以上。要保持用户数据在云上云下的自由流动,就需要对数据和公有云之间进行解耦。其次,是云存解耦,专业存储,除了具备自动归档的能力、能够满足存储可靠性的要求,同时也需要符合国内安全政策监管的要求。三是存算解耦,让存储和计算可以按比例或者按需进行扩展,降低部署的TCO。四是资源解耦,根据不同应用来选择不同资源。如针对极低资源的需求,可通过资源解耦,让效率发挥更好。总体而言,对数据中心分层解耦,可实现开放协同、精准计算、智慧有数。

为此,浪潮信息提供了分布式存储平台和集中式存储两大平台,不论是在数据中心方面还是存储系统方面,都可以提供安全可靠、经济、高效的数据基础设施。

1.分布式存储平台 融合高效

分布式存储平台的优势是融合高效,实现核心能力做多协议的互通。浪潮信息分布式存储平台提升了部件性能、可靠性,盘控协同,对外服务的能力大大提高。无论是高性能的文件、或大容量的对象,还是大数据的原生等智能分析应用中,未来分布式融合存储都将成为数据基础设施建设的关键支撑。

今年5月,浪潮信息发布了AS13000G7平台,可以实现五种协议的统一部署,其中非结构化协议支持数据互访互通,做到真正的数据融合,同时也实现了闪存、磁盘、磁带、光盘等不同存储介质之间的管理融合。

8月份,浪潮信息发布的AS15000G7,是面向AIGC全阶段场景的高性能分布式存储,可以更好地满足用户在AI场景下对于性能、容量等方面的苛刻要求。两款分布式新品的发布,标志着浪潮信息单节点可提供上百GB的带宽,实现上万节点EB级的容量扩展,真正满足未来非结构化数据爆发的增长需求。除了这两个产品的发布,7月份浪潮信息也发布了面向生成式AI的存储解决方案,通过全闪节点满足训练、推理要求,提出全闪热数据和温冷数据之间在未来的算力基础设施中做好配比。11月30日,由中国电子技术标准化研究院、存储产业技术创新战略联盟、华中科技大学、浪潮信息等23家单位共同编写的《分布式融合存储研究报告》重磅发布,意味着越来越多的应用场景需要融合存储作为数据底座来支撑,融合存储将迎来重大发展机遇得到了产业界的广泛认可。

2.集中式存储平台 可靠高效

集中式存储针对客户追求稳定可靠、极致性能以满足自身关键的业务需求。浪潮信息的集中式存储解决方案主要包含高端HF18000系列、中端HF6000系列、HF5000系列以及低端的AS2000系列。

在可靠性方面,浪潮信息从防护、预测、隔离三个层面进行了全面加强。例如,支撑某银行超1000套部署,支撑两地三中心的业务。

在性能方面,浪潮信息不断打磨以iTurbo为核心的加速引擎,通过IO路径的调度、资源的调度、数据的组织包括端到端协议的打通持续提升性能。浪潮信息集中式存储解决方案下一代高端多控解决方案即将上市。新产品采用业界主流的双控冗余架构,可达到6个9的领先水平,支持灵活扩展,单框或者单机归集的故障整个业务仍然在线,满足高可用的要求。

释放数据新潜能,服务数字化转型

浪潮信息已经具备了AI大模型实践能力,可以帮助客户简化部署,降低上线门槛。

“面向未来,浪潮信息将基于标准产品,跟用户、服务伙伴、上游技术以及科研院所共建存储场景共同体,持续合作创新,探讨满足未来应用需求的解决方案。”刘希猛表示,未来浪潮信息将凭借标准的产品和源于JDM的场景化定制能力,更好地服务未来的数字化转型,为数字经济发展贡献力量。