新华三在调度、算力、存储上如何激发×AI乘数效应-DOIT-数据产业媒体与服务平台

近期，紫光股份旗下新华三集团召开2024媒体与分析师沟通会，以“×AI”（乘AI）为主题，全面拥抱“人工智能+”时代的无限机遇，会上紫光股份董事长、新华三集团总裁兼首席执行官于英涛明确了三大重点——深化“AI in ALL”，提升产品与解决方案的智能化；加速“AI for ALL”，用技术、产品赋能各行业；发挥算力和联接领域优势，放大智算资源价值，提升计算效率。

我们知道，智算是AI时代的关键技术趋势，但智算不只是算力的堆叠，AI技术与基础架构之间还要关注底层数据的统一管理和规范，合理的调度，存储，还有考虑到AI汹涌的耗电量，必须要关注绿色节能。

对此，新华三集团高级副总裁、云与计算存储产品线总裁徐润安在专访中表示，新华三构建了完整的产品和解决方案体系——数据×AI，调度×AI，算力×AI，存储×AI，绿色×AI，通过五大×AI切入点与N种产品方案相结合，帮助用户实现AI与基础架构及业务的深度融合。

“我们的关注点主要是新华三如何高效管理和分配计算资源，存储怎样加速大模型训练，不同系列AI服务器的应用场景选择。”

调度×AI中的傲飞算力调度平台

作为新华三的创新能力之一，傲飞算力调度平台是提升算力资源利用率的关键工具，现在新发布的是3.0版本，从最初的1.0用于高效科学计算，2.0面向混合智算+科学计算，到了3.0正式对外支持智算中心平台的建设。通过智能调度算法，实现高效的计算资源管理，尤其在多元异构环境下。而且无论是本地数据中心还是云端资源，傲飞平台都能实现快速分配和灵活调度，确保资源的最佳利用率。

在集群模式上，傲飞平台可以通过小集群的形式进行扩展，每个集群由1台、3台或5台设备组成，灵活应对资源扩展需求，随着企业资源规模的增加，集群不断扩展实现，实现大规模分配和调度支持客户应用。

在实践方面，新华三在去年发布了私域大模型百业灵犀，正式发布前，傲飞平台已经进行了超万个计算节点的测试，每台R5300服务器上可以配置8个GPU卡（每个计算节点包含8个GPU卡），即傲飞平台已经具备支持和优化万卡规模的能力，能够设计和验证与之匹配的方案。

徐润安还指出，管理万卡更主要的是业务拉通，具体流程包括接收客户任务后，进行初步的大数据分析；根据任务需求，进行模型的训练或微调；对模型进行评估，最终部署完成客户提交的任务，新华三通过结合硬件资源管理和业务流程优化，覆盖整个任务的生命周期，确保每个环节的高效运作。

未来，新华三将继续优化和整合傲飞的平台功能，以应对更复杂的计算需求和更广泛的应用场景。傲飞的能力还基于新华三的硬件基础，对各家GPU供应商的产品性能和特点都有认知，还有对算子的能力，GPU哪些算力能力比较强，能否进一步往下层调度，这些都有助于傲飞平台甚至更多新华三产品的迭代。以后计算和存储资源都将越来越多集中到云上，实现资源的透明化管理，更要持续关注调度平台的能力。

算力×AI中，训练和推理不一定做选择题

算力方面，新华三推出面向智算中心的多元异构算力平台H3C UniServer R5300/R5500 G7系列服务器和算网融合的H3C UniServer E3300 G6边缘AI服务器。不同系列AI服务器，面向用户的多样化行业场景该怎么选择呢，会按照训练和推理区分吗？

新华三集团云与计算存储产品线副总裁刘宏程表示，基于GPU形态和互连方式会有不同的两种产品，适用不同的应用场景。但随着国内GPU厂商的快速发展，训练和推理的界限逐渐模糊，高端的OAM模块虽然主要用于训练，但其功能亦逐渐延伸至训练后的少数场景，并预示着未来向推理形态的转型，我们定位主要用于未来推理场景的。基于现在国内GPU厂家而言，有一部分也会用于训练方式实现。过去在G5和G6系列服务器中，R5500系列主要用于训练，R5300系列主要用于推理，现在这种区分已经不再明显。

随着GPU异构生态的蓬勃发展和厂家数量的增长，传统上可能倾向于选择OAM模块或R5500服务器来应对需求。然而，近期一些大型智算中心项目开始创新性地采用R5300服务器进行训练，这一变革不仅满足了推理需求，还显著提升了训练后的推理效率。因此，R5300平台正逐渐承担起更多训练任务，并有望在未来支持更大规模的推理工作，展现了其广泛的适用性和强大的潜力。

我们知道，训练阶段是建立模型的基础，从去年到今年，随着大模型市场的逐渐成熟，推理的需求增长也颇为迅猛，达到训练需求的十倍甚至百倍。R5300服务器平台能够同时满足训练和推理的需求，体现同一平台的多功能性。

新发布的G7系列服务器是相较于G6平台的全面升级。目前，新华三G7系列多元异构服务器重点面向运营商、政府和金融行业，未来，将扩大覆盖所有行业，包括互联网和企业应用，以满足更广泛的市场需求。

存储×AI中，推出Polaris新一代AI存储系列

在存储方面，新华三推出的新一代AI存储——Polaris系列，将Storage For AI和AI In Storage两大思路融合为一。整体来说，Storage For AI是通过全闪介质、数据池化和AI智能管理特性满足AI业务负载对存储设备的性能和功能需求，AI In Storage则是融入AI技术在智能运维、智能加速、智能助手等工具，大幅降低存储设备在运维、管理、排障、规划、配置、优化等方面的工作量和成本。

新华三集团存储产品线首席产品经理关天舒表示：数据存储是AI大模型数据收集、预处理、训练、推理的关键一环，决定了能保存的数据容量、训练及推理的数据读取效率、数据的可靠性等。新华三下一代AI存储——Polaris系列通过软硬件协同创新为大模型训练提供超强的存储性能，实现checkpoint秒级写入；满足智算千万小文件并发和TB级带宽需求。基于AI技术的加持，智能预测存储集群容量使用趋势、提供扩容和业务调整建议，通过智能分层算法实现冷热数据分层存储，提高用户命中率和热数据读取性能；同时，基于大预言模型提供智能运维助手，根据业务负载动态调整CPU、硬盘功耗，极大地简化了用户运维难度，实现便捷、高效的管理体验。。

最后

新华三通过深化和加速“AI for ALL”战略，充分发挥其在算力和联接领域的核心优势，推动AI技术在各行业的广泛应用。无论是通过傲飞算力调度平台优化资源利用，还是通过存算融合加速大模型训练，实现AI服务器的多功能性，新华三正在引领AI时代的技术革新和行业变革。

新华三在调度、算力、存储上如何激发×AI乘数效应

崔欢欢

相关推荐

近期文章

热门标签