DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

智算中心背后的那些建设者(上)

随着数字经济和人工智能技术的蓬勃发展,各行各业对于数据处理和智能计算的需求急剧上升。智算中心能够提供高性能的计算能力,支持复杂的人工智能模型训练和大数据分析,满足企业、科研机构以及政府对智能算力的迫切需求。

作为新型基础设施,智算中心能够吸引和培育高新技术企业,促进人工智能相关产业链的集聚,推动地方经济转型升级和高质量发展:如,车企自建智算中心以加速自动驾驶技术的研发。面对节能减排的压力,智算中心在设计和运营上强调能效比和绿色低碳,符合国家可持续发展战略。通过优化能源使用、采用可再生能源等方式,智算中心能够在提供强大算力的同时减少环境影响。

智算中心建设雨后春笋

2022年2月,国家发展改革委等机构联合印发文件,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏启动建设国家算力枢纽节点,并规划了张家口集群等10个国家数据中心集群,东数西算工程正式启动。

截至2022年底,中国算力核心产业规模已经达到1.8万亿元。而智算中心作为其中的重要组成部分,其规模增长是这一大趋势中的一个亮点。统计数字表明,2023年,我国人工智能算力市场规模达到了664亿元,同比增长82.5%;智算中心也呈现出高速增长的态势,成为主流的计算形态。

目前,全国已有超过30个城市在建设和运营智算中心,包括北京、上海、南京、杭州等多个重要城市,其中上海的智算中心数量最多。

在过去的近4个月时间里,又一大批智算中心陆续开工或投用。

2月4日,深圳开放智算中心点亮运营暨深圳市智慧城市算力统筹调度平台揭牌仪式举行,这意味着深圳正在加快打造10万卡级别的超强算力集群;3月11日,一期规划16000PAI异构算力池的华南数谷智算中心投产仪式在韶关市武江区举行,这是粤港澳大湾区国家算力枢纽节点首批投入运营的智算中心之一;3月12日,无锡高新区启动总算力不低于1000P的国产高端智算中心建设,主要服务于生物医药应用,并将拓宽至智慧城市、机器人、智能制造、AIGC大模型等场景;3月14日,西北地区规模最大智算中心——中国移动(克拉玛依)云计算智算中心在克拉玛依云计算产业园区启用,聚焦科学研究、天气预测、大型工程模拟等应用;3月16日,规划算力规模300P的郑州人工智能计算中心揭牌,旨在为政务、视觉、教育、医疗等重点大模型应用场景赋能,并致力打造一个集数据处理、算法研发、模型训练、应用开发于一体的综合性算力平台;3月18日,基础设施投资高达20亿元、总面积超过5万平方米的博大数据深圳前海智算中心在深圳开园,一期可支持的算力规模达到40000P;继去年底北京人工智能公共算力平台(上庄)上线后,提供3500P新增算力的北京数据基础制度先行区3月26日在北京市海淀区揭牌并部署就位,为大模型企业提供算力、数据一体化服务,据传今年北京计划新增公共智能算力8000P;总投资10亿元的鄂尔多斯超算中心项目将于4月份投入运行,成为鄂尔多斯市的智慧中枢中心,在新能源装备制造产业、现代煤化工产业、能源产业、生物医药与健康等领域和行业探索数据运算服务……

政策倡导,各界响应

智算中心的建设热潮是中国乃至全球在数字时代追求技术创新、产业升级和可持续发展的必然趋势,也因此吸引了一大批领先的骨干供应商积极参与智算中心建设。

超云发布“东数西算数据中心基础架构设计方案白皮书”

东数西算工程甫一启动,超云就积极响应并对相关重点策略进行了深度的解读和洞察,在编写“东数西算数据中心基础架构设计方案白皮书”的同时,还不断践行投入到西部数据中心建设当中,西云作为超云的重要客户和战略合作伙伴,双方在数据中心基础架构部署,AI算力、分布式存储、高速网络、AI运维以及云租赁等上层应用,进行了全方位合作,除了部署大量服务器,还在积极联合研发新一代节能技术,其中液冷整机柜就是其中的一款明星产品。

今年2月19日,国资委召开中央企业AI专题推进会,明确提出两大核心目标:一是加快建设一批智算中心,二是开展AI+专项行动,构建一批产业多模态优质数据集,打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态;3月份政府工作报告提出“适度超前建设数字基础设施,加快形成全国一体化算力体系”,这一决策体现了国家层面对于数字经济长远发展的高度重视和战略前瞻性。

“被称为第四次技术革命的AI技术,决定了未来社会的好坏甚至国家之间发展的差距。这个政策将引导我国在AI领域居于世界领先地位,堪称高瞻远瞩。”4月16日,新华三集团联席总裁、首席技术官兼技术委员会主席尤学军在杭州召开的2024新华三媒体及分析师沟通会上表示:“对新华三来说,就要用最好的算力和联接的技术来支持这个领域的快速部署,用最少的投入和最高的效率来贡献自身的力量。”

新华三集团联席总裁、首席技术官兼技术委员会主席尤学军

由厂商自发建设或牵头的智算中心也陆续投入使用。

3月底,集成了宁畅在AI计算领域能力,以底层硬件到顶层应用平台系统化方案的“AI算力栈”NEX AI Lab(Nettrix AI Open Lab),满足大模型落地所需的计算、存储、网络、建设、管理、应用及液冷等全方位需求也在桐乡落成。

宁畅“AI算力栈”NEX AI Lab

紫光股份4月3日透露,其图灵小镇AIGC智算中心已于今年1月启用,以裸金属智算服务器租用、云智算服务租用、大模型服务等多种能力,为企业、研究机构、高校院所提供定制、先进、普惠、全面的端到端的智能算力服务。

紫光股份图灵小镇AIGC智算中心启用仪式

智算中心背后的建设者们

智算中心建设,离不开厂商的综合性解决方案。

1)超云:高性能、弹性化的AIGC数据基础架构

超云作为国内专业的数据中心产品及服务提供商,同时也是国内较早布局数据中心解决方案的企业之一,多年来一直持续加大在产品研发方向的投入,通过技术创新与升级,数据中心解决方案已经达到业界领先水平。

借助于多芯架构、双“云”共进的发展战略,旗下产品线得到不断丰富和壮大,随着业务的发展,超云在数据中心领域的突破成为必然,也有义务和责任推动行业技术的发展与进步。超云为智算中心提供了高性能存储产品及解决方案。

AIGC存储可以为训练数据、模型参数、中间结果和实时/近实时数据处理提供存储能力;超云为AIGC智算中心提供NS5000V、CS13000、CS13000-G和AI存储信创版等多个版本的全闪存阵列,满足现有AIGC智算中心的高带宽、低延迟、高可用的存储需求;同时,为了解决更高性价比的长期海量存储,采用分层存储技术,形成多副本、纠删码按照文件的使用频率和创建时间,实现文件的自动分层,同时支持外部的对象存储、文件系统、蓝光存储和带库归档能力,分层存储解决方案大大提升了效率,降低了成本,同时能满足数据的长期存储需求。

除了能够为AIGC智算提供海量、高效、低延迟的存储外,同时还提供超融合计算能力的云化能力;超云在云部分的产品布局分为四部分:超融合产品、云操作系统、集中式存储和分布式存储,可以为AIGC基础架构提供高效、低延迟、海量的存储和弹性扩展的计算能力。

2)宁畅:六“全”特点构筑“全局智算”战略

宁畅CEO秦晓宁在2024年度“全局智算”战略新品及方案发布会上介绍了其六“全”特点:分别是全体系、全液冷、全服务、全场景、全行业、全阶段。

宁畅CEO秦晓宁

全体系,是指从通用、A1、边缘计算、整机柜、AI工作站、AI算力栈等硬件软件、平台、应用、开发工具支撑与适配整体的软硬件栈全部具备,并且把服务器和数据中心级别的AI算力带到了桌面。

全场景,宁畅AI全栈能力,全面支持大模型开发适配、部署场景。

全液冷覆盖服务器、机柜、数据中心多形态,支持风冷、冷板式液冷、浸没液冷多方式,秉承“冷静“计算策略,有效化解额外能耗以及成本居高不下的问题。

全行业,满足互联网、金融、科研、自动驾驶等几乎所有重要行业业务需求。

全服务,提供从前期咨询、设计到制造、咨询及后续运维、售后等全时算力服务,一个明显的特征是不只交付硬件,如今有更多的软件交付。

全阶段,满足客户从大模型的开发、适配、部署、全场景不同业务发展阶段关键需求,提供最具价比的定制化智算中心方案。

基于“全局智算”战略,宁畅综合某车企客户的各种需求,最终选择预制模块化机房,成功搭建了一个面向自动驾驶领域的算力系统。

在机柜方面,液冷覆盖率超过95%、功率高达100KW每柜的整机柜,电液盲插方式非常便于运维和部署,同时还为特定的硬件平台推荐最优能耗比配置,PUE最低可至1.09。

为满足自动驾驶对实时性和延迟性要求,宁畅基于AI软件栈提供优化的深度学习框架和加速库,充分平衡训练,提升了推理效率;数据预处理自动标注方式,提高了数据的利用效率。

自动驾驶对安全性有更高的要求,车企需要进行大量的模拟测试。宁畅AI智驾中台提供强大的模拟和测试工具,支持虚拟环境的创建与场景的重现,测试运率的自动生成和执行,加速了模型的训练过程,实现模型训练闭环。

通过种种举措,宁畅以覆盖数据收集、数据处理、模型训练、参数调优、模型评估、模型发布全流程的技术支持,帮助客户专注业务,提升计算和测试效率,缩短了新产品上市的进程。

3)新华三:“算力×联接”应对AIGC时代新挑战

新华三应对AIGC时代新挑战的举措是“算力×联接”六大能力。这六大能力分别是高效多元算力供给、高品质网络联接、海量数据并行处理、智能能耗治理、主动安全、智能运维。

以高效多元算力供给为例,新华三以高效的算力调度和管理使能平台琢作为展现:傲飞算力平台3.0已全面拥抱“算力即服务”,G7系列模块化异构算力服务器则以多元开放、拥抱OAI、存算分离三大优势提供澎湃算力支持,并以丰富的生态及模型适配减少产品开发周期、提升业务效率。

而在存储领域,新华三推出的下一代AI存储——Polaris系列则将Storage For AI和AI In Storage两大思路融合为一。通过全闪介质、数据池化和AI智能管理设计,Polaris能够满足AI业务负载对存储设备的性能和功能需求,助力海量数据的加载和存储,提升AI智算集群的整体运行效率,做到Storage For AI。而融合了AI技术的智能运维、智能加速、智能助手等工具则大幅降低了存储设备在运维、管理、排障、规划、配置、优化等方面的工作量和成本,让Polaris更加好用、易用。

新华三集团高级副总裁、云与计算存储产品线总裁徐润安

“两种AI思路在同一款产品中的融合使Polaris既能满足用户的新型业务负载需求,也能创造更优异的应用体验,这也是企业级存储的必然发展方向。”新华三集团高级副总裁、云与计算存储产品线总裁徐润安如是说。

在提供算力与联接的基础上,新华三也承担和参与了一些大型智算中心的建设工作,力争在今年ICT领域这一最大市场赢得商机,同时也为未来AI领域的创新打下基础。

加强国产化替代,提升安全可控能力

智算中心的国产化替代,是指在建设智算中心的过程中,从硬件设备、软件系统到核心算法等关键环节采用国产技术和产品,减少对外部技术的依赖,确保数据安全和国家安全。

刚刚投用的韶关数据中心集群落地后首个投入运营的智算中心——华南数谷智算中心是粤港澳大湾区国家算力枢纽节点首批投入运营的智算中心之一,也是中国电子PKS体系国内首个信创数据中心示范项目,该智算中心采用了飞腾信息技术有限公司的处理器,旨在为“东数西算”工程打造一个安全可信的算力基础设施。

阿里巴巴张北智算中心

阿里巴巴云启动了全球最大的智算中心,总算力达到12 EFLOPS,展示了其在人工智能基础设施领域的领导地位。这些智算中心不仅提供强大的计算能力,还旨在通过人工智能技术为客户提供解决方案,提升其竞争力和创新能力。同时,阿里巴巴在智算中心建设中还积极引入国产算力芯片,如平头哥含光800、倚天710以及自主研发设计、基于RISC-V指令集架构的处理器玄铁910,通过一云多芯架构透明接入计算集群,提升了系统的性能与效率,增强了算力的自主可控性,促进了国产芯片技术的发展与应用。

众所周知,阿里巴巴在多年前就已开始推行“去IOE化”策略,旨在减少对外部技术的依赖,特别是在IT基础设施层面。近年来,这一策略进一步扩展到更广泛的国产软硬件替代,包括操作系统、数据库、服务器等,推动了整个产业链的国产化进程。

在全面自主可控大趋势下,随着技术的不断成熟和生态的完善,智算中心的国产化进程将持续加速,国产硬件、操作系统和基础软件、云计算平台和AI框架、算法和应用、安全可控的数据管理体系的份额持续提升。国产化的推进有助于降低技术被封锁或限制的风险,增强供应链的安全性,同时也是推动国内科技创新、促进产业自主发展的重要举措。(未完待续)

未经允许不得转载:DOIT » 智算中心背后的那些建设者(上)