算力“芯”动向:国产GPU“风华已起”,芯动科技打造“五大首款”全功能GPU

导读

2025年9月22日的珠海,一场科技发布会彻底点燃了行业热情 —— 当芯动科技(Innosilicon)的聚光灯缓缓打在 “风华3号” 身上时,整个半导体圈都感受到了这股强劲的 “风华力量”!

单卡集成112G以上超大显存、FP32单精度浮点算力飙至78TFLOPS,更是国内首款把国产RISC-V(一种开放指令集架构)CPU和兼容CUDA的GPU集成在一起的芯片。要知道,这可不是简单的参数升级,而是国产GPU阵营里,一位重量级选手的正式 “亮剑”。

对芯动科技来说,这是一次里程碑式的技术跃迁;放到全球半导体产业风云变幻的大背景下,更是中国芯片自主化道路上,一个足以载入史册的关键节点。

文字编辑|宋雨涵

1

解构“风华3号”:

不止于算力的“全功能”雄心

“风华3号”最引人注目的标签是“全功能GPU”。在服务器领域,许多所谓的GPU实际上是GPGPU(通用计算图形处理器),它们为了极致的计算效率,阉割了图形渲染和显示输出功能。而“风华3号”反其道而行之,坚持“大而全”,这意味着它在架构设计上需要克服远超GPGPU的复杂性。让我们深入其六大亮点,探寻其“全功能”背后的技术底气与市场野心。

“风华3号”六大核心亮点

国内首款:集成国产RISC-V CPU与CUDA兼容GPU的SoC。

全球首款:原生支持DICOM高精度灰阶显示的GPU。

国内首款:单卡配备112GB+大显存、核心IP全自研的全功能GPU。

国内首款:支持光线追踪的8K渲染GPU。

国内首款:支持YUV444无损视频编码的GPU。

生态整合:打通“计算+存储+连接”,构建完整国产GPU生态。

一、算力巨兽:AI大模型的国产新引擎

在AI大模型时代,算力和显存是衡量一枚GPU价值的核心标尺。“风华3号”交出的答卷堪称惊艳:

78 TFLOPS的FP32算力:这一数字使其稳稳地站在了高性能计算的第一梯队。它足以支撑大规模的AI模型训练、复杂的科学计算以及高精度的物理模拟。

112GB+的高带宽显存:这是“风华3号”最具冲击力的特性。相比之下,国际主流的AI训练芯片如英伟达H100的显存为80GB。更大的显存意味着单卡能够容纳更大参数的模型,从而显著减少在模型并行训练中跨节点通信的开销,提升训练效率。发布会信息显示,单张“风华3号”即可运行320亿或720亿参数的大模型,而一台搭载八张卡的服务器,理论上可以直接驱动像DeepSeek 671B/685B这样的千亿级巨型模型。这对于国内众多渴望拥有自主可控大模型算力底座的企业和研究机构而言,无疑是巨大的福音。

兼容CUDA生态:这是其最具战略智慧的一步。CUDA作为英伟达建立的、事实上的行业标准,拥有庞大的开发者基础和成熟的软件库。通过兼容CUDA,芯动科技极大地降低了开发者的迁移成本,使得现有的AI应用可以更平滑地移植到“风华3号”平台。结合其对PyTorch、Triton等主流AI框架的支持,它正在努力将自己从一个“硬件孤岛”变为一个能够融入全球主流AI生态的“即战力”。

二、视觉革命:从8K光追到专业医学影像

“很多用于服务器的GPU,其实是GPGPU,阉割了图形和显示功能。而全功能GPU,计算、图形渲染、视频编解码、多屏显示这些活儿全都能干,架构更复杂,门槛自然也更高。”“风华3号”不仅能干,而且干得相当出色:

支持8K分辨率下的实时光线追踪,并兼容DirectX 12、OpenGL、Vulkan等主流图形接口。这意味着它不仅能在CAD等工业设计软件中提供国际主流水平的性能,甚至可以流畅运行《古墓丽影》这类3A游戏大作。这展示了其强大的渲染管线和通用图形处理能力。

全球首款原生支持DICOM,这是其切入高价值垂直行业的“神来之笔”。DICOM是医学数字成像和通信的国际标准。传统GPU在显示灰阶图像时存在精度损失,“风华3号”通过硬件原生支持,能够实现无损的高精度灰阶显示,为精准医疗提供了强大的硬件基础。这不仅是一个技术亮点,更是开辟了一个全新的、高壁垒的蓝海市场。
强大的显示与编码能力,
单卡支持6路8K超高清显示输出,并率先支持YUV444无损视频编码。

三、架构创新:RISC-V与自研IP的深层布局

在芯片的底层架构上,“风华3号”同样展现了深远的战略考量。国内首次将国产RISC-V CPU与CUDA兼容GPU集成在同一芯片中,并强调核心IP全自研。

RISC-V作为一个开放、免费的指令集架构,被视为打破x86和ARM垄断的希望。芯动科技通过集成自研的RISC-V CPU,不仅可以在GPU内部实现更高效的调度和管理。

生态建设的优先级不亚于芯片研发。
 “风华3号”对CUDA的兼容是明智且务实的选择。在短期内,与其另起炉灶,不如先“借船出海”,融入现有主流生态,让用户“愿用、能用、好用”。长期来看,则应以RISC-V等开放标准为基础,联合国内软硬件厂商,逐步构建我们自己的指令集标准和软件生态。这是一个漫长但必须坚持的过程。

2

超越芯片本身:

芯动科技的“计算+存储+连接”生态棋局

如果说“风华3号”是一艘性能强悍的旗舰,那么芯动科技在发布会上同时展示的高端DDR5内存模组PCIe 5.0服务器交换芯片,则是为这艘旗舰保驾护航的整个舰队。这揭示了芯动科技更大的野心:它不只想做一家GPU芯片公司,更想成为一家数据中心核心部件的平台型解决方案提供商。

这个“计算+存储+连接”的铁三角战略,逻辑非常清晰:

  • 计算(GPU)作为核心引擎,提供澎湃的算力。
  • 存储(DDR5/GDDR/HBM)作为数据粮仓,为GPU高速输送数据。芯动科技本身就是IP领域的强者,其在高速接口IP上的积累,使其能够自研高端内存产品,确保GPU与内存之间的协同达到最优。
  • 连接(PCIe 5.0 Switch)作为数据高速公路,负责GPU与CPU之间、以及多GPU之间的高速互联。PCIe 5.0是当前最先进的总线标准,自研交换芯片意味着芯动科技可以定义和优化整个服务器节点内的数据流转,打破互联瓶颈。

通过将这三者垂直整合,芯动科技能够为客户提供一套性能经过协同优化、自主可控的“全家桶”方案。这种模式不仅能提升产品整体的竞争力,更重要的是,它构建了一个以自身为核心的硬件生态壁垒,这在未来的市场竞争中将是极其宝贵的资产。

单点技术突破的时代正在过去,未来的竞争是平台的竞争、生态的竞争。芯动科技“计算+存储+连接”的布局,展现了这种平台化思维。国产芯片企业需要跳出“卖芯片”的单一模式,向“提供解决方案”的平台模式转型,通过垂直整合和协同优化,创造出1+1+1>3的价值。

结语:

“风华3号”的发布,无疑为国产GPU产业注入了一剂强心针。它用强大的性能、全面的功能和深远的布局,证明了中国芯片企业不仅有能力在局部市场实现追赶,更有潜力在全球性的技术浪潮中,发出自己的声音,定义自己的赛道。

当然,前路依然漫长。从芯片流片成功到形成规模化市场应用,从兼容生态到引领生态,每一步都充满挑战。但“风华”已起,我们有理由相信,这条国产GPU的自主化道路,正越走越宽,前方是值得期待的星辰大海。