在当前人工智能快速发展的当下,我国高算力芯片面临工艺受限与生态缺失双重挑战。
6月13日上午,“2026北京智源大会”进入第二天,在“ 智算前沿 - 下一代架构及基础软件 ”分论坛上,清华大学集成电路学院院长、IEEE Fellow尹首一教授以“高算力芯片发展路径探讨”为题发表演讲,他建议以架构创新破解工艺瓶颈、以开源开放应对生态壁垒的总体战略,系统梳理了数据流、可重构、存算一体、三维集成,推出了了晶圆级芯片五大创新路径,强调通过软硬协同突破国产算力瓶颈,支撑中国AI持续发展。

清华大学集成电路学院院长、IEEE Fellow尹首一教授
时代背景:算力规模的指数级扩张驱动技术突破
AI大模型的发展已进入依靠海量资源投入换取性能飞跃的阶段。从2012年AlexNet的出现,到如今GPT及国内基础模型的涌现,模型的泛化能力显著增强,编程、开发、创造等高阶任务均可由模型完成。然而,模型能力提升的背后是对算力的爆炸性需求。Google工程师Jeff Dean指出,未来需要的算力可能是当前能提供算力的一百倍。国内外对算力中心的建设均极为迫切。
我国自主高算力芯片面临两大挑战:工艺受限与生态缺失。工艺方面,自2018年以来境外对我国芯片工艺的限制持续收紧。生态方面,从传统IT到移动互联网再到人工智能,最终都会形成生态竞争。过去西方主导的生态体系在人工智能时代需要被打破,必须建立自己的生态体系。生态体系包含三个要素:基础创新、开源开放、应用驱动。
破局总体思路:架构创新破解工艺受限,开源开放应对生态缺失
基于上述挑战,尹首一提出以架构创新来破解工艺受限,以开源开放来应对生态缺失的总体战略。
从芯片算力的基本公式来看,算力取决于三个要素:每个晶体管提供的算力(由芯片架构决定)、芯片上的晶体管密度(由制造工艺决定)、芯片面积(由光刻设备决定)。在当前晶体管密度受限于制造工艺的现实下,如果仅沿传统GPU路径发展,最终将被晶体管密度卡住。因此,必须重点考虑另外两个要素:计算架构与芯片面积(集成架构),两者结合可开辟算力提升的新空间。
计算架构面临的核心困难被称为“三堵墙”:一是利用率低,算力中心中单芯片的晶体管利用率不高;二是存储墙,处理器速度远快于存储器,数据搬运严重限制了性能;三是功耗墙,芯片功耗过大,不得不降频运行。通过计算架构的突破,即使制造工艺不向前迭代,芯片性能也能得到提升。
集成架构方面,过去芯片面积受光刻设备限制,最大约八百平方毫米。随着先进集成技术的发展,国内有机会将芯片做得更大,突破单芯片的光照限制,或将芯片三维堆叠起来。黄仁勋在OSC会议上提出,未来可以将一个算力中心看成一个芯片,这带来了新的设计空间。
1.五大创新路径
尹首一对国际上能看到的新型芯片架构进行了归纳总结,形成一个三维坐标系:横轴代表不同的计算架构,纵轴代表三维集成的堆叠层数,另一横轴代表芯片面积。在非传统GPU架构的算力芯片中识别出五个创新路径。
创新路径一:数据流芯片
数据流芯片的特点是所有计算由数据驱动,而非传统的指令驱动。GPU采用指令驱动,需要取指、译码、发射等操作,占用晶体管资源并影响处理速度。数据流芯片直接由数据驱动计算,规避了指令处理的约束。谷歌TPU是典型代表,采用脉动阵列架构。第七代TPU比H200性能高1.5倍,TPU V8将在最新GPU基础上进一步提升。
创新路径二:可重构芯片
数据流芯片采用固定数据流,任务需适配数据。可重构芯片则通过硬件上的可编程能力,让芯片上的计算微架构适配软件和算法,具有动态构建最适计算架构的能力。典型案例如SambaNova(斯坦福技术成果),其SN30系统已部署于全球第二的富岳超算中心。英伟达收购的Groq(LPU)也是软件定义可重构技术体系,英伟达已发布LPU产品,未来GPU加LPU构成七核芯片。
创新路径三:存算一体芯片
常规芯片采用冯·诺依曼架构,存储与计算分离。存算一体通过将存储与计算物理距离拉近来解决存储瓶颈。近存计算是第一步,更进一步是将存储与计算放在同一个单元内。存算一体有两个技术方向:一是模拟存算一体,利用物理定律在模拟电路中实现等效计算;二是数字存算一体,在存储器阵列中加入数字计算逻辑。三星在HBM芯片中加入计算能力,推出HBM-PIM产品,可缩短运行时间11倍。三星、铠侠等正在LPDDR存储器中加入计算能力,拓展存算一体产品系列。
创新路径四:三维集成芯片
三维芯片为芯片架构和设计带来新空间:一是拓展了互联,芯片间互联从边缘互联变为平面互联,互联能力呈数量级提升;二是创造新的架构空间,芯片上可堆叠逻辑、存储器、电源等新功能。典型案例包括Broadcom发布的3.5D结构,通过垂直方向3D堆叠与平面方向2.5D扩展结合。英国公司Delv的芯片在算力芯片上叠加全电容芯片,通过垂直电容改善供电能力,提升运行性能。
创新路径五:晶圆级芯片
由于光刻限制,单芯片最大面积约800平方毫米。如果将芯片做大,晶体管数量必然增加。十二寸晶圆的可用的计算面积约四万多平方毫米,比单芯片大五十倍。晶圆级芯片的思路是将整张晶圆作为一个芯片。两个可见案例:一是Cerebras公司,采用整晶圆一体制造方式,完全靠光刻能力将整张晶圆制造成一个芯片,已迭代三代,上个月已在纳斯达克上市;二是特斯拉,采用多芯粒加高密度集成的方式,将多个芯片集成并视作一个整体。今年一月份,OpenAI拿出一百亿美金采购Cerebras晶圆芯片产品。
2.软件生态:开源开放突破壁垒
面对已形成的CUDA生态壁垒,软件生态建设同样迫切。开源开放的成效已在Linux、PyTorch等项目中得到证明,以开源开放的生命力有机会突破CUDA的垄断。算力芯片软件生态面临“四座大山”:分布式训练、推理框架、丰富且准确的算子库、高性能可编程模型、高性能可扩展集合通信。清华大学与智源合作,依托FlagOS已提供统一的、开源的基础软件生态,支持底层多种硬件和创新架构芯片,为芯片与软件结合带来新的优化空间。
总结
国产算力芯片面临诸多挑战。硬件上需通过创新计算架构突破传统设计思维,在先进工艺受限的情况下进一步提升芯片性能。尹首一教授强调,软件方面需通过开源生态协同,解决芯片推广与使用问题。硬件与软件协同起来,突破国产算力瓶颈。通过架构创新与软件协同,国产芯片有信心支撑国内人工智能始终站在全球人工智能能力的前沿。
本文来源于DOIT传媒,文章内容仅供参考,不构成投资建议。
评论列表