从CPU到GPU,再到Graphcore的IPU,智能计算产业发展进阶中

当智能计算遇见气象变化,我们可以通过基于蒸发蒸腾量的ET0(Reference evapotranspiration)进行精准的气象分析预测。

当智能计算遇见农业,我们可以了解未来15天内,土壤中的水是怎么蒸发的,将栅格点分辨率需求从0.0083×0.0083经纬度(平均面积约为1平方公里)提升到0.001×0.001经纬度,让田地在合适的时间得到灌溉,助力农业的精准灌溉。

当智能计算遇见自然灾害,我们可以知道当土壤和植被蒸腾量降低,代表森林大火的风险增高,某一地区一定时间内蒸腾量异常,会出现极端降雨或干旱。

以上案例,都是一家英国AI芯片公司Graphcore与安捷中科全资子公司安捷数科基于IPU的合作用例,为不同行业规模型应用提供了性能强大的算力基石。

IPU与GPU面向密集型计算同而不同

随着数据时代的发展,我们运行的应用数据规模越来越大,所需算力的场景领域渐趋精细化。这样的市场需要更具针对性和成本效益的AI算力,也就有了继支持密集型计算的GPU之后,Graphcore专用于AI和机器学习应用的IPU(Intelligence Processing Unit,智能处理器)出现,体现智能计算产业的强化进阶。

虽然IPU与GPU都是为密集型计算而生,但又同而不同。Graphcore大中华区总裁兼全球首席营收官卢涛解释称,云端AI计算最大的主流,一部分在CPU上,一部分在GPU,还有一部分在IPU。这三类处理器相当于三个圆,各自中间都有交集的部分,但又都有彼此擅长的领域。

从芯片架构上来看,IPU与GPU有三个大的差异点。第一,计算内核更多,IPU拥有1400多个处理器内核,每个内核可以运行6个线程。

第二,存储架构不同,数据读取速度更快。GPU是层次化内存架构,读取数据流程是片内缓存,然后是片外显存或HBM。而IPU采用的是片内存储,分布式架构,如GC200拥有900MB处理器内存储。

第三通信调度优化。在跨芯片多核通信调度时,GPU内的SM核最后是多核多线程呈现给开发者,程序员要关注通信怎么做到数据同步。Graphcore则采用一套BSP(Bulk Synchronous Parallel)软硬件结合算法,让一个芯片一千多个核,甚至多个芯片跨IPU连接。

就像一万个人在排队,先把队伍整理好了再往前走,到下一个点把队伍整理好再往前走,这样当大规模并行处理时,就不需要把系统的复杂性显示给程序员和开发者。

至于在不同AI应用领域的领先。2021年11月份,Graphcore参加了MLPerf 1.1,并针对机器学习进行了一系列基准测试,每年四次,两次推理,两次训练,MLPerf 1.1是训练1.1。其中,在GPU占据优势的模型ResNet-50上测试显示,Graphcore的IPU-POD16在计算机视觉模型ResNet-50方面表现优于NVIDIA的DGX A100。在DGX A100上训练ResNet-50需要29.1分钟,而IPU-POD16仅耗时28.3分钟。

单一主机服务器做自然语言训练方面,也就是BERT,最快的是IPU-POD64系统。CPU和AI处理相解耦,基本在系统里就实现了针对目标应用的优化,比如BERT是一台两个CPU的服务器对应64个IPU,CPU和IPU的比例是1:32,计算机视觉领域基本上比例可以做到1:8。而其他提交者,如英伟达GPU系统里是2个CPU对应8个GPU,1:4的固定配比,英特尔系统里,CPU和AI加速引擎是1:2的固定配比,而Graphcore可以针对不同场景灵活优化。

在功耗上,同样的算力,IPU的功耗比GPU更低,某种意义来看是在实现节能减排。回头看看Graphcore和一些合作伙伴做的事,比如Graphcore与升哲科技发布了基于IPU的合作,也是主要基于IPU进行城市相关可持续发展的应用。

此外,金融保险方面,牛津-英仕曼在用IPU进行股票预测;Tractable在利用智能计算进行保险理赔方面的辅助工作;电信方面,Graphcore和韩国电信合作发布了IPU云;医疗、生命科学方面,Graphcore和斯坦福大学医学院采用IPU对以“医疗+隐私计算”为核心的方向进行了研究和探索。

Graphcore拟未的2021年回顾

Graphcore中文名为拟未——类脑模拟,未来科技,起的名字格局是很大了。拟未是一家跨国企业,企业规模700人。中国团队是Graphcore过去一年团队成长中很大的一部分,2020年年底,中国团队有20人,现在达到了80人。全球布局方面,Graphcore在亚洲的办公室分布在北京、上海、深圳、台湾,以及韩国、日本、新加坡。在欧洲,除英国、挪威以外,在法国和印度也有办公室,波兰新开设了一个软件研发中心。

偏个题,小编有参观拟未在北京的办公场地,桌椅都是从国外运来的,简单舒适,桌子可以上下调节高度,设有游戏休闲区,还有吊椅,慕了……

言归正题。在2021年,Graphcore的IPU-POD系列有了产品扩展,当前IPU出货量规模达到万级以上。IPU-POD128、IPU-POD256已上市发售,用户可以直接商用部署的平台。并且拟未面向超算规模的AI集群或计算系统发布了两款新品——IPU-POD128和IPU-POD256。

当前Graphcore拥有的硬件产品系列可满足处于不同发展阶段企业的算力需求,比如IPU-POD16,产品定位为“EXPLORE”,新型机器学习、AI用户需要从较小的系统开始,IPU-POD16就是支持企业的初期探索型平台。当企业逐渐到做一些生产型任务,从探索转向“BUILD”建设型,构建自身的生产系统,再是“GROW”扩展系统,适配更高算力,IPU从16到64、到128、到256,针对不同业务,CPU和IPU的配比都非常灵活。

Graphcore的IPU提供高效AI计算,软件Poplar具备易用性,软硬件相结合加速系统中多种AI模型处理进程。中间的Poplar SDK(软件开发工具包),粉色部分是Poplar的协议栈。浅粉色部分是Poplar和机器学习框架中间层的软件,如XLA、图编译器、PopART等。

框架层有新增,PyTorch Lightning、百度飞桨、Hugging Face是2021年发布的。2020年,百度正式宣布Graphcore加入百度飞桨硬件生态圈。2021年,百度飞桨在Graphcore IPU上实现了训练与推理全面支持。

前端是针对开发者,如Jupyter NoteBook,程序员像使用记事本一样使用这个开发平台。周围是一些AI应用、开发者生态,包括开发工具、可视化工具,可以帮助用户对应用进行可视化优化,右下角是系统级的软件,从硬件的管理到IPU虚拟化到系统级别集群、任务的调度。

新的一年,Graphcore会一些AI应用领域进一步深入,比如AI辅助科研,自动驾驶等领域将是其在AI应用或垂直领域中的重要方向,自动驾驶行业相关的盆友可以关注一下,时刻保持行业竞争力嘛。

写在最后

印象深刻的是,卢涛在谈及如何做好计算型芯片,在行业保有竞争力时的回答——预判+冒一点风险+一点运气。一家芯片公司生态至关重要。AI计算与传统CPU市场有所不同,在过去的5-10年间,CPU业务十分明确且处于主导地位,而AI领域内,生态构建需要时间积累,但AI应用是动态化的,有很多创新技术研究,新的技术领域,Graphcore会基于当前应用合作和未来技术发展作出趋势预判,提前投入研究,要对未来勇于判断。由此看来,拟未是一家大胆创新的芯片初创公司,全球而言创始人团队在芯片领域曾成功开发出11款微处理器,国内卢涛在芯片领域拥有20多年的经验,此前曾任芯片制造商Cavium总经理并作为零号员工领导Cavium在中国的业务,强大的技术团队支撑未来AI计算的趋势判断,当其AI生态逐步构建,GPU,可能真的要小心了。