英特尔面向中国市场发布定制版Gaudi2,定制了什么?

2023年7月11日,英特尔面向中国市场发布定制版的Gaudi2,具体说是Gaudi2 H-225B夹层卡,另外一个版本的是HL-225H。

两者的主要区别在于纵向扩展互联接口数,中国定制版的H-225B少了三个,只有21个100Gbps网络接口。

砍掉三个网口会影响降低集群的通信效率,系统的扩展性,降低整体的并行计算能力。除此之外,国内定制版Gaudi2的算力规格没有任何阉割。

Gaudi2拥有 24 个完全可编程的第四代张量处理器核心(TPC),它还集成了 96 GB HBM2e内存和 48 MB SRAM,支持 600 瓦夹层卡级热设计功耗(TDP)。

算力类型方面,它支持FP8、BF16、FP16、TF32 和 FP32,比上一代支持的类型更多。

Gaudi2最早是去年五月份正式发布的,但一直没有在中国市场上市。从一些规格来看,它与英伟达的A100更像,比如,两者都是7nm制程工艺的。

众所周知,RESNET-50和BERT PHASE-2训练的Benchmark都很考验加速器的性能表现。在此前公布的结果中可见,96GB的Gaudi2在多项训练测试中都大幅领先于英伟达的A100,包括80GB版本和40GB版本两个型号的。

然而,最近,英特尔介绍了Gaudi2与英伟达H100的在MLPerf中的对比结果。在训练拥有1750亿参数的GPT-3时,Gaudi2性能以及高效的可扩展性令人印象深刻。

384个Gaudi2加速上训练GPT-3耗时311分钟,而且,在训练时,将加速器从256个扩展到384个时,性能实现了近线性95%的扩展效果。

在计算机视觉模型ResNet-50(8个加速器)和Unet3D(8个加速器)以及自然语言处理模型BERT(8个和64个加速器)上,也取得了优异的训练结果。

与去年11月提交的数据相比,BERT和ResNet模型的性能分别提高了10%和4%,证明Gaudi2软件成熟度的提升。

值得一提的是,Gaudi2支持“开箱即用”,也就是说,这些测试没有经过任何的定制化优化,用户在用Gaudi2时,可以获得与本次测试相当的结果。

在发布会会上,英特尔宣称,采用BF16计算精度的Gaudi2性能要优A100,采用FP8软件的Gaudi2,比H100更有性价比。

从基于MLPerf Training3.0基准测试结果来看,Gaudi2为数不多的能替代 NvidiaH100进行LLM训练的可靠方案。