英特尔面向中国市场发布定制版Gaudi2，定制了什么？-DOIT-数据产业媒体与服务平台

2023年7月11日，英特尔面向中国市场发布定制版的Gaudi2，具体说是Gaudi2 H-225B夹层卡，另外一个版本的是HL-225H。

两者的主要区别在于纵向扩展互联接口数，中国定制版的H-225B少了三个，只有21个100Gbps网络接口。

砍掉三个网口会影响降低集群的通信效率，系统的扩展性，降低整体的并行计算能力。除此之外，国内定制版Gaudi2的算力规格没有任何阉割。

Gaudi2拥有 24 个完全可编程的第四代张量处理器核心(TPC)，它还集成了 96 GB HBM2e内存和 48 MB SRAM，支持 600 瓦夹层卡级热设计功耗(TDP)。

算力类型方面，它支持FP8、BF16、FP16、TF32 和 FP32,比上一代支持的类型更多。

Gaudi2最早是去年五月份正式发布的，但一直没有在中国市场上市。从一些规格来看，它与英伟达的A100更像，比如，两者都是7nm制程工艺的。

众所周知，RESNET-50和BERT PHASE-2训练的Benchmark都很考验加速器的性能表现。在此前公布的结果中可见，96GB的Gaudi2在多项训练测试中都大幅领先于英伟达的A100，包括80GB版本和40GB版本两个型号的。

然而，最近，英特尔介绍了Gaudi2与英伟达H100的在MLPerf中的对比结果。在训练拥有1750亿参数的GPT-3时，Gaudi2性能以及高效的可扩展性令人印象深刻。

384个Gaudi2加速上训练GPT-3耗时311分钟，而且，在训练时，将加速器从256个扩展到384个时，性能实现了近线性95%的扩展效果。

在计算机视觉模型ResNet-50（8个加速器）和Unet3D（8个加速器）以及自然语言处理模型BERT（8个和64个加速器）上，也取得了优异的训练结果。

与去年11月提交的数据相比，BERT和ResNet模型的性能分别提高了10%和4%，证明Gaudi2软件成熟度的提升。

值得一提的是，Gaudi2支持“开箱即用”，也就是说，这些测试没有经过任何的定制化优化，用户在用Gaudi2时，可以获得与本次测试相当的结果。

在发布会会上，英特尔宣称，采用BF16计算精度的Gaudi2性能要优A100，采用FP8软件的Gaudi2，比H100更有性价比。

从基于MLPerf Training3.0基准测试结果来看，Gaudi2为数不多的能替代 NvidiaH100进行LLM训练的可靠方案。

英特尔面向中国市场发布定制版Gaudi2，定制了什么？