 

当前位置：DOIT-数据产业媒体与服务平台  云计算  正文

re:Invent 2022：亚马逊云科技发布新Nitro卡和Graviton3E处理器

2022-11-29 分类：云计算评论(0)

2022年的云科技春晚，亚马逊云科技的re：Invent 2022开始了。

北京时间11月29号上午11点半，我个人最关注的主题内容，继续由亚马逊云科技高级副总裁Peter DeSantis带来。

Peter DeSantis的演讲内容分四个“靓仔”，分别是硬件、网络、科学和软件。其中，科学部分指的是AI/ML方面的创新，软件指的是应用软件运行。

首先，看硬件方面的创新

首先登场的依然是最令人期待的AWS Nitro，回顾历史，Nitro被分成了四个版本来介绍，每一代都会有一些明显的进步和提升，这次发布的就是Nitro V5。

与上代相比，Nitro V5采用的晶体管数量翻倍，内存速度提高了50%，PCIe带宽也实现了翻倍。反映到性能方面，PPS网络性能提高60%，延迟降低30%，此外，能耗比也将提升大约30%。

首发采用Nitro V5的就是这款叫C7gn的EC2实例，它采用的处理器是Graviton3，作为一款网络优化型实例，带宽提升到了200Gbps，各项参数相较于上代的C6gn有不小提升。

第二位重磅登场的其实是新一代的Arm处理器Graviton3E。

Graviton2相较于Graviton1提升很大，Graviton3相较于Graviton2有25%的性能优势，今年，很多人期待的是Graviton4，但这次只有Graviton3E。

Graviton3E是Graviton3的一个变种，主要优化了在浮点运算和向量运算场景中的表现，这种都是高性能计算领域特别强调的能力。

图中展示的性能提升仅限于在高性能计算领域，比如有分子动力学GROMACS、金融期权定价FINANCIAL OPTIONS PRICING等等场景。

为Graviton3E首发护航的就是HPC7g实例，它同时还采用了Nitro V5。对了，这就说明Nitro V5是专门给所有7代主机准备的。

第二，看网络创新方面的创新

网络部分，Peter重点介绍了SRD（Scalable Reliable Datagram）的重要性，并表示，EFA、EBS和ENA都用上了自家的SRD。

EFA是亚马逊云科技的高性能网卡，主要面向HPC和AI集群场景，它依靠Nitro来Offload，绕过内核，以此来提供更高的稳定性，更高的吞吐带宽和更低的延迟。

EFA优势很明显，但由于跟TCP有一些不同，所以，真正用的时候，只有少数对延迟特别敏感的应用才有可能来适配它，为了能让人用上EFA，亚马逊云科技也对接了HPC生态。

SRD在降低EBS写延迟方面效果显著，如上图所示，它能将极少数（P99.999）会出现的35ms延迟降低五倍，并且能将整体的延迟水平降到一个全新的水平。

SRD除了可以帮EBS降低延迟，还能提高吞吐带宽，如上图，采用了SRD的io2，其IOPS和带宽提升了四倍。

Peter还表示，此后新发布的EBS io2都会支持SRD，并且，不会给用户带来额外成本，应用本身无感知，用就行了。

与EFA不同，ENA（Elastic Network Adapter）才是大多数人要用的网络服务，亚马逊云科技把SRD装了进去ENA之后，发布了一个叫ENA Express的新东西。

其主要价值也是降低延迟和提升带宽，其中，带宽直接从原来的5GB/s提升到了25GB/s。

对于用户来说，也是只管用就行了，应用方面不需要单独作出调整。

第三部分，机器学习方面的创新。

这部分，Peter重点介绍了如何提高机器学习训练效率的问题。

如上图所示的是机器学习模型精度对训练时间的影响，16位计算精度的训练速度快（也省显存），但损失函数的值收敛不够，也就是说，训练出来的模型会很不准。

32位计算精度可以，但比较费时间，浪费时间就意味着会更费资源，更费钱，为了保证精度的同时能缩短训练时间，人们搞出了混合精度的做法。

为了进一步减少训练时间，还有了叫STOCHASTIC ROUNDING的做法，这个具体是什么，我实在是听不懂，有点超纲了，大概知道这是一个优化训练过程的思路。（懂的大佬能用白话解释一下吗？）

不过，提高训练效率的另外一个思路是横向扩展，用多台服务器来一起做训练。虽然集群运算的效率高，但集群信息交换同步的问题也很大，因为信息交换同步本身就会消耗很多时间。

Peter介绍了一个叫Ring of Rings（环中环？）的技术来解决信息交换同步效率差的问题。

相较于传统的Single Ring的方案，能提高信息交换同步的效率，能把集群规模做的更大。

目前，Ring of Rings技术支持开源的机器学习模型PyTorch，能把PyTorch的信息同步交换速度提高75%。

这么好的技术，怎么才能用上呢？

于是Peter就介绍了新推出的Trn1n实例，它的芯片自然是去年发布的Trainium芯片，网络部分采用的是增强的1600 Gbps的EFA网络，这种实例更适合用分布式集群来训练超大模型。

第四部分，软件运行方面的创新。

这部分主要谈的是亚马逊云科技引以为傲的Serverless服务Lambda，具体说是减少Lambda运行软件应用时的冷启动时间。

此前发布的Firecracker其实也做了一些优化，而今天又再进一步，这就是新发布的AWS Lambda SnapStart，它能把冷启动的时间缩短90%。

至于具体的技术实现的话，大致原理就是用了Snapshot快照技术来加快或者说绕开运行时环境初始化的时间。

关于Peter介绍的主要内容就先记录到这里。

以下是这两天的主要日程，喜欢熬夜的朋友可以蹲一下，我就不熬夜了。

我个人关注的会是CEO和CTO的演讲，渠道方面的不感兴趣，机器学习部分会酌情看一下，主要是预计我能听懂的不多orz。

最后，顺手贴一个注册观看链接：

https://www.awsevents.cn/reInvent2022/registerSignUp.aspx?s=7982&smid=15580

分享到

Graviton3 Graviton3E Nitro Nitro V5 re:Invent 2022 云科技春晚亚马逊云科技

zhupb

相关推荐