亚马逊云技术:云厂商自主研发芯片的两个“选择”

2021-12-16 17:31 来源:凤凰网科技

自研芯片会是改变云计算游戏规则的关键吗?亚马逊科技认为这是真的。

在2021亚马逊云科技re:Invent全球大会上,亚马逊云科技公布了最新的芯片研究成果,其中包括自主研发的CPU处理器Amazon Gravity on 3,这是亚马逊云科技自主设计的第三款CPU处理器。

同时,继去年宣布开发机器学习和训练芯片Amazon Trainium后,亚马逊云技术今年宣布将提供基于Trainium的范例。与P4d实例相比,使用亚马逊Trainium IUM芯片支持的Trn1实例训练深度学习模型的成本降低高达40%。

在SSD层面,基于亚马逊Nitro SSD SSD的Im4gn/Is4gen/I4i实例正式发布。通过自行开发的Amazon Nitro SSD,Im4gn/Is4gen/I4i实例可提供高达30 TB的NVMe存储。与上一代I3实例相比,I/O延迟减少了60%,延迟的可变性减少了75%。

云计算发展了十几年,越来越硬,一直到底层芯片。与云时代的开创一样,自研芯片的趋势很大程度上是从亚马逊云科技开始的,国内外云厂商也在持续跟进,比如阿里巴巴云自研CPU永恒710、含光800的AI推理芯片、腾讯云的AI推理芯片“紫霄”。

自研芯片不是云厂商做生意的必备,但却决定了云厂商的天花板,象征着云巨头的身份。

亚马逊云科技大中华区产品部总经理顾凡

亚马逊云技术大中华区产品部总经理顾凡

对于自研芯片的驱动力,亚马逊云科技大中华区产品部总经理顾凡这样解释,“客户对云上性价比的追求永无止境,同时未来云上新工作负载对计算创新的要求也是无穷无尽的。底层发生的事情往往是最具颠覆性的。而半导体芯片层面的创新将是改变云计算游戏规则的非常重要的能力。"

自研芯片比云服务更具挑战性。即便是亚马逊云科技,在自主研发芯片的过程中也面临着诸多取舍。

增加频率还是增加核心数量?

重力3比重力2多200亿个晶体管。如何利用这200亿个晶体管实现最佳性能和效率,是亚马逊这一代芯片应该深入思考的问题。

亚马逊云技术大中华区产品部计算与存储总监周歌表示:“原理很简单。我们必须考虑工作负载以及客户如何真正使用这些设备来找到我们的出发点。”

通常,CPU性能可以从两个方向提高:提高频率或增加内核数量。增加频率确实可以快速提高性能,大多数情况下,这种性能提高对所有工作负载都有效。

然而,增加频率是有限制的。以半导体目前的功率和能力,增加频率意味着产生更多的热量,散热将是一个大问题。尤其是超大规模数据中心,高频带来高能耗,高能耗带来高热,高热要求更高的散热效率,反而增加了功耗,企业云成本不降反升。

因此,亚马逊云技术选择增加内核的“宽度”,即利用指令并行性,让内核在同一个时钟周期内执行更多的指令,完成更多的任务,从而在不增加内核数量的情况下提高业务运营效率。

根据Amazon Cloud Technology给出的数据,与目前亚马逊Gravity在3处理器上支持的一代C6g实例相比,亚马逊Gravity在2处理器上支持的C7g实例可以将计算密集型工作负载的性能提升高达25%。与Gravity on 2相比,Amazon Gravity on 3处理器为科学计算、机器学习和媒体编码工作负载提供高达2倍的浮点性能,为加密工作负载提供2倍的速度,为机器学习工作负载提供3倍的性能。

增加内核数量或减少内存延迟。

如前所述,增加内核数量也是一个快速且

新的选择题出现了。亚马逊云技术会继续在剩余的晶体管上增加更多的内核,还是会增加CPU内存的带宽,降低其延迟?

“在第三代中,我们研究了在Gravity on 2上运行的工作负载,发现大量工作负载是大数据类型,大量是微服务架构,甚至是一些HPC服务等。这些服务对内存的带宽和延迟非常敏感。我们的判断是,——会在内存方面下功夫,这比增加内核数量要好。”周伟说。

C7实例是云中第一个采用最新DDR5内存的实例。与基于Amazon Gravity on 2的实例相比,其内存带宽提升了50%,从而提升了科学计算等内存密集型应用的性能。

与基于Amazon Gravity on 2的实例相比,C7实例的网络带宽也高出20%。C7g实例支持Elastic Fabric Adapter (EFA),它允许应用程序直接与网络接口卡通信,从而提供更低且更一致的延迟,并提高需要大规模并行处理的应用程序的性能(例如高性能计算和视频编码)。

客户反馈也说明了这一点,Twitter的部分服务性能提升了20%到80%;F1流体模拟在2重力的基础上提高了40%。

同时,通过增加内存带宽和降低内存延迟,Gravity on 3的功耗降低了60%,保持了更好的能效比,企业客户无需付出高昂的成本就能提升性能。

“亚马逊云科技是云厂商中最早自研的芯片。如今,我们有三条产品线:Nitro、Graviton和人工智能机器学习自研芯片。自研芯片需要经验积累,用钱买不到。Amazon Cloud Technology对云上所有客户工作负载的深刻理解和逆向工作设计芯片,是我们重构云计算基础自研芯片的最大优势。”顾凡说。

延伸 · 阅读