fc2 萝莉 Graviton两年内为AWS提供高出50%的CPU算力，冲突英特尔对市集节律的掌控

栏目分类

热点资讯

来吧成人综合

你的位置：勾引twitter > 来吧成人综合 > fc2 萝莉 Graviton两年内为AWS提供高出50%的CPU算力，冲突英特尔对市集节律的掌控

发布日期：2024-12-06 12:16 点击次数：175

fc2 萝莉 Graviton两年内为AWS提供高出50%的CPU算力，冲突英特尔对市集节律的掌控

在超大鸿沟和云计较厂商鸿沟较小、Arm 未能霸占数据中心市集以及 AMD 尚未走上回复之路的时代fc2 萝莉，英特尔掌控着新计较引擎进入数据中心的节律。

场所老是在变化。本周，英特尔的 CEO 帕特 . 基辛格（Pat Gelsinger）布告辞职，比较之下，亚马逊云科技（AWS）在拉斯维加斯举办年度 re:Invent 大会，线下参会东说念主数达到 6 万，而线上东说念主数高度 40 万东说念主。谁在约束超大鸿沟企业和云计较制造商的本事推出按序，似乎有了新的谜底。

对于 AWS 而言，他们也不错约束新本事的发布节律，因为他们不需要像芯片厂商一样，进行依期的产物迭代。他们不需要像英特尔、AMD 和英伟达那样，把计较引擎卖给 ODM 和 OEM，而是平直向客户出售云上产物。不言而谕的是，这是一项更容易的业务。

在 re:Invent 大会上，AWS 以过火母公司亚马逊高管所带来的演讲，让外界对于他们的计较引擎有了新的期待，比如 Graviton5、Inferentia3 及 Trainium3。

Trainium3 使用 3nm 工艺蚀刻，相较于 Trainium2 能效进步 40%、性能翻倍。AWS 的新闻稿中暗示，Trainium3 UltraServers 的性能将是 Trainium2 UltraServers 的 4 倍，这意味着它们将从使用 Trainium2 的 16 台设立扩张到使用 Trainium3 的 32 台设立。

AWS CEO 马特 . 加曼（Matt Garman）称，Trainium3 将于 2025 年晚些时代推出，这意味着粗略会在 re:Invent 2025 年会议发布这款产物。早在 6 月份，就有一些对于 AWS 高管证实 Trainium3 将突破 1000 瓦的传言，但这点并不出乎外界的预料，英伟达的 Blackwell B200 GPU 的峰值功率是 1200 瓦。

确切出乎外界预料的是，在上个月的 SC24 超等计较会议上，针对 HPC 欺骗的 Graviton4E 仍未推出，这与 AWS 在 2021 年 11 月推出的世俗 Graviton3 和 2022 年 11 月推出的增强版 Graviton3E 的过往速率比较有所各异。2023 年 11 月发布的 Graviton4 不错说是市集上基于 Arm 架构最佳的管事器 CPU 之一，固然亦然适用面最广的 CPU。

AWS 的 CPU、东说念主工智能加速器和 DPU 莫得任何年度更新的压力，如若仔细不雅察英伟达和 AMD 的 GPU 途径图，就会发现他们的中枢产物仍然是每两年发布一次，第二年会在第一年发布的 GPU 上进行内存升级或性能调整。

AWS 在芯片鸿沟的迭代周期粗略是两年，其间会有一些波动。Graviton1 执行上是一个基于 Nitro 架构的 DPU 卡，不错忽略不计。正如 AWS 公用行状计较高等副总裁彼得 . 德桑蒂斯（Peter DeSantis）在 2018 年发布的主题演讲中所说的，Graviton1 仅仅"进入市集的一个信号"，主要用于考证客户需求。2019 年推出的 Graviton2， AWS 袭取了台积电的当代 7 纳米工艺，并使用了 Arm 的 Ares N1 内核，想象了一款 64 核 CPU，与运行在 AWS 云上的英特尔和 AMD 的 X86 CPU 比较，性价比高出 40%。

2021 年，袭取 Arm Zeus V1 内核的 Graviton3 问世，不异是 64 个内核却不错承担更多的任务。2023 年，Graviton4 问世了，这款芯片袭取了台积电 4 纳米工艺，在插槽上塞入 96 个 Demeter V2 内核，与 12 个内存带宽为 537.6 GB/ 秒的 DDR5 内存约束器搭配使用。与 Graviton3 比较，Graviton4 的单核性能进步了 30%，内核数目加多了 50%，性能进步了 2 倍。凭证咱们的订价分析，产物的性价比进步了 13% 到 15%。在执行的基准测试中，Graviton4 带来的性能优化有时能达到 40%。

AWS 处理器进入的资金至少需要两年才不错收回。因此，在 re:Invent 大会上期待任何干于 Graviton5 的新音问齐是不现实的。尽管如斯，AWS 的高管们依然会吊一下市集的胃口。

AWS 的高管在主题演讲中提供了一些对于 Graviton 的数据。AWS 计较和聚集管事副总裁戴夫 . 布朗（Dave Brown）展示了这张图表，它在一定进度上说明了为什么英特尔最近几个季度的财务情状如斯晦气。和约略地说，AWS 的四项中枢管事（Redshift Serverless 和 Aurora 数据库、Kafka 的 Managed Streaming 和 ElastiCache 搜索）约莫有一半的处理是在 Graviton 上运行的。

布朗称："最近，咱们达到了一个勤快的里程碑，在当年的两年里，咱们数据中心高出 50% 的 CPU 算力齐来自 Graviton，这比其他总计类型的处理器加起来还要多。"

这恰是微软多年前所宣称思作念成的事情，而这亦然 AWS 所期待达成的规划。从永恒来看，X86 是一种传统的平台，其价钱亦然传统的，就像之前的大型计较机和 RISC/Unix。RISC-V 也许最终也会这么颠覆 Arm 架构 ( 开源的 ISA 与可组合的模块似乎是必由之路，就像 Linux 开源系统让 Windows Server 酿成传统平台的）。

加曼让咱们对 AWS 里面的 Graviton 管事器群鸿沟有了一个大致的了解：" Graviton 正在纵容地增长，2019 年，总计这个词 AWS 的业务鸿沟为 350 亿好意思元，而当今，单单 Graviton 运行的业务鸿沟就与 2019 年总计这个词 AWS 业务鸿沟一样，这是荒谬快的增长。"不错揣测的是，Graviton 管事器集群的增长速率比 AWS 举座业务的增长速率还要快，而且幅度可能荒谬大。这对英特尔的伤害强大于对 AMD 的伤害，因为 AMD 多年来一直领有比英特尔更好的 X86 管事器 CPU。

Trainium 系列，是否会成为英伟达和 AMD 以外的礼聘？

加曼批驳 Trainium3 的独一原因是，东说念主工智能磨练对高性能计较的需求增长得比任何其他计较引擎快得多。濒临英伟达在 2025 年加大其 Blackwell B100 和 B200 GPU 的产能，以及 AMD 扩大其 Antares MI300 系列，AWS 如若思让客户将他们的东说念主工智能使命负载移植到 Trainium 上，就必须在市集上展现出狂放实践 Trainium 系列的决心。

在来岁的 re:Invent 大会之前，但愿能够看到 AWS 发布对于 Trainium3 的一些新优化，因为市集上的竞争敌手太多，以谷歌和微软为首的一些公司将在 2025 年推出他们旗下的东说念主工智能加速器。

就像 Graviton 系列一样，从当今启动，Trainium 系列的更新周期巧合将变为两年一更新。这些产物的研发进入齐荒谬神秘，因此 AWS 要结束财务效益必须将 Trainium 的斥地资本摊销到尽可能多的设立上。与 Graviton 一样，咱们以为 AWS 的 Trainium 达成这一规划的日子不会太远方。从永恒来看，这对英伟达和 AMD 来说不是功德，止境是如若谷歌、微软、腾讯、百度和阿里巴巴齐遴选不异的行动。

AWS 还莫得愚蠢到试图在 GPU 加速器市集上与英伟达直面抗衡，但与谷歌的 TPU、SambaNova 的 RDU、Groq 的 GroqChip 和 Graphcore 的 IPU 一样，这家云计较商不异以为我方不错构建一个系统阵列来进行东说念主工智能磨练和推理，并为云计较客户带来各异化体验和附加值产物，与购买英伟达比较，客户购买 AWS 的产物不错检朴资本而况掌捏更多的主动权。

正如咱们上头所指出的，AWS 高管对 Trainium3 并莫得表露太多的信息，但他们对 Trainium2 在 UltraServer 中的使用到荒谬同意。

本年的 re:Invent 大会上，AWS 更多地先容了使用 Trainium2 加速器的系统架构，并展示了基于这些加速器构建的聚集硬件，以扩张和扩张其东说念主工智能集群。底下是德桑蒂斯展示的 Trainium2：

正如咱们昨年报说念的那样，Trainium2 似乎在单个封装上摒弃两个芯片互连，可能使用 NeuronLink die-to-die 里面互连本事，以在其分享的 HBM 存储器上一致地使命。Trainium2 管事器有一个节点，该节点带有一双主机处理器并与三个 Nitro DPU 无间，如下所示：

这是计较节点的鸟瞰图，前端有四个 Nitros，后端有两个 Trainium2s，袭取无线想象以加速部署速率。

两个交换机托架，一个主机托架和八个计较托架构成了一台 Trainium2 管事器，该管事器使用 2TB/ 秒的 NeuronLink 电缆将 16 个 Tranium2 芯片互连成 2D 环面成立，每个设立上 96GB 的 HBM3 主内存齐会与其他设立分享。每台 Trainium2 管事用具有 1.5TB 的 HBM3 内存，总内存带宽为 46TB/ 秒（即每个 Trainium2 卡略低于 3TB/ 秒）。此节点在密集 FP8（一种浮点数暗示时局）数据上的性能为 20.8 千万亿次浮点运算，在稀罕 FP8 数据上的性能为 83.3 千万亿次浮点运算。

AWS 将四台管事器互相阿谀以搭建 Trainium2 UltraServer，该管事器在 64 个 AI 加速器中领有 6TB 的 HBM3 内存容量，内存带宽算计为 184TB/ 秒。该管事用具有 12.8Tb/ 秒的以太网带宽，可使用 EFAv3 适配器进行互连。UltraServer 管事器在密集 FP8 数据上的运算速率为 83.2 千万亿次浮点运算，在稀罕 FP8 数据上的运算速率为 332.8 千万亿次浮点运算。底下是德桑蒂斯对 Trn2 UltraServer 实例硬件的展示：

在布满电线的机架顶部，荫藏着一双交换机，它们构成了 3.2TB/ 秒的 EFAv3 以太网聚集的端点，该聚集将多个 Tranium2 管事器互相阿谀，以创建 UltraServer 管事器，并将管事器与外部全国阿谀。

高中生自慰

这还不是总计这个词聚集架构。如若你思运行大鸿沟的基础模子，需要的加速器将远远不啻 64 个。为了将千千万万的加速器阿谀在沿路，不错进行大鸿沟磨练，AWS 想象了一种基于以太网的采集聚构，名为 10p10u，其规划是在延伸不到 10 微秒的情况下，为总计这个词聚集提供每秒数十 PB 的带宽。底下是 10p10u 采集聚构机架的步地：

由于原先管事器里面的电线荒谬复杂，AWS 研发了一款光纤骨干电缆，将需要使用的电线数目压缩为原先的十六分之一。其旨趣是将数百个光纤阿谀放在一条较粗的管线中，这么作念的平正是让管事器里面的架构更为圣洁。如下图所示，右边的机架使用的是光纤骨干电缆，它更圣洁工致。更少的阿谀和潜入处理意味着更少的诞妄，当你试图快速构建东说念主工智能基础圭臬时，这少许很勤快。

据悉，这种特等用于东说念主工智能使命负载的 10u10p 聚集由于其优异的融会正在被大鸿沟袭取。德桑蒂斯展示了它与 AWS 创建的旧式以太网聚集比较的增长速率有多快：

假定这是鸠合纠合数（灵验的计较），旧的 Euclid 采集聚构（粗略是 100Gb/ 秒）在四年内缓缓加多到近 150 万个端口。名为 One Fabric 的聚集与 10u10p 聚集在 2022 年年中大致同期推出，咱们猜测其中 One Fabric 使用 400Gb/ 秒以太网，而 10u10p 基于 800Gb/ 秒以太网。One Fabric 有约莫 100 万个纠合，而 10u10p 有约莫 330 万个纠合。

加曼暗示，与基于 AWS 云上的 GPU 实例比较，Trn2 实例的性价比将进步 30% 到 40%。固然，AWS 应该加大拉开外部计较引擎与自家计较引擎之间的差距，保持这么的差距是 Trainium 霸占东说念主工智能计较器市集的正确举措。

看成主题演讲的一部分，德桑蒂斯和加曼齐谈到了一个代号为" Project Ranier "的超等集群，这是 AWS 正在为其东说念主工智能大模子合营伙伴 Anthropic 建造的一个超等集群。戒指现时，亚马逊已向 Anthropic 投资 80 亿好意思元，该集群主要用于磨练下一代 Claude 4 基础模子。加曼说，" Project Ranier "将领少见十万个 Trainium2 芯片，其性能将是磨练 Claude 3 模子时所用机器的 5 倍。

本文由雷峰网编译自：https://www.nextplatform.com/2024/12/03/aws-reaps-the-benefits-of-the-custom-silicon-it-has-sown/fc2 萝莉

上一篇：丝袜美腿亚洲色图 2025年央视跨年晚会录制地点敲定, 拟邀名单提前公开

下一篇：眼镜妹探花低迷！浓眉往日7战场均18分11.4板4.6助三项射中率43/15/77%