作家 | ZeR0剪辑 | 漠影 在本年的云策画产业嘉会AWS re:Invent上,亚马逊云科技(AWS)少目力公布了大批对于硬件基础要津及芯片的细节信息,包括自研做事器CPU Graviton系列、自研AI芯片Trainium系列、AI超等做事器、最大AI做事器集群等。 这场开诚布公的共享,既让咱们窥得这家巨匠最大云策画巨头深厚的硬件基立功底,也让咱们饱览了从CPU研发战略、先进封装、后头供电、AI芯片脉动阵列到芯片互连、AI麇集的多样底层时期立异。尤其是对于云策画基础要津、数据中心芯片遐
作家 | ZeR0剪辑 | 漠影
在本年的云策画产业嘉会AWS re:Invent上,亚马逊云科技(AWS)少目力公布了大批对于硬件基础要津及芯片的细节信息,包括自研做事器CPU Graviton系列、自研AI芯片Trainium系列、AI超等做事器、最大AI做事器集群等。
这场开诚布公的共享,既让咱们窥得这家巨匠最大云策画巨头深厚的硬件基立功底,也让咱们饱览了从CPU研发战略、先进封装、后头供电、AI芯片脉动阵列到芯片互连、AI麇集的多样底层时期立异。尤其是对于云策画基础要津、数据中心芯片遐想从业者而言,其中有许多值得细品的训导和念念路。
大会时期,亚马逊云科技策画与麇集副总裁Dave Brown还与智东西等少数媒体进一步就基础要津与芯片研发的战略和细节进行交流。他告诉智东西,Trainium3基本上系数遐想皆会围绕生成式AI,AWS已露馅Trainium3是其首款弃取3nm工艺的芯片,算力上一代的2倍、功耗诽谤40%,但面前夸耀时期细节可能为前锋早。他还剧透说亚马逊云科技预测来岁会缓缓发布更多细节。
一、CPU遐想理念:不为基准测试而造芯
亚马逊云科技的自研做事器CPU和AI芯片均已在其数据中心落地,被许多盛名IT企业弃取。连苹果皆是其座上宾,在构建Apple Intelligence等AI做事的背后用到了Graviton3、Inferentia2、Trainium2等亚马逊云科技自研芯片。
据Dave Brown共享,亚马逊云科技数据中心里用到的做事器CPU中,往常两年有卓绝50%的新增CPU容量是其自研做事器CPU芯片Gravtion。巨匠最大购物节之一亚马逊Prime Day有卓绝25万个Graviton CPU支合手操作。
在2018年,亚马逊云科技看到Arm中枢发展变快,萌发了集结这种时期弧线与亚马逊云科技客户需求开发一个定制通用处理器的念头。Graviton由此降生,其推出和落地也带来了Arm芯片实在投入数据中心的时刻。
今天,Graviton被简直每个亚马逊云科技客户粗鄙使用。90%的前1000个Amazon EC2客户皆运哄骗用Graviton。
Graviton4是面前最苍劲的亚马逊云科技自研做事器CPU,每个中枢提供30%更多的策画本事,vCPU数目和内存是上一代的3倍,尤其适用于大型数据库、复杂分析等条目最高的企业职责负载。
Dave Brown强调说,在遐想芯片晌,亚马逊云科技不是奔着赢得基准测试,而是专注于骨子职责负载性能。
在他看来,业界热衷于优化基准测试,就像是“通过100米短跑来覆按马拉松”。骨子职责负载的行为与整洁的基准测试截然不符,它们是错乱的、不可预测的,真是职责负载碰到的问题可能与微基准测试透顶不同。
比如,表面上,Graviton3的性能比Graviton2提高了30%,但测试Nginx时性能擢升多达60%,因为亚马逊云科技极大减少了分支伪善预测。Graviton4也近似,微基准测试分数比上一代提高了25%,运行真是MySQL职责负载的发扬则足足提高了40%。
当代CPU就像一个复杂的汇编管说念,前端获取妥协码指示,后端实行指示。
在评估性能时,亚马逊云科技会稽查不同职责负载对CPU微架构的压力,比如职责负载是否对前端停摆明锐,前端停摆受分支数目、分支指标或指示等身分的影响,或者后端停顿受L1、L2和L3缓存中的数据以及指示窗口大小的影响。
对于每一代的Graviton,客户皆不错省略地切换到最新的实例类型,独立即看到更好的性能。
在安全性上,亚马逊云科技还加密了Graviton4与Nitro之间的PCIe链路,作念到更极致的全经过安全驻守。
二、高性能芯片遐想的重要黑科技:先进封装与后头供电
几年前,封装还很省略,基本上是一种封装单个芯片并将其团结到主板的步伐。但面前这个有筹办变得先进许多。你不错把先进封装设想成用一种叫作念中介层(interposer)的稀奇开采把几个芯片团结在一个封装里。
中介层自身骨子上是一个Chiplet,它手脚一个微型主板,提供了团结芯片的本事,其带宽是普通PCB主板的10倍。
Graviton3和Graviton4皆弃取了先进封装时期。Graviton4有7个Chiplet,中间大芯片是策画中枢,外围更小的芯片作念一些事情,比如允许芯片探望内存和系统总线的其他部分。通过分歧策画中枢,亚马逊云科技灵验地将Graviton4的中枢数目加多50%。
这种步伐对Graviton荒谬有匡助,但引入AI芯片遐想中会碰到一些挑战。
2018年,看到加快器实例和深度学习趋势后,亚马逊云科技决定构建AI芯片。其首款自研AI芯片是2019年的Inferentia,能够切实诽谤袖珍推理职责负载的老本,比如亚马逊Alexa通过迁徙到Inferentia省俭了大批资金。
2022年,亚马逊云科技推出了其首款自研AI覆按芯片Trainium1,并赶走可将在Trainium1上运行的职责负载省俭约50%。
亚马逊云科技高等副总裁Peter DeSantis在re:Invent大会现场展示了Trainium2的封装,内部有两颗策画芯片并列放在中间。其策画die的晶体管数目是Trainium1策画die的2.2倍。
想在一个系统上取得最多的策画和内存,要用先进的封装或制造时期来制造大芯片。Trainium2上等于这么作念的。但这碰到了第一个工程极限——芯片制造有尺寸甘休,在800平方毫米驾御。
每个策画芯片驾御的两颗芯片是HBM内存堆栈,每个策画芯片Chiplet通过CoWoS-S/R封装与两个HBM堆栈通讯。通过堆叠芯片,可将更多内存装入换取区域,从而减少消费、开释的能量。
那为什么弗成把封装作念得更大呢?这等于第二个甘休地方。
今天的封装骨子上被甘休在最大芯片尺寸的3倍驾御。假如将策画芯片和HBM取出,不错看到中间层,底下有用来团结芯片和中介器的微凸点。
这是亚马逊云科技旗下Annapurna芯片团队制作的一张图片。他们沿着紫色的线仔细切出了芯片的横截面,然后用显微镜从侧面放大图像。左上角是策画芯片,驾御有HBM模块,HBM模块层皆位于一个薄的连气儿晶圆上。芯片和中间层顶部之间的电团结荒谬小,每个大要是100μm,比细盐粒还小。
而要让芯片保合手沉稳团结,就必须得甘休封装大小。
同期,Trainium2还引入了后头供电,把电源线挪到晶圆后头,以减少布线拥塞。
半导体利用渺小电荷的存在或不存在来存储和处理信息,当芯片碰到电压下跌时,它们通常得恭候到供电系管辖疗。芯片在完成策画任务需要提供大批的能量,为了在低电压下传输系数的能量,需要使用大电线,减少电路传输长度,从而来幸免所谓的电压下跌。
三、打造最强AI硬件猛兽,背后的时期秘方
覆按更大的模子,需要构建更好的AI基础要津、更苍劲的做事器集群。这条目有更好的AI芯片和AI麇集。
在re:Invent大会上,亚马逊云科技注目公布了几个重磅AI硬件居品。
一是亚马逊和Anthropic正在合作构建的Project Rainier,一个领罕有十万颗Trainium2芯片的超等做事器集群。这个集群将具备Anthropic面前用于覆按其当先的Claude模子的集群5倍的策画本事。
二是能覆按和部署全国上最大模子的Trainum2超等做事器。它团结了4个策画节点,集成了64个Trainium2芯片,将峰值算力扩张至83.2PFLOPS,荒芜算力更是高至332.8PFLOPS,将单个实例的策画、内存和麇集性能提高4倍。
三是亚马逊云科技迄今作念机器学习覆按最高能效的做事器——Trainium2做事器。一个Trainium2做事器容纳有16个Trainium2芯片,可在单个策画节点提供20.8PFLOPS的策画本事。由Trainium2芯片提供支合手的Amazon EC2 Trn2实例也厚爱可用,可提供比面前GPU驱动的实例跳跃30%~40%的性价比。
这些Trainium2芯片通过超快的NeuronLink互连时期团结在系数。
在芯片遐想上,Dave Brown教训了CPU、GPU、NPU三类芯片微架构的不同。
CPU针对大批复杂逻辑的快速实行,每个缓存对应限定引擎和实行引擎。
GPU主要用于数据并行,限定单位较少,实行单位多。其运算过程会波及一些数据在缓存和HBM内存之间的倒换。
为了减少无效的内存占用,亚马逊云科技Trainium芯片弃取的是脉动阵列(Systolic Arrays)架构,与谷歌TPU如出一辙,径直传递策画赶走,能够诽谤内存带宽需求。
在生态莳植上,亚马逊云科技提供了一个其自研AI芯片的专用编译说话新Neuron Kernel接口(NKI),用于浮浅开发者径直对其AI芯片进行深度调试,从而更充分地挖掘芯片性能。
单芯片的性能强,在骨子落地中无意管用。要支合手起业界最大的大模子覆按和推理,必须能够提高大批芯片互连时的系统级算力利用率。
亚马逊云科技自研的NeuronLink芯片到芯片互连时期可将多个Trainium2做事器组合成一个逻辑做事器,带宽为2TB/s,延伸为1μs。
与传统高速麇集公约麇集不同的是,NeuronLink做事器不错径直探望相互的内存,从而创造出一台“超等做事器”。
Peter DeSantis也花时辰科普了一下为什么大模子推理越来越蹙迫,以及它对AI基础要津建议了若何的新条目。
大模子推理有两种职责负载——预填充(prefill)和token生成。预填充是输入编码,其中处理提醒和其他模子输入,为token生成作念准备。这个过程需要大批的策画资源来将输入调遣成传递给下一个程度的数据结构。完成后,策画出的数据结构将被传递给第二个推理职责负载,由它生成token。
Token生成的风趣风趣风趣风趣之处在于,模子按次序生成每个token,一次一个。这对AI基础要津建议了荒谬不同的条目,每次生成token时,必须从内存中读取系数模子,因此会对内存总线产生大批需求,但它只使用小数的策画,简直与预填充职责负载透顶相悖。
这些职责量互异对AI基础要津意味着什么呢?一朝token运行生成,只需要以卓绝东说念主类阅读速率的速率生成它们。这不是很快,但当模子越来越多地用于agentic职责流,在投入职责流的下一步之前,需要生成系数反应。是以面前客户暄和的是快速预填充和快速token生成。
对实在快速推理的渴慕,意味着AI推理职责负载也寻求使用最苍劲的AI做事器。这两种不同职责负荷是互补的。预填充需要更多的策画,token生成需要更多的内存带宽,是以在归拢个苍劲的AI做事器上运行它们不错匡助赶走出色的性能和赶走。
这就说明注解了亚马逊云科技力推自研AI做事器及集群的中枢驱能源。
四、若何构建AI麇集?10p10u架构、定制光纤电缆及插头、混杂式路由公约
云麇集需要快速扩张以合适增长,亚马逊云科技每天向巨匠数据中心添加数千台做事器。但AI的扩张速率更快。
据Peter DeSantis共享,亚马逊云科技的云麇集在可靠性方面如故作念到99.999%。AI职责负载对界限、速率、可靠性的条目更甚。要是AI麇集阅历了良晌的故障,系数集群的覆按过程可能会延伸,导致资源闲置和覆按时辰延长。
如安在云麇集的立异基础上构建一个AI麇集呢?亚马逊云科技打造了10p10u麇集。
10p10u的物理架构与传统CLOS麇集架构区别不大,亮点是赶走了10Pbps传输带宽、10μs麇集延伸,连起来后构成可用于覆按的超等集群。
下图展示了亚马逊云科技在不同麇集结构中装配的流畅数目,其中10p10u在往常12个月已装配卓绝300万条。
结构如下图所示,弃取简化的无电缆机箱遐想,左侧是8张Nitro卡,右侧是两颗Trainium2加快器。
大批的光缆投入机架,要构建这么的密集麇集结构,需要荒谬精准的互连交换机,并要搪塞复杂性大大加多的挑战。
针对布线复杂问题,亚马逊云科技研制了一些稀奇的光纤电缆、光纤插头,并针对超大界限集群打造了一种全新麇集路由公约。
其中一个立异是开发了一个定制的光纤电缆Fiber optical trunk cable。不错把它当成一根超等电缆,它将16根零丁的光纤电缆组合成一个坚固的团结器,能够大大简化拼装过程,放手团结伪善的风险。
使用骨干团结器将在AI机架上的装配时辰裁汰了54%,何况作念到看起来更整洁了。
还有定制光纤插头——Firefly Optic Plug。
这个机密的低老本开采就像一个微型信号反射器,支合手在机架到达数据中心之前进行全面测试和考证麇集团结。这意味着做事器到达时,不会花消任何时辰调试、布线。
此外,即使是渺小的灰尘颗粒,也会权贵诽谤完整性并形成麇集性能问题。而Firefly Optic Plug具有双重保护密封功能,可拒接灰尘颗粒投入光纤团结。
临了一个挑战是提供更高的麇集可靠性。
亚马逊云科技对光链路的可靠性作念了许多优化,将失败率诽谤到0.002以下。
AI采集聚最大的故障起首是光链路。光链路是微型激光模块,在电缆上发送和接管光信号。这些失败不可能被透顶放手,因此需要讨论若何减少失败的影响。
每个麇集交换机皆需要数据来告诉它们若何路由数据包。在AI采集聚,这个舆图可能需要讨论数十万条旅途。每次光链路出现故障,映射就需要更新。
若何快速而可靠地作念到这一丝?最省略的步伐是集聚搞定映射。
优化麇集听起来很眩惑东说念主,但当麇集界限弘大时,中央限定就会成为瓶颈。检测故障会很艰辛,交换机更新可能荒谬从容,何况中央限定器是单点故障。这等于为什么大型麇集通常使用BGP和OSPF等公约去中心化的原因。
关联词去中心化的有筹办也不完好。在大型采集聚,当链路出现故障时,麇集交换机需要破耗大批时辰进行相助,并为麇集找到新的最优映射。
也等于说,在面对超大界限集群组网时,集聚式和分散式的传统路由公约皆靠近挑战。
靠近次优弃取时,则需要开辟一条新的说念路。对此,亚马逊云科技研发了一种全新的混杂式麇集路由公约SIDR(Scalable Intent Driven Routing),通过将集聚式和分散式限定的上风相集结,能在很短时辰内再行权术麇集旅途,为超大界限集群提供更好的快速故障检测、反应和还原来事。
SIDR不错省略意会成让中央筹办者将麇集瓦解成一个结构,这个结构不错下推到采集聚的系数交换机。这么它们看到故障时,就能作念出快速、自主的决定。 赶走,SIDR能在1秒内反应故障,何况在亚马逊云科技麇集上作念到比其他替代步伐快10倍。其他麇集可能还在再行策画门道,10p10u麇集如故还原职责了。
结语:云大厂自研芯片的风向标
手脚在自研芯片落地上最得胜的云策画大厂之一,亚马逊云科技的芯片遐想训导、自研芯片对云业务的骨子影响、迭代与立异标的一直惹人注目。在禁受智东西等媒体采访时期,Dave Brown也回想了亚马逊云科技自研芯片的一些重要上风,包括老本低、界限大、落地快、沉稳可靠等。
老本上,要是采纳Trainium2可将老本较H100诽谤50%,那么这对客户大约是很有眩惑力的点。
界限上,亚马逊云科技的界限确保其芯片能够通俗运行,会在推出Trainium前作念大批测试,确保芯片一朝推出就一定会得胜,不会出现硬件需要裁撤的情况。
界限大还意味着更容易取得所需的产能。Dave Brown提到亚马逊云科技与英特尔、台积电等企业的合作顺利,以为台积电到好意思国凤凰城投资建厂是聪慧之选。亚马逊云科技发愤于赶走供应链多元化,是台积电的最大客户之一,也一直与英特尔缜密合作,相互匡助进行遐想立异,预测不会受携带层变动的影响。
落地上,亚马逊云科技有有利团队,负责立即能将芯片放到做事器中,中间不存在一两个月的迟延延误,因此能裁汰落地时辰,有充足好的芯片来支合手客户进行大说话模子的覆按。
还有完整的居品组合和可靠做事。亚马逊云科技提供不单是是芯片,还包括存储、Kubernetes做事器、API、安全、麇集等,这么丰富的组合拳是其他供应商难以提供的。在沉稳性上,亚马逊云科技通常具备上风,在实时会诊和修补碰到的问题、确保做事不受影响方面如故深得云做事客户的信任。
生成式AI波浪激动卑劣商场对更高性能、高性价比、天真可定制的AI基础要津建议了强需求。而亚马逊云科技在AI基础要津底层时期与工程上的探索与立异开云(中国)kaiyun网页版登录入口,正为业界提供一个既能合适客户业务需求、诽谤系统复杂性又能提高供应链话语权的出色参考范本。