CN / EN

37000Cm威尼斯-人工智能工厂激化全球超算互联之争

2025-10-04 12:02:32

人工智能(AI)的发作式增加与超算范畴对于百亿亿次(exascale)机能的寻求,激发了一场关乎全局的高危害基础举措措施竞争——这场较劲并不是缭绕处置惩罚器焦点睁开,而是聚焦在毗连它们的收集架构。

作为现代计较体系“中枢神经体系”的通讯骨干网,其焦点瓶颈已经“明确转向通讯架构”,而非芯片自己。TDxesmc

“互连收集是HPC体系的要害,”坎塔布里亚年夜学传授、巴塞罗那超等计较中央(BSC)结合研究员RamonBeivide告诉《国际电子商情》姊妹平台《EETimes》,“AI运用的发作式增加鞭策了高机能计较(HPC)的冲破。而AI的实现,正源在HPC最近几年来的庞大进展。”TDxesmc

跟着超等计较机及专用“AI工场”扩大至数千个计较节点,快速、靠得住地传输海量数据的能力已经成为将来机能晋升的要害鞭策力。TDxesmc

这一趋向进一步激化了三年夜阵营的比赛:盘踞主导的专有尺度系统、快速突起的开放尺度同盟,以和以中国华为代表的范围化新玩家。TDxesmc

TDxesmc

图1:坎塔布里亚年夜学传授、巴塞罗那超等计较中央结合研究员RamonBeivideTDxesmc

猜测显示,2024年估值高达402亿美元的高速互连市场将迎来强劲增加,其扩张势头重要受人工智能及呆板进修基础举措措施设置装备摆设的鞭策。TDxesmc

Beivide传授指出:“最近几年来,跟着繁重的AI事情负载需要更多互联的处置惩罚器及加快器,体系收集的范围不停扩展。咱们正从‘前沿(Frontier)’超等计较机的几万个端点,成长到当前AI项目中数十万甚至数百万的范围。是以,收集的要害需求之一是高寻址能力——而像Infiniband这种和谈于这方面可能闪现出局限性。”TDxesmc

英伟达的集成化AI工场模式vs.开放生态体系

当前市场格式的焦点抵牾,素质上是两种哲学理念的冲突。一方是英伟达的垂直整合模式,其根底于在自有的InfiniBand技能尺度。InfiniBand的统治职位地方可追溯至MellanoxTechnologies的持久培育——这家公司在2020年被英伟达以70亿美元收入麾下。TDxesmc

这次收购将加快计较范畴的带领者与高机能收集范畴的带领者合二为一,使InfiniBand成为AI工场不成或者缺的收集基础举措措施。TDxesmc

TDxesmc

图2:高速互联市场图片来历:SNSInsiderTDxesmc

InfiniBand之以是卓着,是由于它从设计之初就为长途直接内存拜候(RDMA)而生,使网卡可以或许直接拜候长途内存,彻底绕过CPU及操作体系内核,实现真实的“零拷贝”收集。这一特征对于漫衍式AI练习至关主要——任何延迟城市致使“海量且昂贵的GPU阵列闲置”,直接延伸练习时间并推高成本。TDxesmc

此外,英伟达还有经由过程其可扩大分层聚合与归约和谈(SHARP)实现了收集内计较,将特定命据处置惩罚使命直接卸载到收集硬件上履行。TDxesmc

TDxesmc

图3:InfiniBand的过程:从尺度到人工智能主干TDxesmc

只管InfiniBand盘踞主导职位地方,但现代AI所需的年夜范围扩大仍带来新的挑战。Beivide指出,要害的收集需求之一是具有高寻址能力,而InfiniBand等和谈于这方面可能闪现局限性。他还有提到,作为HPC范畴的领军机构,BSC已经与英伟达就此议题告竣持久研究互助和谈。TDxesmc

面临业界遍及认为的专有技能锁定问题,行业已经连合起来将高速以太网视为独一可行的开放替换方案。2023年,包括AMD、博通、思科、慧与(HPE)、英特尔、Meta及微软于内的重要厂商配合建立了超以太网同盟(UltraEthernetConsortium,简称UEC)。TDxesmc

超以太网同盟致力在经由过程冲破以太网传统局限,为AI与HPC成立开放、可互操作的尺度。该规划的焦点是‌基在交融以太网的长途直接内存拜候(RoCE)‌,而UEC1.0规范进一步推出了‌超以太网传输和谈(UET)‌,旨于使RDMA成为以太网的原生运用‌。TDxesmc

Beivide暗示,以太网技能具备普适性,且凡是比英伟达InfiniBand或者克雷Slingshot等专有解决方案更具成本上风。他增补道,于不异情况中处置惩罚差别和谈(这于专有体系中十分常见)会带来诸多未便。TDxesmc

这些因素(以和其他未说起的因素)可能会影响互联收集的演进标的目的,并可能鞭策UltraEthernet于将来得到广泛采用。TDxesmc

超等计较尺度

于极度高机能计较范畴,2025年6月TOP500榜单上两年夜领先互连技能已经明确规定了竞争格式。TDxesmc

TDxesmc

图4:劳伦斯利弗莫尔国度试验室的旗舰级百亿亿次超等计较机ElCapitan图片来历:GarryMcLeod/LLNLTDxesmc

虽然英伟达InfiniBand为浩繁顶尖商用和国际体系提供撑持,但惠普企业(HPE)基在以太网的Slingshot-11技能则盘踞绝对于巅峰,毗连着首批百亿亿次超等计较机,例如“埃尔卡皮坦(ElCapitan)”“前沿(Frontier)”及“极光(Aurora)”。这三台超算均位在美国能源部(DOE)下属试验室。TDxesmc

TDxesmc

图5:市场主导职位地方:高机能互连范畴TDxesmc

巴塞罗那超等计较中央的MareNostrum5超等计较机采用英伟达InfiniBandNDR技能。详细而言,其互连收集基在InfiniBandNDR200。Beivide指出,部门超等计较机仍将沿用专有解决方案,而这极可能将影响将来收集技能的演进标的目的。TDxesmc

华为发布革命性UnifiedBus架构

于2025年华为全联接年夜会(上海站)上,华为向全世界市场投下重磅挑战,宣布了其面向SuperPoDs与SuperClusters的雄伟技能线路图。该战略旨于经由过程立异计较架构,以可连续方式满意持久算力需求。TDxesmc

“可连续算力是AI连续前进的基石,”华为副董事长徐直军于9月中旬举办的2025年华为全联接年夜会(上海站)主题演讲中暗示。华为推出了新一代昇腾AI芯片,以和一项冲破性的互联和谈——UnifiedBus(UB),旨于解决年夜范围体系中的要害挑战,例如超低延迟需求。TDxesmc

互联架构的将来

不管InfiniBand、Ethernet还有是UnifiedBus成为主导和谈,将来互联技能均面对物理定律的底层挑战。RamonBeivide指出,‌收集拓扑与数据包路由‌是焦点问题,需经由过程削减收集跳数降低延迟,同时使用非最短路径的多路由设计晋升吞吐量‌。TDxesmc

“跟着电气开关芯片的尺寸不停缩小,驱动旌旗灯号经由过程传统铜走线所需的功耗已经形成‘功耗墙’。行业正快速转向共封装光学(CPO)技能,其功耗可降低3.5倍以上。”TDxesmc

博通是CPO技能的重要提倡者,认为该技能是“下一代人工智能收集的必备技能”,并指出,不管采用何种和谈,把握这一物理层技能将极可能决议下一代行业的带领者。TDxesmc

本文翻译自国际电子商情姊妹平台EETimes,原文标题:AIFactoriesFuelGlobalBattleOverSupercomputingInterconnectsTDxesmc

-37000Cm威尼斯