当AI算力竞赛进入“系统级对决”时代,单卡性能的“摩尔定律神话”正被架构革命重构。在美国对华芯片制裁持续加压的背景下,华为昇腾CLoudMatrix 384超节点的横空出世,不仅以300PFlops算力规模反超英伟达旗舰系统NVL72达70%,更揭示出一条破局之路——用“全对等架构”打破传统算力枷锁,以光通信技术跨越“内存墙”与“通信墙”。 黄仁勋的焦虑印证了行业变局:中国AI算力生态正从“单点突围”转向“系统升维”。华为通过计算-存储-网络协同创新,将国产昇腾芯片的集群效能推向极致,其高速互联总线与万卡级扩展能力,直指大模型训练的核心痛点。更深远的意义在于,昇腾CLoudMatrix 384超节点支撑的准万亿盘古Ultra MoE模型训练与DeepSeek推理实践,验证了国产算力全链条自主的可能,而光通信等传统优势技术的跨域复用,凸显中国在系统级创新中的独特路径。 这场“超节点之战”的本质,是算力范式从硬件堆砌到架构重定义的变革。当制裁倒逼出“用数学补物理”、“用非摩尔补摩尔”等颠覆性思维,全球AI竞赛的决胜点,已悄然落在谁能以系统工程弥合单点技术代差,而这恰是中国企业被逼出的生存智慧。 “中国做得太棒了,全球50%的人工智能研究人员都是中国人,你无法阻止他们,也无法阻止他们推进人工智能的发展。如果有人以为,一招就能切断中国发展人工智能的能力,那他绝对是无知的。”黄仁勋近期在台北电脑展上表示。 今年4月,美国政府再度对英伟达中国“特供版”芯片H20发出禁令。公告一出,黄仁勋立刻把皮衣换成西装,飞往中国,这是他3个月里第二次来华。在与政府官员的会面中,黄仁勋多次强调中国市场的重要性,表示希望继续与中国合作。 事实上,如果仅仅是数十亿美元的损失,对英伟达并不算“伤筋动骨”。这家市值超过3万亿美元的巨头,在AI风口下赚得盆满钵满,2025财年收入达到了1305亿美元,同比增长114%;净利润达到729亿美元,同比增长145%;毛利率达到惊人的75%。 真正让黄仁勋感到焦虑的,是中国自主技术正在美国禁令逼迫下快速突围。在英伟达的关键护城河中,不仅有GPU这种硬件,还有并行计算平台和编程模型CUDA,以及高速互联技术NVLink。在单点竞争上,中国企业可能很难撼动英伟达地位,但系统竞争并不一定。 近期,华为对外详细介绍了昇腾CLoudMatrix 384超节点技术,该技术使用国产昇腾芯片,在算力规模、训推效率和可靠性等关键维度上,全面超越了英伟达最强的NVL72系统。其中的核心在于,华为跳出了单卡算力的竞争,通过计算、存储、网络和架构的协同创新,弥补了硬件和芯片工艺的局限性,最大化发挥了芯片和系统能力。 中国建立了替代英伟达的方案,才是黄仁勋最担心的。这不仅可能导致该公司在中国遭受永久性损失,更可能动摇其“算力帝国”的统治根基。他喊话美国政府:赢得开发者的平台才能最终获胜,出口管制应该强化美国平台,而不是迫使全球一半的AI人才流向竞争对手。 看到中国再度突破,美国政客其实也很着急,但他们显然忽视了黄仁勋放宽管制的呼声。在严格限制英伟达对华出口的同时,美商务部最近还试图在全球封杀华为昇腾芯片,同时逼迫EDA巨头对华断供。但就像黄仁勋说的,这样只会激活中国企业绝处逢生的能力。 就在今年4月,美国对华断供H20之际,华为云率先在芜湖商用了CLoudMatrix 384超节点,随后又在贵安和乌兰察布等地商用,内部人士将其称为“核弹级创新”,今年上半年还将有数万卡规模上线,目标是“彻底终结行业算力焦虑”。而近日华为再度重磅宣布,已经成功在昇腾平台上实现了准万亿MoE模型的全流程训练,集群训练系统的性能上实现了业界领先,进一步验证了国产AI基础设施的自主创新能力。 “四年前,英伟达在中国的市场份额高达95%,如今只有50%。如果我们不在中国竞争,而是让中国开发出新的平台,建立一个丰富的生态系统,并且它们不是美国的,在世界推广人工智能技术的时候,他们的技术和领导力将会传播到世界各地。”不难看出,黄仁勋的焦虑感正越来越重,但美国政客仍在一意孤行,行业对老黄说辞也逐步失去了新鲜感。 电影《横空出世》中有这样一个片段,西北核基地总指挥冯石与海外归国的专家陆光达,在戈壁滩上聊天,冯石讲述了多年以前的经历:“在朝鲜战场上,我们抓了一个美军俘虏,一个小小的下士,竟敢在我面前,大声喊叫着,扔个原子弹让我们尝尝,给我们做外科手术。” 在那个年代,苏联在没有任何征兆的情况下突然中断协议,撤走所有提供技术援助的专家,美国则对华实行技术封锁。电影画面显示,在缺乏计算机支持的情况下,我方专家决定采取人海战术,通过昼夜不停地打算盘,最终在一年多的时间里算出答案,助力原子弹研发。 60年过去,美国依然试图通过技术封锁的手段,阻碍中国AI产业发展,这确实给中国带来了算力焦虑,毕竟大模型的Scaling Law(尺度定律)依然有效,越多的参数和数据,就能带来越强的性能和智能,这势必会导致对算力、显存和带宽的需求指数级增长。 但即便芯片制造工艺短期无法赶上,中国也并非束手无策。随着模型规模越来越庞大,单卡算力优势相对弱化,集群化、系统化的算力方案是大势所趋,这对中国是挑战更是机遇。 制裁重压下,华为技术团队提出了“用数学补物理”、“非摩尔定律补摩尔定律”、“用系统补单点”等核心思想:基于实际可获得的芯片制造工艺,计算、存储和网络技术协同创新,开创计算架构,打造“超节点+集群”系统算力解决方案,长期持续满足算力需求。 2022年下半年,“身处暴风雨中”的华为启动超节点研发,项目涉及海思、计算和云等多个业务团队。一位项目组专家回忆道,当时64卡的方案也够用,但华为目标是布局未来,并且准备以昇腾AI云服务的方式向行业提供算力,可以把超节点算力分开或合并,做大了没问题,做小了可能就会很被动。经过内部研讨,华为决定坚定投入384超节点研发。 严格意义上说,超节点(SuperPod)并非一个新概念,谷歌、英伟达等巨头很早就在探索。这项技术兴起的背景是,当Transformer这样的大型神经网络模型横空出世,对算力和显存的需求呈爆炸式增长,单个GPU甚至单个服务器已经难以招架,这时就需要构建大量高速计算芯片的高效统一结构,也就是超节点。相比传统的计算集群,超节点不仅要把大量GPU的算力堆起来,更需要在GPU之间、服务器之间构建超高速互联,来降低并行计算的开销,通过将大量GPU融为一体,提供庞大的有效AI算力,共同承担训练和推理任务。 去年3月,英伟达推出了GB200 NVL72超节点。通过“内部高速专线”NVLink,英伟达将36个Grace CPU和72个Blackwell GPU紧密集成,形成一个逻辑上的“巨型GPU”,总算力规模达到了180Pflops,网络互联总带宽达到130TB/s,内存总带宽达到576TB/s。按照英伟达的说法,GB200 NVL72超节点,可以将万亿参数大模型推理速度提高30倍。 在国内也有不少企业在探索超节点技术,像百度昆仑芯构建的超节点,通过自研互联通信协议XPU Link,单柜可容纳32/64张昆仑芯AI加速卡,单柜内卡间实现全互联通信,带宽提升高达8倍,一个机柜的算力最高可达到传统形态下8台8卡服务器。此外,阿里、腾讯、中国移动等巨头,也联合了多家软硬件企业,发起了不同的超节点互联开放标准。 但目前来看,使用全国产芯片构建超节点,还能全面超越英伟达NVL72的,只有华为。昇腾CLoudMatrix 384超节点在高速互联总线联接下,共由12个计算柜和4个总线柜构成,是目前业界最大规模的超节点,算力总规模达300Pflops,是英伟达NVL72的1.7倍;网络互联总带宽达269TB/s,比英伟达NVL72提升107%;内存总带宽达1229TB/s,比英伟达NVL72提升113%。 更重要的是,通过最佳负载均衡组网等方案,昇腾超节点还能进一步扩展为包含数万卡的Atlas 900 SuperCluster超节点集群,未来可以支撑更大规模的模型演进。 昇腾CLoudMatrix 384超节点,是华为在制裁重压下造出的一颗“算力核弹”。但对比英伟达和昇腾的方案也难免产生一些疑问。华为只是靠堆更多卡超越英伟达的吗?为什么英伟达和其他企业没有堆更多卡?相比英伟达把卡都放在一个柜子里(更传统意义的超节点,Scale up),昇腾为什么能分成多个计算柜(Scale out)?构建这样的巨型算力系统,能解决哪些问题? 面对大模型Scaling Law带来的巨量算力需求,传统解决方案是尽可能堆卡,构建更大的算力集群,但问题是,无限制的堆卡并不能带来算力的线性提升,反而会带来“内存墙”、“规模墙”和“通信墙”的问题。在计算集群内部,如果GPU之间和服务器之间不能“有效沟通”,GPU就会因为没有足够数据用于计算而闲着,进而会导致1+1<2的结果。 过去8年间,单卡硬件算力增长了40倍,但节点内总线带宽只增长了9倍,跨节点的网络带宽只增长了4倍,这使得集群网络通信成为当前大模型训练和推理的最大挑战。因此如果不能提升通信效率,单纯把384张昇腾卡堆起来,计算效果并不一定比72张英伟达卡更好,因为卡间和服务器间的通信开销会抵消算力增加的收益,导致有效算力不升反降。 尤其是,随着以DeepSeek为代表的MoE(混合专家模型)成为主流模型结构,其复杂的混合并行策略带来巨大挑战,通信需求骤增,TP(张量并行)、SP(序列并行)、EP(专家并行)单次通信量高达GB级且难以掩盖。实践数据表明,当TP、SP或EP等分布式策略的混合并行域超过8卡时,跨机通信带宽便成为性能瓶颈,导致系统性能大幅下降。 在这种行业趋势下,英伟达的NVLink体现出更大价值,它的意义在于在GPU之间搭建了一个“超宽车道”,可以让GPU绕开CPU直接通信。基于此,英伟达把将多颗GPU、CPU、高速内存、NVLink/NVSwitch等高度集成,构建起NVL72超节点。但问题是,英伟达的NVLink只是自家GPU之间的通信协议,而节点内还包括NPU、FPGA等非GPU异构硬件,它们不能通过NVLink这种专线进行通信,还是需要通过效率较低的PCIe协议走GPU中转,而节点之间的以太网/InfiniBand跨机互联,在海量计算中也存在带宽堵点。 相比于英伟达这种修补式的改进,昇腾CLoudMatrix 384超节点选择对传统计算架构进行重构。它的核心在于彻底打破了传统以CPU为中心的冯诺依曼架构,也就是“主从架构”,创新提出了“全对等架构”,凭借高速互联总线的关键突破,把总线从服务器内部扩展到整机柜、甚至跨机柜,最终将CPU、NPU、DPU、存储和内存等资源全部互联和池化,这样做就能去除掉繁多的中转环节,从而实现真正的点对点互联,进而实现更大的算力密度和互联带宽。 “过去数据中心都是通过CPU调度,昇腾CLoudMatrix 384超节点最核心的理念就是对等架构、点对点通信,不用绕过第三方通信。”华为的专家告诉观察者网,在超节点范围内,用高速总线互联替代传统以太,通信带宽提升了15倍;单跳通信时延也从2微秒做到200纳秒,降低了10倍,利用“AI专属高架桥”,集群可以像一台计算机一样工作,突破性能限制。 昇腾CLoudMatrix 384超节点之所以能大幅提升通信效率,还有一个关键原因,就是应用了光通信技术,在昇腾CLoudMatrix 384超节点中,共使用了3168根光纤和6912个400G光模块。相比之下,英伟达NVL72超节点采用的是全铜线架构,成本、功耗低,一经部署便保持固定状态、相对稳定,但缺点是只能部署2米以内,否则通信速率会大幅衰减,因此可联接芯片数量有限。而光模块则有高带宽和高速率的优势,损耗低,适合长距离传输,因而可连接更多芯片,部署灵活。 但光通信也不是全是优势,光模块成本比铜线成倍提升,功耗也大幅增加,并且光纤比较脆弱,故障率较高,插口没插紧、光纤弯了、插头有灰,随便一个小问题都可能断联。因此英伟达虽然在2022年考虑过使用光模块连接256块H100,但最后评估了成本和稳定性,决定不投入生产,说白了还是光通信技术太难驾驭。 但对华为这种通信巨头来说,“光模块都玩烂了”,长期积累的光通信技术已经实现国际领先,反而在超节点通信中构成独特优势。并且针对超节点集群容易发生故障的特征,华为云还给超节点配备了一个全科专业医生——昇腾云脑,主要包含“1-3-10”标准:第一步,1分钟内能感知故障,立刻发现问题不对劲;第二步,3分钟内精准定位问题,找到病根;第三步,10分钟内恢复,快速修复或者让系统继续运行。 海外知名分析机构SemiAnalysis在一篇报告中指出,华为芯片落后一代,但其扩展解决方案比英伟达和AMD目前在售产品领先一代。基于昇腾芯片打造的华为云CloudMatrix 384超节点,可与英伟达的GB200 NVL72直接竞争,并且在某些指标上比英伟达的机架级解决方案更为先进,其工程优势体现在系统层面,涵盖了网络、光通信和软件。 就连黄仁勋也公开承认被华为超越:“从技术参数看,华为的CloudMatrix 384超节点,性能上甚至超越了英伟达,比英伟达的尖端技术更具优势,因此我们必须高度重视这家实力雄厚的公司,全力以赴应对挑战。华为已明确表态要融合5G与AI技术,这种布局极具前瞻性,是完全正确的战略方向。我们也在推进同样的计划,但必须加快步伐。” 被最强对手认可背后,或许只有华为才了解突围的艰辛。有华为云内部人士透露,早期光模块根本不可用,想用“非摩尔去解决摩尔定律”,结果非摩尔的问题反而更大,“我们只能将每个光模块的端面全部拍照,再逐个分析,解决了数不清的问题,才实现较好的稳定性。” 想必大家都还记得年初DeepSeek的爆火。当时华为云和硅基流动联手,在CloudMatrix 384超节点上部署了DeepSeekR1/V3,获得了媲美英伟达H100的效果,甚至能提供生产级的推理服务。这其中的原因就在于,首先DeepSeek是一个MoE模型,相比传统的稠密模型,它只会调用最适合当前任务的少部分专家节点参与工作,节省算力的同时,提高推理速度。与此同时,昇腾CLoudMatrix 384超节点这种“去主从、全对等”的算力架构,又天然亲和MoE模型,相比传统一卡多专家的“小作坊模式”,超节点更像“大工厂模式”,通过高速互联总线,能够实现一卡一专家的分布式推理,单卡的MoE计算和通信效率都大幅提升。 “两三年前我们在设计超节点的时候,大家都觉得太大了,因为负载是技术、模型迭代和硬件创新不断交替。在当时,昇腾CLoudMatrix 384超节点的规模还是比较大的,即便是现在,DeepSeek的256个专家,也可以在上面实现一卡一专家,同时还能部署更多冗余专家,即便是最火爆的模型,我们支持都是绰绰有余。”华为专家对观察者网说道。 构建巨型的算力系统,华为的目标远不止推理。之前中国世界领先的大模型,如DeepSeek、Qwen,多由英伟达平台训练出来,而近日华为重磅发布的参数规模高达7180亿的全新模型——盘古Ultra MoE,是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。在训练方法上,华为首次披露了在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习(RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。 从“以小打大”的盘古72B(Pangu Pro),到业界一流的准万亿模型718B(Pangu Ultra MoE),再到频繁刷新推理速度记录,华为成功完成了国产算力+国产模型的全流程自主可控的训练实践,有力回应了外界对国产算力“只能推理、难以训练顶尖大模型”的疑虑。 当然,超节点本质还是在堆卡,这种“大力出奇迹”的模式不可避免带来功耗、冷却等难题,传统服务器机柜功耗通常在几千瓦,AI超节点机柜功耗可达100千瓦甚至更高。昇腾CLoudMatrix 384超节点在超越英伟达NVL72的同时,功耗也达到后者的4.1倍,每FLOP功耗高出2.5倍。 但需要指出的是,功耗在中国虽是不可忽视的问题,但并不构成制约因素。SemiAnalysis在报告中指出,西方普遍认为人工智能受限于电力,但在中国情况恰恰相反。除了火电,中国还拥有全球最大的太阳能、水电和风电装机容量,目前在核电部署方面也处于领先地位。如果由于相对充足的电力而不存在功耗限制,那么放弃功耗指标并增加扩展性是合理的。 华为也并非完全不考虑功耗。华为技术专家告诉观察者网,华为在液冷方面有很多独特技术,包括三明治架构等工程创新,风冷也有很多工程和技术创新,来保障功耗的控制和降低。同时不管是超节点还是算力集群,并非时刻满负载在跑,华为也在做一些动态调频和降温。 在云计算中心,华为云还打造了恒温“训练基地”,采用液冷冷板散热技术,让冷媒直接接触发热部件,散热效率比传统风冷提升了50%。再加上iCooling智能温控系统,每五分钟动态调整策略,无论外部温度怎么变化,都能让数据中心保持最佳状态。最终,数据中心的能效比PUE做到1.12,比行业平均节能70%。 事实上,在技术封锁下,能用可接受的代价,最大程度解决现实问题,无疑就是胜利,这也是华为以空间换算力、以带宽换算力、以能源换算力的思路所在。当单点技术被封锁时,全栈协同与规模优势将成为破局关键。在日益复杂的国际环境下,华为昇腾CLoudMatrix 384超节点的诞生,不仅为国内提供了除英伟达之外的第二选择,也为中国AI产业发展吃下一颗“定心丸”。 本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。
9.1樱花动漫免费动漫高清版职能部门应该承担起自己的责任,坚守立场,对于无理举报的行为要坚决抵制。只有这样,才能扬社会正气,还社会和谐之风,让教育回归到它原本的轨道上,让老师能够安心教学,让学生能够健康成长。我们期待着一个更加公正、和谐的教育环境的到来,让教育这棵大树能够在良好的生态中茁壮成长,为社会培养出更多优秀的人才。截至2024年3月31日,贵阳恒大尚云房地产开发有限公司债权总额约2.59亿元,债权本金约2.299亿元,债权利息约2942万元。以位于观山湖区金朱路1号金阳新世界碧潭园2A、2C地块(胧玥组团)G4栋商业房产提供第二顺位抵押担保,房产类型为商业,面积为31469.06平方米。 土地类以位于贵阳市白云区艳山红镇原氧化铝厂的土地提供抵押担保,土地类型为住宅,面积为19604.2平方米。恒大地产集团有限公司在最高额25000万元内提供连带责任保证担保。9.1樱花动漫免费动漫高清版轮流和两个男人一起很容易染病吗驭势科技是成立于北京的技术公司,其研发的自动驾驶技术通过在香港机场落地实践,最终走向国际,也因此获得“北京基因、香港血统、中国标准、世界产品”的赞誉。这类伤病的关键在于避免膝盖感染等并发症,在康复中必须非常谨慎,设定短期目标。我每天都怀着最大的热情去康复,从拄拐走路、去健身房、去游泳池到开始跑步,一点点来,这就是我的康复之路。
20250812 👠 9.1樱花动漫免费动漫高清版新消费为啥能够爆火呢?其实也是必然。现在,市场上消费主力人群,消费习惯已经基本形成,大家都需要增量,而这个增量就是Z世代人群,面向他们的,其实就算新消费了。Z世代人群,喜欢自我表达,酷爱圈层文化,又不太受传统品牌束缚,更看中的是能体验、参与、设计等悦己消费,在满足兴趣后,还有复购欲望。而新消费刚好,能够满足,其实核心就是,情绪价值。就是在产品的功能趋同后,谁能满足用户的情绪价值,谁就能获得市场,而这个情绪价值也不是单纯的“我高兴”,而是情绪上实现归属感、认同感、仪式感、愉悦感、优越感的满足。举个例子,现在被疯狂抢购的Labubu,为啥能这么火爆呢?其实大家是在做一件事儿:我和我的“同好”们(归属)在抢(仪式)一个“懂我们”(认同)的东西,抢到后我自己高兴(愉悦),还能表现出我的“欧气”(优越)。这么一想,用不太贵的价格,参与了一场悦己的潮流活动,还是非常划算的。但是,消费逻辑也并不等于投资逻辑。今年,港股的“新消费F4”,总市值超过7000亿,涨势很猛,为啥呢?1、目前来看,虽然用户拥挤,但是新消费这个赛道,暂时还没那么拥挤;2、他们的高估值,还是高成长性在支撑,毕竟在消费市场大火,他们的收益是肉眼可见地在增长;3、能够破圈的公司,还是具有稀缺性;但是,问题也来了,新消费还是很有波动性。这里面有泡沫吗?肯定是有的,在连续上涨之后,新消费概念还是有回调。这种高成长性可持续吗?这也是一个问题,比如,在抢购潮背后,是真缺货还是饥饿营销呢?大家的胃口被吊得太久,可能面对的就是情绪转移。下一匹新消费的黑马在哪里?不知道,新消费是必然,但是成为爆款,也具有一定的偶然性,毕竟有些爆款不是新IP也不是新上市,一夜爆红之后,内部暂时也无代餐。投资的底层逻辑,依然是价值投资,业绩、发展前景、竞争力。姐姐让我戴上避孕套歌曲原唱“我在韩国生久久久久久久活了很久,但这种形式的抗议前所抖阴2025未有,”一名50多岁、在首尔经营中餐馆的老板担忧地说,“现在每次上国产精品 春水班,我都倍感焦虑。”
📸 侯会仿记者 陈秋宏 摄
20250812 🔞 9.1樱花动漫免费动漫高清版这极为反差的两面,表明具身智能正来到发展的奇点:尽管外形酷似成年,但它们的智慧处于“婴儿期”。作为“硅基文明”,机器人想要发育“成年”,硬件端的技术、软件端的数据、应用端的场景,缺一不可。(证券时报)漫蛙漫画(网页入口)新兴技术的发展和应用并非一帆风顺,技术从实验室走向大规模应用的道路布满荆棘。新兴技术需跨越“技术成熟度曲线”与“社会接受度鸿沟”双重障碍。一方面,技术的成熟度和稳定性仍需进一步提高,许多技术在实际应用中可能会遇到各种意想不到的问题,需要持续的研发投入和技术优化。另一方面,新兴技术的推广往往需要配套的基础设施建设、政策法规支持以及公众认知和接受度的提升。这需要政府在政策上给予扶持,引导社会资本投入,并且向公众普及相关知识,提高公众对新兴技术的认可度。
📸 罗凡记者 张胜军 摄
💔 “在准备方面,这段时间真的很艰难。很多球员不得不退出,我们想为那些不能到场的人、为我们自己、为在场的支持者以及在家乡的支持者而努力。我们看到了这一切,并对此心存感激。最后再加把劲,希望我们能再次成为冠军。”宝宝下面湿透了还嘴硬的原因