J9.com(中国大陆)-官方网站

J9官网 电力科技宣传图

J9股份发展有限公司已完成多类轨道交通牵引供电、机场供配电及港口岸电工程, 具备完善的设计与运维体系,项目可用率保持在 99.995%。公司以 EN50163、 IEC61850、IEC80005 等标准为依据,持续提升 J9.com平台 的工程数据能力。

最新公告: J9股份发展有限公司持续推进轨道交通牵引供电、机场航站楼供配电及港口岸电系统工程,为客户提供稳定可靠的电力科技服务...
系统方案
0577-61731909
电话:0577-61731909
地址:浙江省乐清市乐清经济开发区经七路293 号
传真:0577-61731909
邮箱:3410832415@qq.com
行业资讯

当前位置: 首页 > 行业资讯

从预训练到推理拐点英伟达能靠Rubin延续霸权吗?

文章来源:小编 更新时间:2026-01-09 17:50:51

  「六芯组合」是单芯片红利触顶的现实倒逼,也是英伟达在推理市场的破局之举。

  在预训练赛道凭借硬件性能与生态优势称霸的英伟达,进入AI推理时代后,面临新的挑战。

  在CES 2026上,英伟达创始人兼CEO黄仁勋强调了“物理AI”是AI的下一波浪潮。他将推理性AI置于核心位置,发布了具备自主思考能力的自动驾驶AI Alpamayo,提出了与西门子联手打造工业AI的未来蓝图,并且,也披露了下一代AI计算平台Vera Rubin的细节。

  显然,黄仁勋不愿让Rubin停留在“概念革命”的想象层。他花了大量篇幅阐述AI推理带来的挑战:模型规模每年增长十倍,推理从单次生成走向多步思考,所需算力呈指数级膨胀,更长的上下文也导致存储与带宽压力飙升。

从预训练到推理拐点英伟达能靠Rubin延续霸权吗?(图1)

  在部分业内人士眼中,这是一场“营销意味更重”的发布:面对TPU、超节点等在推理领域相继崛起,以及单芯片制程逼近物理极限的现实,英伟达推出六芯协同组合Rubin平台,是其保持在推理市场领先地位的关键一步。

  Rubin的推理性能突破,建立在NVFP4自适应调整精度前提下,“但提高FP4精度的推理,难免会挤压FP16、FP32等更高精度的计算资源,且精度下降后,对于文生视频等对精度敏感的场景而言,推理质量也会肉眼可见地变差”。

  而对于黄仁勋提出Rubin平台用45℃温水冷却、有望为全球数据中心总电力消耗节省约6%的论断,AI系统架构师徐先生解读:“这种方式的出液与进液温差很小,核心元器件的实际工作温度可能维持在八九十摄氏度,机柜的故障率很难实质下降。”

  面对这一系列严苛的前置条件,Rubin能否切入推理市场并实现大规模落地,尚不明朗。(更多关于Rubin落地的细节判断,欢迎添加作者微信Ericazhao23交流。)

  不过,黄仁勋形容这套六芯组合系统的出现“恰逢其时”——它告别了单一芯片的能力竞赛,迈向算力基础设施的全栈升级,这与他在GTC 2025上强调的打造“AI工厂”概念,一脉相承。

  对于此次战略转向,多位业内人士给出了相似判断:“Rubin的发布对于国产芯片来说短期会利空,但长期会利好。从英伟达这个动作可以看出,单芯片性能红利已经触顶,多芯片协同与系统设计能力会成为新的破局关键。”

  Rubin的发布,是英伟达在推理时代进一步加固自身的生态护城河。然而,行业也已形成共识:“训练业务的价值核心是效率,但推理业务的核心是成本”。在新的价值逻辑下,Rubin要实现它的蓝图,需要跨过哪些关卡?在竞争日趋激烈的推理赛道中,英伟达还能延续其在预训练领域的霸主地位吗?

  在CES现场聆听分享的胡晨辉,已有十多年芯片从业经验。已经耳闻Rubin存在的他,这次比起惊喜,更多是平静地感慨:“它终于来了”。

  训练一个十万亿参数规模的大模型时,其所需的集群规模仅为Blackwell系统的四分之一;在同等功耗和空间条件下,一座Vera Rubin数据中心的AI计算吞吐量,预计可达到基于Hopper架构数据中心的约100倍。

  不仅如此,未来大规模AI服务的token生成成本,预计能降到当前水平的十分之一左右。

  这样的性能与成本优势,切中了推理时代的核心需求——过去数据中心“更大模型+更强算力”的发展路径,如今已难以被复制,各类交互、驾驶、控制等场景对时延高度敏感,且更多落地在端边侧,对成本有着苛刻追求。面对群雄逐鹿的格局,英伟达也开始以“性价比”为抓手,坚守推理市场的份额。

  黄仁勋还指出,此次Rubin的发布,也打破了英伟达过往“每一代新平台不应有超过一两个芯片发生变动”的原则,可以说是其从“AI芯片厂商”,向打造“AI工厂”转型的重要一步。

  对于这一策略的转变,炜烨智算副总裁孟健雄认为,短期内对国产芯片可能利空,但最终一定是具备制造业优势的中国更占赢面——只是这个周期可能非常漫长。

  徐先生也直言,这次英伟达的动作,释放出一个关键信号:如今他们讲的不再是单芯片的故事,而是多芯片系统的协同价值,这意味着其芯片设计、代工封装等环节已经接近物理极限,对国产芯片来说,反而是一种利好。

  芯片领域资深投资人IO资本创始合伙人赵占祥,也持相似立场。他指出,通过全局设计来提升综合算力、推出整机乃至集群级的解决方案,是Google TPU很早就开始走的路线,而这条技术路径,国内已有不少芯片创业公司在积极布局。(各类芯片架构的进一步探讨,欢迎添加作者微信Ericazhao23交流。)

  他进一步分析说:大模型推理对KVCache的调用频率更高,当前的性能瓶颈是GPU直连的HBM容量有限,而存储服务器又与计算单元的物理距离过远。由此来看,未来CXL存储、LPDDR等新型高速存储技术,都有望被部署到GPU周边,通过缩短数据传输链路来提升推理性能,进而带动相关技术的商业化落地与规模化应用。

  毋庸置疑的是,英伟达发布的Rubin平台,在硬件性能和性价比上的进一步突破,也加强了其生态护城河。

  但赵占祥也指出一个核心矛盾:英伟达试图通过强化软硬耦合,绑定客户采购其全套产品;但客户其实更倾向于选择软硬解耦的方案,不愿被英伟达的生态完全绑定,因此,采购决策负担与顾虑也可能随之加重。

  不过,在生态绑定的争议之外,Rubin所标榜的五倍性能突破,要真正落地应用,还需跨过多重技术与实践关卡。

  这是一个完整的处理器单元,能自适应地调整精度和结构,从而在允许精度损失的场景下实现更高吞吐量,并在需要时恢复到可能的精度。这种动态调整能力,完全在处理器内部自主完成。Rubin GPU的AI推理浮点性能相较上一代Blackwell提升五倍,核心驱动力正是NVFP4 Tensor Core对精度与吞吐率的自适应调度能力。

  “晶体管就那么大,提高FP4精度的推理,难免会挤压FP16、FP32等更高精度的计算资源”,AI系统架构师徐先生说道。

  显然,高精度是预训练的刚需,一定程度上牺牲了精度的Rubin,瞄准的最大场景或是未来行业模型的后训练和推理应用、训推一体化领域。

  但这就陷入一个尴尬境地:即便英伟达仍维持着技术领先的地位,国内厂商却已开始凭借超节点等形态进行追赶,“这条赛道跟国产芯片厂商布局高度重叠,英伟达当下力推的技术方向,国产厂商也在做”,徐先生补充道。

  同时,不可忽略的是,在推理领域,精度下调虽能减少显存占用、提升运算速度,但也会对模型的最终准确率产生影响。

  有国内大模型厂商的从业人士告诉雷峰网,公司内部曾开展多轮不同精度的对比测试,结果显示,尤其是在文生视频领域,当精度从FP16降到FP8,视频的生成效果已经肉眼可见地变差——这还建立在当前多数文生视频产品时长仅为五秒的前提下。

  不过,业内也有不同看法。赵占祥认为,在推理需求高速增长的情况下,精度压缩是行业必经之路,由于NVFP4张量核心能实时分析Transformer模型各层的计算特性、动态调整数据精度与计算路径,本质上还是推理的自适应数据压缩技术,会在精度损失和推理性能之间做平衡。

  即便如此,市场对于向FP4精度跨越仍存疑虑:当前业内主流的推理精度普遍停留在FP8级别,当精度进一步压缩,虽然英伟达宣称可通过特定技术实现微乎其微的精度损失,但在文生视频等对精度敏感的场景中,是否会引发更显著的效果衰减?

  “Vera Rubin的功耗是Grace Blackwell的两倍,但我们仍然能将Vera Rubin塞进这个框架里,这本身就是一个奇迹”,黄仁勋在大会上说道。但这份乐观,能否真正实现?

  “散热是未来超节点和万卡集群最重要的竞争点”,AI系统架构师徐先生说道。

  Rubin的液冷计算托盘,摒弃了传统的电缆和软管设计。在徐先生看来,这样设计的优势在于无线缆架构,能对GPU、CPU、网卡及存储等核心模块都进行制冷处理。

  不过,他指出,这种方案下,如果进液温度为45度,出液温度可能就在50度左右,如此小的温差,预估核心元器件的实际工作温度仍会维持在八九十摄氏度。这就意j9跨境服务味着,机柜的故障率很难实质下降,整个集群的模型浮点运算利用率(MFU)大概率停留在30%-50%的区间,硬件算力依然存在严重浪费。

  尽管已有业内消息称,面对Rubin与下一代Feynman平台的功耗激增,现有散热方案已经难以应对,英伟达正要求供应商研发“微通道水冷板”技术,但在徐先生看来,这种方案的天花板较低,最终的散热体系还是要融入浸没式液冷技术,才能突破瓶颈。(服务器散热技术迭代,液冷如何破局?欢迎添加作者微信Ericazhao23交流。)

  “一个很有意思的现象,以前你走进大厂的机房,一排机柜看过去都是满满当当装着服务器,但现在,一个机柜里可能只有一两台,看起来空空荡荡的”,某大厂算力行业人士李明说道。

  黄仁勋也抓住了这一痛点。他介绍,Vera Rubin平台坚持使用45摄氏度温水冷却,无需能耗巨大的冷水机组,这一设计预计能为全球数据中心节省约6%的总电力消耗。

  在李明看来,如果这个故事真能讲通,那对于当下电力资源紧缺的全球数据中心市场来说,无疑是一剂强心针。

  不过,一个无法回避的现实是,Rubin的规模化落地,需要一套更全面的非标配套体系作为支撑。

  胡晨辉指出,未来部署Rubin产品的总拥有成本(TCO)肯定会降低,毕竟能源利用效率显著提升,但同时,部署Rubin的IDC可能需要专用变电站来支撑。徐先生也认为,Rubin架构单机柜的功耗门槛极高,需要大量非标电压、电线等配套设施,实则给供电系统带来了不小的压力。

  与此同时,很多数据中心原来的硬件配置乃至运维团队,可能都要因此“换一波”。不过,炜烨智算副总裁孟健雄也推测,在故障率相当的前提下,设备集成度越高、系统内故障源点越少,相应的维护成本也有望降低。

  在群雄逐鹿下,英伟达的Rubin“豪赌”能否落地,取决于其能否跨过能源与精度的双重门槛;而国产芯片的未来,则在于能否抓住这次规则重构的机遇,例如通过增加芯片部署数量、制定更优的散热方案,将系统设计的优势转化为真正的市场竞争力。

  当六芯组合的时代真正来临,胡晨辉最强的体会是:SOC不再是传统意义上的系统级芯片,系统也不再局限于硬件的简单集成,行业里的参与者,都要树立做“场景底座”的商业思维。

【返回列表】

上一篇 : 2026年光纤光谱仪、光谱分析仪、测量仪厂家深度测评

下一篇 : 新大陆NLSFM530嵌入式固定式一维条码扫描器-新大陆自动识别

网站首页 企业简介 系统方案 技术资料 业务范围 工程服务 行业资讯 服务咨询 联系方式

地址:浙江省乐清市乐清经济开发区经七路293 号电话:0577-61731909传真:0577-61731909

版权所有:Copyright © 2025 J9股份发展有限公司 版权所有 浙ICP备2021037937号-1

分享到: