系统方案

电话：0577-61731909
地址：浙江省乐清市乐清经济开发区经七路293 号
传真：0577-61731909
邮箱：3410832415@qq.com

行业资讯

当前位置：首页 > 行业资讯

从预训练到推理拐点英伟达能靠Rubin延续霸权吗？

文章来源：小编　更新时间：2026-01-09 17:50:51

　　「六芯组合」是单芯片红利触顶的现实倒逼，也是英伟达在推理市场的破局之举。

　　在预训练赛道凭借硬件性能与生态优势称霸的英伟达，进入AI推理时代后，面临新的挑战。

　　在CES 2026上，英伟达创始人兼CEO黄仁勋强调了“物理AI”是AI的下一波浪潮。他将推理性AI置于核心位置，发布了具备自主思考能力的自动驾驶AI Alpamayo，提出了与西门子联手打造工业AI的未来蓝图，并且，也披露了下一代AI计算平台Vera Rubin的细节。

　　显然，黄仁勋不愿让Rubin停留在“概念革命”的想象层。他花了大量篇幅阐述AI推理带来的挑战：模型规模每年增长十倍，推理从单次生成走向多步思考，所需算力呈指数级膨胀，更长的上下文也导致存储与带宽压力飙升。

　　在部分业内人士眼中，这是一场“营销意味更重”的发布：面对TPU、超节点等在推理领域相继崛起，以及单芯片制程逼近物理极限的现实，英伟达推出六芯协同组合Rubin平台，是其保持在推理市场领先地位的关键一步。

　　Rubin的推理性能突破，建立在NVFP4自适应调整精度前提下，“但提高FP4精度的推理，难免会挤压FP16、FP32等更高精度的计算资源，且精度下降后，对于文生视频等对精度敏感的场景而言，推理质量也会肉眼可见地变差”。

　　而对于黄仁勋提出Rubin平台用45℃温水冷却、有望为全球数据中心总电力消耗节省约6%的论断，AI系统架构师徐先生解读：“这种方式的出液与进液温差很小，核心元器件的实际工作温度可能维持在八九十摄氏度，机柜的故障率很难实质下降。”

　　面对这一系列严苛的前置条件，Rubin能否切入推理市场并实现大规模落地，尚不明朗。（更多关于Rubin落地的细节判断，欢迎添加作者微信Ericazhao23交流。）

　　不过，黄仁勋形容这套六芯组合系统的出现“恰逢其时”——它告别了单一芯片的能力竞赛，迈向算力基础设施的全栈升级，这与他在GTC 2025上强调的打造“AI工厂”概念，一脉相承。

　　对于此次战略转向，多位业内人士给出了相似判断：“Rubin的发布对于国产芯片来说短期会利空，但长期会利好。从英伟达这个动作可以看出，单芯片性能红利已经触顶，多芯片协同与系统设计能力会成为新的破局关键。”

　　Rubin的发布，是英伟达在推理时代进一步加固自身的生态护城河。然而，行业也已形成共识：“训练业务的价值核心是效率，但推理业务的核心是成本”。在新的价值逻辑下，Rubin要实现它的蓝图，需要跨过哪些关卡？在竞争日趋激烈的推理赛道中，英伟达还能延续其在预训练领域的霸主地位吗？

　　在CES现场聆听分享的胡晨辉，已有十多年芯片从业经验。已经耳闻Rubin存在的他，这次比起惊喜，更多是平静地感慨：“它终于来了”。

　　训练一个十万亿参数规模的大模型时，其所需的集群规模仅为Blackwell系统的四分之一；在同等功耗和空间条件下，一座Vera Rubin数据中心的AI计算吞吐量，预计可达到基于Hopper架构数据中心的约100倍。

　　不仅如此，未来大规模AI服务的token生成成本，预计能降到当前水平的十分之一左右。

　　这样的性能与成本优势，切中了推理时代的核心需求——过去数据中心“更大模型+更强算力”的发展路径，如今已难以被复制，各类交互、驾驶、控制等场景对时延高度敏感，且更多落地在端边侧，对成本有着苛刻追求。面对群雄逐鹿的格局，英伟达也开始以“性价比”为抓手，坚守推理市场的份额。

　　黄仁勋还指出，此次Rubin的发布，也打破了英伟达过往“每一代新平台不应有超过一两个芯片发生变动”的原则，可以说是其从“AI芯片厂商”，向打造“AI工厂”转型的重要一步。

　　对于这一策略的转变，炜烨智算副总裁孟健雄认为，短期内对国产芯片可能利空，但最终一定是具备制造业优势的中国更占赢面——只是这个周期可能非常漫长。

　　徐先生也直言，这次英伟达的动作，释放出一个关键信号：如今他们讲的不再是单芯片的故事，而是多芯片系统的协同价值，这意味着其芯片设计、代工封装等环节已经接近物理极限，对国产芯片来说，反而是一种利好。

　　芯片领域资深投资人IO资本创始合伙人赵占祥，也持相似立场。他指出，通过全局设计来提升综合算力、推出整机乃至集群级的解决方案，是Google TPU很早就开始走的路线，而这条技术路径，国内已有不少芯片创业公司在积极布局。（各类芯片架构的进一步探讨，欢迎添加作者微信Ericazhao23交流。）

　　他进一步分析说：大模型推理对KVCache的调用频率更高，当前的性能瓶颈是GPU直连的HBM容量有限，而存储服务器又与计算单元的物理距离过远。由此来看，未来CXL存储、LPDDR等新型高速存储技术，都有望被部署到GPU周边，通过缩短数据传输链路来提升推理性能，进而带动相关技术的商业化落地与规模化应用。

　　毋庸置疑的是，英伟达发布的Rubin平台，在硬件性能和性价比上的进一步突破，也加强了其生态护城河。

　　但赵占祥也指出一个核心矛盾：英伟达试图通过强化软硬耦合，绑定客户采购其全套产品；但客户其实更倾向于选择软硬解耦的方案，不愿被英伟达的生态完全绑定，因此，采购决策负担与顾虑也可能随之加重。

　　不过，在生态绑定的争议之外，Rubin所标榜的五倍性能突破，要真正落地应用，还需跨过多重技术与实践关卡。

　　这是一个完整的处理器单元，能自适应地调整精度和结构，从而在允许精度损失的场景下实现更高吞吐量，并在需要时恢复到可能的精度。这种动态调整能力，完全在处理器内部自主完成。Rubin GPU的AI推理浮点性能相较上一代Blackwell提升五倍，核心驱动力正是NVFP4 Tensor Core对精度与吞吐率的自适应调度能力。

　　“晶体管就那么大，提高FP4精度的推理，难免会挤压FP16、FP32等更高精度的计算资源”，AI系统架构师徐先生说道。

　　显然，高精度是预训练的刚需，一定程度上牺牲了精度的Rubin，瞄准的最大场景或是未来行业模型的后训练和推理应用、训推一体化领域。

　　但这就陷入一个尴尬境地：即便英伟达仍维持着技术领先的地位，国内厂商却已开始凭借超节点等形态进行追赶，“这条赛道跟国产芯片厂商布局高度重叠，英伟达当下力推的技术方向，国产厂商也在做”，徐先生补充道。

　　同时，不可忽略的是，在推理领域，精度下调虽能减少显存占用、提升运算速度，但也会对模型的最终准确率产生影响。

　　有国内大模型厂商的从业人士告诉雷峰网，公司内部曾开展多轮不同精度的对比测试，结果显示，尤其是在文生视频领域，当精度从FP16降到FP8，视频的生成效果已经肉眼可见地变差——这还建立在当前多数文生视频产品时长仅为五秒的前提下。

　　不过，业内也有不同看法。赵占祥认为，在推理需求高速增长的情况下，精度压缩是行业必经之路，由于NVFP4张量核心能实时分析Transformer模型各层的计算特性、动态调整数据精度与计算路径，本质上还是推理的自适应数据压缩技术，会在精度损失和推理性能之间做平衡。

　　即便如此，市场对于向FP4精度跨越仍存疑虑：当前业内主流的推理精度普遍停留在FP8级别，当精度进一步压缩，虽然英伟达宣称可通过特定技术实现微乎其微的精度损失，但在文生视频等对精度敏感的场景中，是否会引发更显著的效果衰减？

　　“Vera Rubin的功耗是Grace Blackwell的两倍，但我们仍然能将Vera Rubin塞进这个框架里，这本身就是一个奇迹”，黄仁勋在大会上说道。但这份乐观，能否真正实现？

　　“散热是未来超节点和万卡集群最重要的竞争点”，AI系统架构师徐先生说道。

　　Rubin的液冷计算托盘，摒弃了传统的电缆和软管设计。在徐先生看来，这样设计的优势在于无线缆架构，能对GPU、CPU、网卡及存储等核心模块都进行制冷处理。

　　不过，他指出，这种方案下，如果进液温度为45度，出液温度可能就在50度左右，如此小的温差，预估核心元器件的实际工作温度仍会维持在八九十摄氏度。这就意j9跨境服务味着，机柜的故障率很难实质下降，整个集群的模型浮点运算利用率（MFU）大概率停留在30%-50%的区间，硬件算力依然存在严重浪费。

　　尽管已有业内消息称，面对Rubin与下一代Feynman平台的功耗激增，现有散热方案已经难以应对，英伟达正要求供应商研发“微通道水冷板”技术，但在徐先生看来，这种方案的天花板较低，最终的散热体系还是要融入浸没式液冷技术，才能突破瓶颈。（服务器散热技术迭代，液冷如何破局？欢迎添加作者微信Ericazhao23交流。）

　　“一个很有意思的现象，以前你走进大厂的机房，一排机柜看过去都是满满当当装着服务器，但现在，一个机柜里可能只有一两台，看起来空空荡荡的”，某大厂算力行业人士李明说道。

　　黄仁勋也抓住了这一痛点。他介绍，Vera Rubin平台坚持使用45摄氏度温水冷却，无需能耗巨大的冷水机组，这一设计预计能为全球数据中心节省约6%的总电力消耗。

　　在李明看来，如果这个故事真能讲通，那对于当下电力资源紧缺的全球数据中心市场来说，无疑是一剂强心针。

　　不过，一个无法回避的现实是，Rubin的规模化落地，需要一套更全面的非标配套体系作为支撑。

　　胡晨辉指出，未来部署Rubin产品的总拥有成本（TCO）肯定会降低，毕竟能源利用效率显著提升，但同时，部署Rubin的IDC可能需要专用变电站来支撑。徐先生也认为，Rubin架构单机柜的功耗门槛极高，需要大量非标电压、电线等配套设施，实则给供电系统带来了不小的压力。

　　与此同时，很多数据中心原来的硬件配置乃至运维团队，可能都要因此“换一波”。不过，炜烨智算副总裁孟健雄也推测，在故障率相当的前提下，设备集成度越高、系统内故障源点越少，相应的维护成本也有望降低。

　　在群雄逐鹿下，英伟达的Rubin“豪赌”能否落地，取决于其能否跨过能源与精度的双重门槛；而国产芯片的未来，则在于能否抓住这次规则重构的机遇，例如通过增加芯片部署数量、制定更优的散热方案，将系统设计的优势转化为真正的市场竞争力。

　　当六芯组合的时代真正来临，胡晨辉最强的体会是：SOC不再是传统意义上的系统级芯片，系统也不再局限于硬件的简单集成，行业里的参与者，都要树立做“场景底座”的商业思维。

【返回列表】

上一篇 : 2026年光纤光谱仪、光谱分析仪、测量仪厂家深度测评

下一篇 : 新大陆NLSFM530嵌入式固定式一维条码扫描器-新大陆自动识别

J9.com（中国大陆）-官方网站

从预训练到推理拐点英伟达能靠Rubin延续霸权吗？