“AI不是工具,是会用工具的工人。”英伟达在华盛顿特区召开GTC(GPU技术大会),创始人兼CEO黄仁勋穿着标志性的皮衣小跑上台。

在这个由英伟达主办的,探讨人工智能、深度学习、自动驾驶等领域最新技术的,全球性的技术大会上,黄仁勋首次提出了这个颠覆性的AI理念这一认知转变,从根本上重新定义了人类与技术的关系,也为英伟达的未来画出了清晰的路线图。
英伟达正向政策制定者证明,公司是美国技术栈的核心,限制其发展就是损害美国自身的利益黄仁勋甚至在小组讨论中坦言,选择华盛顿是为了让特朗普总统能够出席尽管总统当时正在亚洲访问,但已计划在第二天与黄仁勋会面英伟达重新定义AI产业
黄仁勋对AI的定义,远不止于聊天机器人他将AI的演进类比为一场编程范式的革命在CPU(中央处理器)时代,人类工程师手工编写代码、软件在Windows系统上运行今天,机器学习模型直接在GPU上训练和运行能源、GPU、超算、模型、应用,这条完整的技术栈构成了现代AI。
最关键的洞察在于对产业本质的剖析AI是工人更准确地说,是会使用工具的工人这是历史性的差异在此之前,人类发明的一切都是服务于自身的工具但AI不同这一次,技术本身开始学会自己干活当AI从工具转变为工人,它就催生了一个全新的产业。
信息被编码成tokens后,就需要一个AI工厂来处理它们。这个工厂是什么?就是AI的物理大脑,数据中心。这种工厂与传统数据中心不同,它的目标就是运行AI。就像人的大脑就是“运行”思想。

AI工厂只做两件事:生产尽可能有价值、更智能的token以极致的速度生产出来AI工人的诞生需要三大定律驱动这一切的底层逻辑,是黄仁勋多次提到的三大扩展定律(Scaling Laws)这三条定律构成了英伟达内部一个强大的良性循环。
第一条是预训练扩展(Pretraining Scaling)这是AI开发的元定律它揭示了一个可预测的关系:增加训练数据量、模型参数和计算资源,模型的智能和准确性就会相应提升数据、模型大小和计算三者相互关联,更大的模型在更多数据的喂养下,性能会变得更强。
正是这条定律催生了万亿参数的Transformer模型、专家混合模型(MoE)和各种分布式训练技术,它们都极度渴求计算资源第二条是后训练扩展(Post-training Scaling)预训练一个巨大的基础模型,投资巨大,门槛极高。
但模型一旦发布,其他人就可以在其基础上进行微调,以适应自己的特定应用这个过程极大地降低了AI的采用门槛后训练过程催生了对加速计算的累积需求一个流行的开源模型,可能会衍生出成百上千个针对不同领域的变体开发这些衍生模型所需的总计算量,可能是预训练原始模型的30倍。
后训练就像是把一个通才AI送到专门的职业学校,学习特定领域的技能技术手段包括微调、剪枝、量化、蒸馏和合成数据增强等,它们能有效提升模型在特定任务上的效率和准确性第三条是测试时扩展(Test-time Scaling)。
这条定律作用于推理阶段,也被称为长思考(long thinking)传统的AI模型对用户提问,会迅速给出一个答案采用长思考技术的模型,则会在推理时投入额外的计算,在给出最终答案前,评估和推理多种可能的响应路径。
在生成复杂代码这类任务上,这个推理过程可能需要几分钟甚至几小时对于一个极具挑战性的问题,相比传统大语言模型(LLM)一次性回答,它可能需要超过100倍的计算量,但最终得到正确答案的可能性也大大增加这种能力让AI能够探索不同的解决方案,逐步优化答案。
具体方法包括思维链提示,将复杂问题拆解成简单步骤;或是多数投票采样,生成多个回答后选择出现频率最高的那个测试时扩展解锁了AI进行复杂、多步骤推理的能力,这是自主代理AI和物理AI应用的核心要求新一代AI工人的大脑构造。
理解了AI工人的理念和驱动其发展的定律,我们再看英伟达发布的硬件,就有了全新的视角故事要从九年前说起2016年,黄仁勋亲手将世界上第一台AI超级计算机DGX-1,交付给旧金山一家名为OpenAI的初创公司。
黄仁勋回忆道:在一家名为OpenAI的小型初创公司,我亲手将第一台系统交给了马斯克从它诞生了ChatGPT,开启了AI革命。

九年后的今天,在华盛顿的舞台上,黄仁勋公布了未来三年的GPU路线图:从Blackwell,到Rubin,再到Feynman。

他激动地宣布,距离发布仅9个月,Blackwell芯片已在亚利桑那州全面量产这直接回应了特朗普总统九个月前提出的要求:制造业回流10月初,英伟达和台积电宣布,第一批Blackwell晶圆已在凤凰城的工厂生产。
基于Blackwell的系统也将在美国本土组装而本次大会真正的明星,是下一代超级芯片Vera Rubin的首次亮相Vera Rubin是英伟达第三代NVLink 72机架级超级计算机,它彻底实现了无线缆连接。
目前芯片已在实验室完成测试,预计明年10月即可投产它的计算能力达到了惊人的100 Petaflops(FP4格式),恰好是九年前那台DGX-1性能的100倍过去需要25个机架才能完成的任务,现在一个Vera Rubin机架就能胜任。
Vera Rubin超级芯片板本身的设计也极具革命性它摒弃了行业标准的有线连接器插槽,取而代之的是顶部的两个NVLink背板连接器和底部的三个用于电源、PCIe、CXL的连接器这种设计大幅提升了集成度和效率。

为了应对AI模型日益增长的上下文需求,黄仁勋还介绍了一种全新的上下文处理器(Context Processor),支持超过100万token的上下文这意味着AI在回答问题前,可以学习和阅读成千上万份PDF、论文和视频。
与之配套的,还有革命性的BlueField-4处理器,用于加速AI模型加载;NVLink交换机,让所有GPU同步传输数据;以太网交换机Spectrum-X,确保处理器间通信不拥堵所有这些组件被集成在一个机架中,零件总数高达150万个,重达两吨。
它的主干网络每秒传输的数据量,相当于整个互联网的流量,刷新了全球最快的token生成速度黄仁勋展望道:一个1GW规模的数据中心,大概需要8000到9000台这样的机架这就是未来的AI工厂在摩尔定律趋于平缓的今天,单纯堆砌晶体管已无法满足AI指数级增长的算力需求。
英伟达的答案是极致协同设计(Extreme Co-design)英伟达是当今世界上唯一一家能从一张白纸开始,同时思考芯片、系统、软件、模型和应用的公司这种协同设计,将AI算力实现了从纵向扩展(Scale up)到横向扩展(Scale out),再到跨域扩展(Scale across)的全面飞跃。
黄仁勋再次上演了他的经典展示,手里拿着一块由72块GPU无缝互联的巨型Grace Blackwell NVL72芯片板。他开玩笑说,下次要扮演雷神,一伸手,芯片就自动飞到手里。

万亿参数的混合专家(MoE)模型传统系统受限于GPU间的互联带宽,一块GPU要承载32位专家的计算量在NVLink 72架构下,每块GPU只需负责4位专家SemiAnalysis的基准测试显示,Grace Blackwell每块GPU的性能是H200的十倍。
晶体管数量只增加了一倍,性能却提升了十倍,秘诀就在于极致协同设计因此,世界上最昂贵的计算机GB200,反而能生成成本最低的token它的极致性能,摊薄了每一次计算的总拥有成本(TCO)在三大扩展定律的驱动下,黄仁勋预测,到2026年底,仅凭Blackwell和Rubin两代产品就足以冲击5000亿美元的营收。
后来公司澄清,这个数字是指2025至2026年两代产品及网络设备的总累计出货量,预计未来五个季度的收入为3070亿美元即便如此,这个数字依旧庞大,并且还未将中国市场计算在内全球六大云服务商的资本支出(CapEx)曲线正以前所未有的速度飙升。

英伟达还宣布与美国能源部合作,共建七个全新的AI超级计算机黄仁勋指出,这场变革是双平台迁移通用计算正转向加速计算,工具计算正转向智能计算而英伟达的GPU是唯一能同时兼容这两大趋势的架构算上已出货的600万块Blackwell,未来两年GPU出货量预计将达到2000万块,是Hopper时代的5倍。
黄仁勋正在释放一个强烈的信号:AI工厂已成为新时代的基础设施AI工人开始进入各个行业英伟达正将AI工人部署到通信、汽车、量子计算乃至物理世界在通信领域,英伟达与诺基亚达成合作,推出支持AI原生6G的加速计算平台Aerial RAN Computer Pro(ARC-Pro)。

作为合作的一部分,英伟达将以每股6.01美元的价格向诺基亚投资10亿美元消息宣布后,诺基亚股价大涨20.86%ARC-Pro本质上是一个AI基站主机,融合了连接、计算和感知能力运营商未来可以通过软件升级,平滑地从5G-Advanced过渡到6G。
AI-RAN技术则让无线通信处理和AI推理(如频谱调度、节能控制)运行在同一套由GPU加速的软件定义基础设施上基站在处理通信任务的闲暇时间,还能承载生成式AI的边缘服务,有效利用了闲置算力诺基亚将使用英伟达的Grace CPU、Blackwell GPU和网络部件来构建这一新产品。
通过下一代6G网络传输的AI,将能帮助操作机器人,或提供更精准的天气预报。在自动驾驶领域,英伟达推出了DRIVE AGX Hyperion 10平台,一套开箱即用的L4级自动驾驶底座。

该平台包括DRIVE AGX系统级芯片(SoC)、参考设计、操作系统、传感器套件以及L2 级驾驶软件栈梅赛德斯-奔驰、JLR和沃尔沃等车企已率先采用最新版本的平台将采用基于Blackwell架构的DRIVE AGX Thor


评论(0)