至少营收1万亿美元!黄仁勋演讲炸场GTC,英伟达重新掌控AI生死局(附两万字实录)
黄仁勋GTC演讲炸场:英伟达Blackwell与Rubin架构2027年营收将超1万亿美元!揭秘Vera Rubin AI芯片、Groq LPU收购及太空数据中心战略,重新定义AI未来。

硅谷圣何塞SAP中心,几乎完全坐满。
这座平时属于NHL圣何塞鲨鱼冰球队的主场,在今天变成了一年一度的"AI麦加"。来自190个国家的开发者、工程师、企业买家和投资人挤满了每一个座位,所有人的目光都对准一个熟悉的身影:那个爱穿皮夹克的中年男人。
英伟达CEO黄仁勋走上台的第一句话是:“It all starts here."——一切从这里开始。接下来的两个多小时,他兑现了这句话的分量。他笑着说,今天这里就像是超级碗一样。
他预计英伟达新一代AI加速芯片架构Blackwell与下一代Rubin产品,到2027年底将创造至少1万亿美元收入。这一数字远超黄仁勋2025年10月给出的5000亿美元销售预测,再次凸显AI基础设施投资浪潮仍在快速扩张。
万亿订单:需求叙事的重新定标
本场演讲最直接的数字冲击来自订单端。黄仁勋预计,到明年年底,英伟达来自Blackwell和Vera Rubin两代架构的采购订单总额预计将突破1万亿美元。这一数字是英伟达去年所预期的5000亿美元的两倍。
英伟达此前就已经上调了预期。上个月,英伟达CFO克雷斯(Colette Kress)曾在财报电话会上暗示,芯片销量增长将超越此前预期,而今天黄仁勋则将“超越”量化成了具体数字。
他这一自信表态的背景是:英伟达最新财报显示,数据中心季度营收已达623亿美元,同比增长75%;但英伟达股价却没有同步走高,反而自去年10月的历史高点207美元回调了约11%,资本市场对2027年英伟达能否维持增速存在诸多疑虑,而增长空间直接决定了股价上行空间。黄仁勋的万亿数字,直接回应了这场“虚无的担忧”。

核心产品:Vera Rubin全栈亮相
Vera Rubin是本场演讲的绝对主角,只不过黄仁勋一直等到一个半小时之后才正式发布。这套系统在去年年底的华盛顿特区活动就已经披露,今年年初的CES 2026进一步展示细节,而今天则是完整正式发布。核心亮点如下:
Vera Rubin NVL72是当前旗舰规格,由72颗GPU通过NVLink 6互联,整体采用液冷设计,黄仁勋特别强调:“所有线缆都消失了”——改用模块化托盘,安装时间从Blackwell的两小时压缩至5分钟。系统以45度热水冷却运行。黄仁勋将其称为“超级充电AI纪元的引擎”。
Rubin Ultra进一步扩展至144颗GPU单机柜规格,采用全新的Kyber机架竖向安装,前端负责计算,后端负责NVLink互联。与Hopper世代相比,Vera Rubin平台的推理吞吐量理论上可达700万tokens/秒,而x86 Hopper组合仅为200万。黄仁勋称这是“AI工厂未来最重要的一张图表”,并将推理算力分为Free、High、Premium、Ultra四个服务层级,以tokens/秒定价,“Token是新的大宗商品”。
Vera CPU将作为独立产品单独销售,形成英伟达在CPU市场的独立营收来源。英伟达方面预计这一业务将发展为“数十亿美元级别”的收入贡献。第一套Vera Rubin系统已在微软Azure云上运行,采样进展顺利——这与Blackwell世代初期出现良率问题形成了对比。
Groq收购落地:LPU正式集成
去年圣诞前夕,英伟达以约200亿美元完成对Groq的核心资产并购,吸纳了包括创始人罗斯(Jonathan Ross)在内的核心团队。今天,黄仁勋宣布了这笔收购的技术产品:Groq 3 LPU(语言处理单元)。
Groq 3的定位是Vera Rubin的推理加速器,而非GPU的替代品。从技术架构看,大语言模型推理分为两个阶段:计算密集型的prefill(处理输入提示)和带宽密集型的decode(生成输出token)。英伟达的GPU擅长高吞吐的prefill,而Groq的LPU以22 TB/s的HBM4内存带宽专门优化decode阶段,比同类GPU快约7倍。两者通过Disaggregated Inference(分离式推理)架构配合运行:GPU负责prefill,LPU负责decode,上层由英伟达的Dynamo系统统一调度。
英伟达为此推出了专用的LPX机架,单机柜容纳256颗Groq 3 LPU,设计上紧靠Vera Rubin NVL72机架并排部署,通过定制Spectrum-X互联。每颗Groq 3 LPU具备500MB片上内存,由三星代工,预计三季度出货。官方数据显示,Vera Rubin NVL72与Groq 3 LPX联合部署,较Blackwell可实现每兆瓦tokens/秒提升35倍。
英伟达高管在发布前夕表示,这一架构使得公司可以为大型语言模型提供“每秒数千tokens”的极低延迟推理服务——这一层级此前被Cerebras和SambaNova等专用推理芯片公司占据。

英伟达官方养虾:打造AI代理时代
硬件之外,黄仁勋花了不少时间阐述英伟达的软件定位。切入点是当前最热门的AI代理(AI Agent)浪潮,以及近期爆红的开源代理平台OpenClaw。他盛赞OpenClaw是有史以来最为成功的开源项目。
黄仁勋将OpenClaw类比于操作系统:"它就是代理计算机的操作系统,就像Windows让个人电脑成为可能一样。"他甚至宣称"全球每家公司都需要有一套OpenClaw战略",将其与当年企业必须拥抱Linux或HTTP/HTML相提并论。
英伟达为此发布了NemoClaw——一套针对OpenClaw的开源企业级参考软件栈。其核心功能是企业安全:帮助公司在部署AI代理时保护内部敏感数据,防止代理在自主运行过程中泄露专有信息。微软安全团队同日宣布与英伟达合作,共同基于Nemotron和NemoClaw开发实时自适应防护能力。
此外,英伟达还将DGX Spark和DGX Station两款桌面/工作站级产品定位为企业AI代理的本地开发与部署平台,将NemoClaw的能力引入边缘。
路线图:
从Feynman到太空数据中心
硬件路线图方面,黄仁勋在Vera Rubin之后首次勾勒了下一代Feynman架构的轮廓,计划于2028年推出。Feynman将包含全新GPU、新一代LPU(LP40)、全新CPU——命名为Rosa(致敬DNA结构发现者罗莎琳德·富兰克林),配合BlueField-5 DPU、CX10 NIC,以及支持铜缆与共封装光学(CPO)的Kyber互联平台。
更出人意料的是,黄仁勋宣布英伟达正在开发太空版Vera Rubin模块——Space-1,目标是在轨道上部署AI数据中心。他承认太空环境中的辐射防护是核心挑战,但英伟达已着手研发。这也与SpaceX、谷歌、亚马逊等巨头的太空数据中心战略不谋而合。
此外,英伟达发布了DSX AI Factory参考设计,结合Omniverse DSX Blueprint,帮助企业规划、仿真和管理大规模AI数据中心的全生命周期。AWS当天宣布与英伟达扩大合作,承诺部署超过100万颗英伟达 GPU,涵盖Blackwell、Rubin以及Groq 3 LPU,部署将于今年内跨越AWS全球区域启动。
无人车与机器人:
合作伙伴大规模扩张
自动驾驶是演讲第三条主线。黄仁勋宣布英伟达 Drive AV软件与Uber的合作进入落地阶段:Uber将在2028年前于全球四大洲28座城市部署由英伟达技术支持的自动驾驶车队,首批城市为洛杉矶和旧金山,2027年启动。
与此同时,比亚迪、吉利、日产和现代等车企正在英伟达的 Drive Hyperion平台上开发L4级自动驾驶乘用车。五十铃和中国企业Tier IV还在通过英伟达 AGX Thor芯片开发自动驾驶巴士。黄仁勋引用了一句话:“自动驾驶汽车的ChatGPT时刻已经到来。"
在机器人领域,迪士尼研发的Olaf机器人(来自《冰雪奇缘》)现身舞台,与黄仁勋进行了对话互动。该机器人在英伟达仿真环境中联合训练,是英伟达具身AI(Physical AI)应用于娱乐场景的展示。
或许Moor Insights & Strategy首席分析师摩尔海德(Patrick Moorhead)的表述最为精准:英伟达不再是一家芯片公司,是一个平台。
今天前一个半小时,黄仁勋说的最多都是平台,是基础设施。他不断强调英伟达已经不是一家芯片公司,而是一家生态平台,是一家基础设施企业。今天的演讲显示,英伟达的战略布局已延伸至训练、推理、编排、软件安全、物理AI、自动驾驶、机器人乃至太空数据中心。

更具体地说,英伟达正在通过三个层面构建护城河:硬件全栈(GPU+LPU+CPU+DPU+网络),软件生态(CUDA、NemoClaw、Dynamo、Omniverse),以及行业落地(汽车、医疗、工业、娱乐)。其中,软件正在成为越来越显性的竞争优势——这恰恰是AMD等竞争对手最难复制的部分。
自动驾驶的大规模合作伙伴扩张,以及OpenClaw代理平台的接入,也预示着英伟达的增长来源将从单一的数据中心硬件扩展为更广泛的AI应用基础设施。黄仁勋在演讲尾声所描绘的图景:AI将从当前的文本生成工具,演变为能够推理、规划、执行任务的自主系统,而为这些系统提供底层算力的,是以“Token工厂”效能为核心指标的AI数据中心——英伟达要做的,是这个工厂的全套解决方案提供商。
股价与分析师反应:
确认信心,但分歧依然
演讲期间,英伟达今日股价收盘上涨约1.65%,日内从181美元区间上行至约183美元,成交量达2.17亿股,高于日均的1.77亿股,市值达到4.45万亿美元,这意味着本次GTC至少短期提振了市场信心。
Wedbush分析师艾维斯(Dan Ives)是本次演讲后反应最为积极的多头。他将黄仁勋称为“AI教父”,将此次GTC定性为“科技投资者急需的信心提振”,称英伟达“独坐AI山顶”。艾维斯还重申,这次演讲证明“AI革命正在加速,而非减速”,万亿美元的需求预测说明需求“来自四面八方”——企业、政府和AI原生公司同步发力。他估算,每1美元的英伟达芯片支出将在软件、网络安全、能源和数据中心等下游创造8至10美元的乘数效应。
Cantor Fitzgerald分析师慕斯(C.J. Muse)在演讲前已将目标价定在300美元,维持买入评级,表示“我们正处于重新建立信心的临界点”;他预计黄仁勋的信息将强化英伟达作为“全系统AI基础设施公司”的战略定位,并重点关注2027年的需求可见性。
Deepwater资产管理合伙人Gene Munster在演讲前的判断则更为谨慎:他认为真正的挑战不在于今天的发布,而在于投资者对2027年增速放缓的长期担忧——这与“AI资本支出是否已接近峰值”的更广泛市场叙事密切相关。
在过去一年的AI泡沫以及基建投资大跃进担忧中,今天黄仁勋给整个AI行业注入了一针强心针,描述了一个更加广阔的AI全生态落地愿景。而在这个AI未来生态中,英伟达牢牢占据着根基地位。
AI泡沫?穿皮衣的中年男子觉得这才刚刚开始。
附完整演讲全文
欢迎来到GTC!我只想提醒大家,这是一场技术大会。这么多人在清晨就排起了长队,很高兴见到在座的各位。在GTC我们将探讨技术与平台。NVIDIA拥有三大平台,大家可能以为我们主要讨论的是CUDA X,但系统是我们的另一个平台,现在我们还有一个名为AI Factories的新平台。我们将讨论所有这些内容,但最重要的是我们要讨论生态系统。
在开始之前,我要感谢赛前节目主持人Sarah Go和Alfred Lin,以及NVIDIA的首家风险投资机构Sequoia Capital的Gavin Baker。作为首位主要机构投资者,他们深耕技术领域,洞悉行业动态,拥有广泛的技术生态系统。当然也要感谢我亲手挑选并邀请的各位全明星VIP嘉宾,此外我还要感谢所有到场的赞助公司。NVIDIA是一家平台公司,拥有技术、平台以及丰富的生态系统。今天这里汇聚了全球100万亿美元产业的代表,共有450家公司赞助了本次活动,拥有一千场技术分会和2000位演讲嘉宾。本次大会将涵盖人工智能五层蛋糕架构的每一层,从土地、电力和建筑等基础设施,到芯片、平台和模型,而最终让整个行业腾飞的将是所有的应用程序。
一切都始于这里,今年是CUDA问世20周年。20年来我们一直致力于这一架构的研发。这项革命性的发明通过单指令多线程编写标量代码即可衍生出多线程应用,这比SIMD更容易编程。我们最近还添加了Tiles,以帮助开发者对Tensor Core及当今人工智能基础数学结构进行编程。目前已有数千个工具、编译器、框架、库和数十万个公开的开源项目,CUDA已经深度集成到每一个生态系统中。最难实现的一点是庞大的装机量。
我们花了20年时间在全球构建起数以亿计运行CUDA的GPU和计算系统,覆盖了每一个云平台和计算机公司,服务于几乎所有行业。CUDA的装机量正是推动飞轮加速转动的核心动力。装机量吸引了开发者,开发者随后创造出如深度学习等实现突破的新算法。这些突破催生了全新市场并建立起新的生态系统,吸引更多公司加入,从而创造了更大的装机量。这种飞轮效应目前正在加速,NVIDIA库的下载量正以惊人的速度增长。这种效应不仅让计算平台能支持众多应用和突破,还赋予了基础设施极长的使用寿命。
有如此多的应用可以在NVIDIA CUDA上运行,我们支持AI生命周期的每个阶段和每个数据处理平台,加速各种基于科学原理的求解器。正因应用范围如此之广,一旦安装NVIDIA GPU,其使用寿命周期就极长。这也是为什么早在六年前出货的Ampere架构在云端的定价依然在上涨。高装机量、显著的飞轮效应和极广的开发者覆盖范围,加上我们持续更新软件,使得计算成本不断下降。加速计算极大提升了应用速度,随着我们在软件生命周期内的持续培育和更新,用户不仅能获得初次使用的性能提升,还能获得加速计算带来的持续成本降低。因为装机量庞大,我们发布的新优化方案能惠及数以百万计兼容架构的GPU,覆盖全球用户。动态组合扩大了NVIDIA架构的影响力,加速增长的同时降低了计算成本并促进新增长,这就是CUDA的核心价值。
但我们的旅程实际上始于25年前的GeForce。GeForce是NVIDIA最伟大的营销活动,许多人是伴随它长大的。早在你们自己负担得起之前,父母就付钱让你们成为NVIDIA的客户,直到有一天你们成为出色的计算机科学家和真正的开发者。GeForce造就了今天的NVIDIA并孕育了CUDA。25年前我们发明了全球首款可编程加速器——像素着色器,旨在让加速器具备可编程性。5年后CUDA诞生了。我们当年倾尽全公司利润所做的最大投资,就是凭借GeForce将CUDA推广到每台电脑上。历经20年和13代产品,CUDA现已无处不在。十年前我们推出了RTX,针对现代计算机图形时代彻底重新设计了架构。GeForce将CUDA推向世界,也让众多先驱发现GPU是加速深度学习的良师益友,从而开启了AI大爆炸。十年前我们决定融合可编程着色技术并引入硬件光线追踪,当时我们就认为AI将彻底变革计算机图形学。正如GeForce将AI带给世界,现在AI将反过来彻底变革计算机图形学。
今天我将展示下一代图形技术——神经渲染,这是3D图形与人工智能的融合,也就是DLSS 5.0。我们融合了可控的3D图形、虚拟世界的结构化数据与生成式AI的概率计算。结构化数据完美受控,结合生成式AI,创造出精美令人惊叹且具备可控性的内容。这种将结构化信息与生成式AI融合的概念将接连不断地影响各个行业,结构化数据正是值得信赖的AI的基石。
接下来我们要详细探讨结构化数据。大家熟知的SQL、Spark、Pandas、Velox以及Snowflake、Databricks、Amazon EMR、Azure Fabric、Google Cloud BigQuery等超大型平台都在处理数据框。这些数据框是巨大的电子表格,保存着企业计算和业务的单一真值。过去我们努力加速结构化数据处理,以更低成本和更高频率让公司高效运行。未来AI将以极快的速度使用这些结构化数据库。除此之外,还有代表全球绝大部分信息的非结构化生成式数据库,如向量数据库、PDF、视频和演讲等。每年生成的90%的数据都是非结构化数据。直到现在由于缺乏简便的索引方式且难以理解其含义,这些数据一直无法被高效查询和搜索。
现在我们让AI来解决这个问题。利用多模态感知与理解技术,AI能够阅读PDF并理解其含义,将其嵌入到可搜索和查询的更大结构中。为此NVIDIA创建了两个基础库:用于数据框和结构化数据的cuDF,以及用于向量存储和非结构化AI数据的cuVS。这两个平台将成为未来最重要的平台,我们正将其深度融入全球复杂的数据处理系统网络中。
今天我们将发布几项重要合作。IBM作为领域特定语言SQL的发明者,正在使用cuDF加速watsonx的数据处理。60年前IBM推出了开启计算时代的System/360,随后SQL和数据仓库构成了现代企业计算的基石。今天IBM与NVIDIA正通过利用GPU计算库加速watsonx.data的SQL引擎,为AI时代重新定义数据处理。由于当前CPU数据处理系统已无法满足AI对海量数据集的快速访问需求,企业必须转型。例如雀巢每天要做数千次供应链决策,在CPU上每天只能刷新几次汇总了全球交付事件的订单到现金数据集市,而在NVIDIA GPU上运行加速的watsonx后,速度提升了5倍且成本降低了83%。
AI时代的加速计算已经到来。我们不仅加速了云端数据处理,也加速了本地部署。全球领先的系统和存储制造商Dell与我们合作,将cuDF和cuVS集成到Dell AI数据平台中以迎接AI时代。我们还与Google Cloud合作加速了Vertex AI和BigQuery。在与Snapchat的合作中,我们将其计算成本降低了近80%。当你加速计算和数据处理时,不仅获得了速度和规模优势,最重要的是获得了成本优势。摩尔定律的核心是性能每隔几年翻倍,但它现在已经后劲不足。加速计算让我们能够实现跨越。
NVIDIA作为一家算法公司,凭借广泛的市场触达和庞大的装机量,通过持续优化算法不断降低计算成本,为大家扩大规模并提升速度。NVIDIA构建了加速计算平台并提供RTX、cuDF、cuVS等一系列库,最终将其集成到全球的云服务和OEM厂商中触达全球。这种合作模式正在Google Cloud、Snapchat等平台上不断重复。我们为在JAX、XLA和PyTorch上所做的出色工作感到自豪。我们是全球唯一在这些框架上都表现卓越的加速器。像Baseten、CrowdStrike、Puma、Salesforce等不仅是我们的客户也是开发者。
我们将NVIDIA技术整合到他们的产品中,并将他们带入云端。我们与云服务提供商的关系本质就是为他们带来客户。大多数云服务提供商都非常乐意与我们合作,因为我们将源源不断地为所有人提供加速。最后,今年让我非常兴奋的一件事是,我们将把OpenAI引入AWS,这将带动AWS云计算的巨大消耗并扩展OpenAI的计算能力。
在AWS,我们加速了EMR、SageMaker和Bedrock。NVIDIA与AWS进行了深度集成,他们也是我们的首个云合作伙伴。在Microsoft Azure方面,我们为其打造并安装了首台NVIDIA A100超级计算机,这为后来与OpenAI的巨大成功合作奠定了基础。我们与Azure的合作由来已久,不仅为其云服务和Bing Search提供加速,还与他们的AIFoundry开展了深度合作。随着AI在全球范围内的扩展,Azure Regions的合作也变得极其重要。我们提供的一项核心功能是机密计算(Confidential Computing)。机密计算能够确保操作员无法触碰或查看数据和模型。NVIDIA GPU是全球首款实现该功能的GPU,它能够支持并在不同云端和地区安全部署OpenAI和Anthropic等极其宝贵的模型。这一切都要归功于至关重要的机密计算技术。
在客户合作方面,Synopsis是我们的重要合作伙伴,我们正在加速其所有的EDA和CAU工作流,并落地于Microsoft Azure。我们既是Oracle的首家供应商,也是他们的首位AI客户。让我非常自豪的是,我首次向Oracle解释了AI云的概念,并成为他们的首位客户,从那时起Oracle便开始腾飞。我们在那里落地了包括Quark、Cohere、Fireworks以及OpenAI在内的一大批合作伙伴。CoreWeave是全球首个AI原生云,其建立的核心目标就是在加速计算时代提供并托管GPU,为AI云提供托管服务。他们拥有出色的客户群,并且增长速度惊人。
我还非常看好Palantir和Dell平台。我们三家公司共同努力打造了一种全新类型的AI平台——Palantir Ontology平台。该平台可以在任何国家、任何物理隔离(air-gapped)区域实现完全本地化的现场部署。AI几乎可以部署在任何地方。如果没有我们的机密计算能力,没有我们构建端到端系统以及提供整个加速计算和AI堆栈的能力(涵盖从向量或结构化数据处理到AI时代的完整流程),这一切都不可能实现。这些例子展示了我们与全球云服务提供商之间的特殊合作关系,他们今天都在现场,我由衷感谢大家的辛勤付出。

NVIDIA是一家垂直整合但同时横向开放的公司,这是大家会反复看到的主题。其必要性非常简单:加速计算不仅仅是芯片或系统的问题,它的核心在于应用加速。如果只是让电脑运行得更快,那是CPU的工作,但CPU已经后劲不足了。未来实现巨大性能提升和成本降低的唯一方式,就是通过应用或特定领域的加速来实现,即应用加速计算。因此NVIDIA必须针对不同的垂直行业和领域,开发一个又一个的库。
作为一家垂直整合的计算公司,我们别无选择,必须深入理解应用、领域和算法的底层逻辑。我们还必须弄清楚如何将算法部署在数据中心、云端、本地(on-prem)、边缘端或机器人系统等各种截然不同的计算系统中。从底层芯片到系统,我们实现了垂直整合。而NVIDIA之所以无比强大,是因为我们横向开放。我们致力于将NVIDIA的软件、库和技术与合作伙伴的技术相结合,集成到任何目标平台中,从而将加速计算带给世界上的每一个人。本次GTC大会正是这一理念的绝佳展示。
目前我们拥有触达各大垂直领域的领域特定库,以解决各行各业的关键问题。例如在金融服务业(这也是本届GTC参会人数最多的群体),算法交易正从依赖人类进行特征工程的传统机器学习,转向由超级计算机分析海量数据并自动发现洞察与模式,这正是金融业的深度学习和Transformer时刻。医疗保健行业也迎来了ChatGPT时刻。我们正在将AI物理学和AI生物学应用于药物研发,并开发用于客户服务和辅助诊断的AI Agent。
在工业领域,我们正在开启人类历史上规模最大的扩建工程,全球大多数行业都在建造AI工厂,今天也有许多芯片和计算机制造厂的代表来到现场。在媒体与娱乐方面,实时AI平台正在支持翻译、广播、直播游戏和视频,绝大部分内容都将通过AI进行增强。在量子计算领域,有35家公司正利用我们的Holoscan平台构建下一代量子GPU混合系统。零售和消费品(CPG)行业正利用NVIDIA优化供应链,并构建代理式购物系统和客服AI Agent,这是一个价值35万亿美元的庞大市场。
在规模达50万亿美元的制造业机器人领域,NVIDIA已深耕十年,构建了重建机器人系统所需的基础计算机,并与所有主流机器人制造公司展开合作,此次展会我们就展出了110台机器人。电信行业的规模约为2万亿美元,其遍布全球的基站作为上一代计算时代的基础设施,即将迎来彻底重塑。未来的基站将成为AI基础设施平台,让AI在边缘运行。我们的Aerial(即AIRAN)平台正在与Nokia、T-Mobile等多家公司开展重大合作。
这一切的核心是我们自主发明的CUDA-X库算法,这是NVIDIA作为一家算法公司的立身之本,也是我们区别于其他公司的特别之处。算法让我们能够深入各个行业,将世界顶尖计算机科学家解决问题的方法重构并转化为库。在本次展会上,我们将发布大量库和模型,这些不断更新的库是我们公司的瑰宝,它们激活了计算平台,真正解决了实际问题。比如引发现代AI大爆发的cuDNN,以及用于决策优化的cuOPT、计算光刻的cuLitho、直接稀疏求解器的cuDSS、基因组学的Parabricks等上千个CUDA-X库,正助力开发者在科学和工程领域取得突破。大家所看到的一切都不是人工动画,而是基于基础物理求解器、AI物理模型和物理AI机器人模型的完全模拟。凭借对算法的理解与计算平台的结合,NVIDIA作为一家垂直整合且横向开放的公司,正不断解锁新机遇。
如今除了传统巨头,还涌现了一大批像OpenAI、Anthropic这样的AI原生(AInative)初创公司。随着计算被重新发明,创投圈向初创企业投入了史无前例的1500亿美元资金。因为历史上第一次,这些公司都需要庞大的算力和海量的Token,他们要么自己生成Token,要么为现有的Token增值。正如PC、互联网和移动云时代诞生了Google、Amazon和Meta一样,我们正处于新平台转型的开端,必将涌现出对未来具有重大影响力的新公司。
过去两年的爆发源于三大里程碑。首先,ChatGPT开启了生成式AI时代,它不仅能感知和领悟,还能翻译并生成原创内容。其次,生成式计算彻底改变了计算的实现方式,从过去的基于检索转变为现在的生成式,这也深刻改变了计算机的架构和构建方式。第三是推理AI的崛起,O1和O3模型的出现让AI能够反思、独立思考、分解问题并进行自我验证,使生成式AI变得更值得信赖且基于事实。这种推理能力大幅增加了上下文输入和思考输出的Token使用量,显著提高了计算量需求。随后ClaudeCode作为首个智能体模型问世,它能够自动读取文件、编写代码、编译测试并迭代,彻底变革了软件工程。
我们有100%的员工正在使用ClaudeCode、Codex和Cursor等运行在NVIDIA上的AI工具来辅助编写代码。现在,你不再需要询问AI该做什么,而是直接让它结合上下文去创作、执行和构建。AI已经从感知进化到生成,再到推理,如今已经能够真正开展高效的工作。正因为AI终于能够进行生产性工作,过去两年市场对NVIDIAGPU的计算需求彻底爆表,尽管我们已经大量出货,但需求仍在持续攀升。
AI现在必须思考、行动并进行阅读,而要做到这些,它必须进行推理并进行逻辑推演。AI的每一个部分在思考、行动和生成Token时都必须进行推理。现在早已过了训练阶段,我们正处于推理领域,推理的拐点已经到来。在这个时刻所需的计算量增加了大约10000倍。在过去的两年里计算需求增长了10000倍,而使用量可能增长了100倍。相信计算需求在过去两年里增长了一百万倍,这也是每一家初创公司、OpenAI和Anthropic的共同感受。如果他们能获得更多算力就能生成更多Token,营收就会增长,越先进的AI就会变得越聪明。
我们现在正处于这个正向飞轮系统中,推理的拐点已经到来。去年此时我说过到2026年Blackwell和Rubin的高置信度需求和采购订单总额将达到5000亿美元。虽然大家可能因为创下年度营收纪录而对这个数字不为所动,但我现在要告诉大家,到2027年这一数字将至少达到1万亿美元。事实上我们将面临算力短缺,计算需求将远高于此。
我们在过去一年里做了大量工作,2025年是NVIDIA的推理之年。我们希望确保不仅擅长训练和后训练,而且在AI的每一个阶段都表现出色。对基础设施的投资可以长期扩展,NVIDIA基础设施使用寿命长且成本极低。毫无疑问NVIDIA系统是世界上成本最低的AI基础设施。去年的一切都是围绕推理AI展开的,这推动了拐点的到来。同时Anthropic和Meta的Llama等代表全球三分之一AI开源模型算力的平台都选择了NVIDIA。开源模型已接近前沿水平且无处不在。NVIDIA是当今世界上唯一能够跨越所有语言和AI领域运行的平台,涵盖生物学、计算机图形学、计算机视觉、语音、蛋白质、化学和机器人技术等领域。我们的架构从边缘到云端通用,使其成为成本最低且最值得信赖的平台。
面对一万亿美元的庞大基础设施规模,必须确保投资具有高性能、成本效益和长期使用寿命。你可以满怀信心地选择NVIDIA,无论部署在云端、本地还是世界任何地方,我们都能提供支持。我们现在是一个运行所有AI的计算平台,这已体现在业务中。我们60%的业务来自前五大超大规模云服务商,其中一部分用于内部AI消耗。推荐系统和搜索等内部工作负载正从传统方法转向深度学习和大语言模型,这些负载正向NVIDIA极具优势的GPU上迁移。通过与各大AI实验室合作并拥有庞大的原生生态系统,我们能将算力带入云端并被迅速消耗。另外40%的业务遍布区域云、主权云、企业、工业领域、机器人技术、边缘计算和超级计算系统等。AI广泛的触达范围和多样性正是其韧性所在,它现已成为一项基础技术和全新的计算平台变革。
我们的职责是继续推动技术进步。去年作为推理之年,我们在Hopper架构巅峰时冒着巨大风险进行了彻底重塑。我们决定将架构提升到全新水平,彻底重构系统以解耦计算并创造了NVLINK-72。其构建、制造和编程方式都发生了彻底改变。GraceBlackwell和NVLINK-72是一场巨大的赌注,感谢所有合作伙伴的辛勤努力。NVFP4不仅仅是精度上的提升,它代表了完全不同类型的TensorCore和计算单元。我们证明了可以在不损失精度的情况下进行推理并大幅提升性能和能效,同时还能将其用于训练。结合NVLINK-72、NVFP4、Dynamo、TensorRT-LLM以及一系列新算法,我们甚至投入数十亿美元建造了DGXCloud超级计算机来优化内核和软件栈。过去人们常说推理很简单,但实际上推理是终极难题,也是驱动收入的核心动力。对AI推理最全面的扫描数据显示每瓦特Token数至关重要。每个数据中心都受到功率限制,物理法则决定了1吉瓦的工厂不可能变成2吉瓦。因此必须在有限功率下产出最大数量的Token,力求处于效能曲线的顶端。

推理速度决定了响应速度,也就是单次推理的交互性。推理速度越快,能处理的上下文和思考的Token就越多,这等同于AI的智能程度和吞吐量。AI越聪明,思考时间变长,吞吐量就会随之降低。从现在起,全世界的每一位CEO都会将业务视作Token工厂并将其直接与收入挂钩。在给定功率下,更好的每瓦性能意味着更高的吞吐量和更多的Token产出。NVIDIA拥有全球最高的性能,摩尔定律原本预期带来1.5倍的提升,但我们实现了35倍的跨越。
去年我说GraceBlackwell和NVLink72的每瓦性能提升了35倍时没人相信,甚至有分析师认为我保留实力实际提升高达50倍。这使得我们的每Token成本成为全球最低。如果架构错误即使免费也不够便宜,因为建造并分摊一个吉瓦级工厂的成本高达400亿美元。必须部署最顶尖的系统以获得最佳成本效益。通过极致的协同设计,我们进行垂直整合并水平开放,将所有软件和技术打包给全球推理服务提供商。
例如Fireworks和Together等平台增长迅速,生产效能就是他们的一切。在我们更新软件后系统硬件不变的情况下,平均速度从每秒约700个Token提升到了接近5000个,整整提高了七倍。过去用于存储文件的数据中心现在已经变成了受功率限制的Token工厂。推理是新的工作负载,Token是新的商品,计算即收入。未来每一家云服务和AI公司都将思考其Token工厂的效能,这种智能将由Token来增强。
回顾过去十年的发展,我们在2016年推出了全球首款专为深度学习设计的计算机DGX-1,八个Pascal架构GPU通过第一代NVLink连接提供170Teraflops算力。随后通过Volta架构引入NVLink交换机,将16颗GPU作为巨型GPU运行。随着模型增长数据中心需成为单一计算单元,于是Mellanox加入了NVIDIA。2020年推出的DGXA100SuperPOD结合了纵向与横向扩展架构。之后开启生成式AI时代的Hopper架构配备了FP8,而Blackwell通过NVLINK-72重新定义了AI超级计算,实现130TB/s的全对全带宽。
如今智能体系统的算力需求呈指数级增长。专为智能体AI设计的VeraRubin推进了计算领域的各个支柱,提供3.6Exaflops算力和每秒260Terabytes的全对全带宽。搭配专为编排设计的VeraCPU机架、基于BlueField-4的STX存储机架、提升能效的Spectrum-X交换机,以及增加Token加速器的Grock-3LPX机架,合力实现了每兆瓦35倍的吞吐量提升。这个包含七颗芯片、五台机架级计算机的全新平台,让算力在短短10年内提升了4000万倍。
过去介绍Hopper时我还能举起一颗芯片,但VeraRubin是一个需要整体优化的庞大系统。智能体系统最关键的是大语言模型的思考过程,模型不断增大对内存和存储系统产生了巨大压力,因此我们重新发明了存储系统。AI需要工具尽可能快地运行,为此我们打造了全新VeraCPU,它专为极高单线程性能设计,是全球唯一采用LPDDR5的数据中心CPU,能效比傲视群雄。该CPU旨在与机架其他部分协同进行智能体处理。VeraRubin系统已实现100%液冷,取消了线缆,安装时间从两天缩短至两小时。它使用45度温水冷却,大幅降低了数据中心的散热成本与能源消耗。这是目前世界上唯一构建到第六代的纵向扩展交换系统,实现难度极高。此外采用共封装光学技术的Spectrum-X交换机也已全面量产,光子直接连接芯片硅片,工艺完全是革命性的。VeraCPU作为独立产品已成为价值数十亿美元的业务。
这四个机架组成的系统通过结构化布缆构建,极为高效。而RubinUltra计算节点则更进一步,安装进名为Kyber的全新机架中,可在一个NVLINK域中连接144个GPU。计算节点垂直插入中板,不再受限于铜缆的驱动距离,背面连接NVLINK交换机,组成一台巨大的计算机。最后再次强调,在给定的功率下AI工厂的吞吐量和Token生成速度将直接决定明年的收入,这是对AI工厂未来最重要的一项指标。
纵轴是吞吐量,横轴是Token速率。随着Token生成速度的提升和模型规模的不断扩大,不同应用场景对Token和上下文长度的需求也在持续激增。输入和输出的Token长度正从十万级别向数百万级别跨越。这些因素最终都将深刻影响未来Token的商业化营销与定价。
Token正在成为一种新的大宗商品。像所有大宗商品一样,一旦技术走向成熟并到达拐点,市场就会出现细分。高吞吐量但低生成速度的版本适用于免费层级;中等层级则会提供更大的模型、更快的生成速度以及更长的上下文输入窗口,对应不同的定价区间。正如大家在各类云服务中所见,从免费层级到每百万Token收费3美元、6美元的阶梯定价模式已经出现。
业界都在致力于不断突破能力边界,因为模型参数越大就越智能,输入的上下文越长则相关性越高。而在更快的生成速度下,系统能更好地进行思考与迭代,从而催生出更聪明的AI模型,每一次性能的跃升都赋予了服务更高的溢价空间。未来可能会出现收费高达45美元甚至每百万Token收费150美元的高级模型服务,专门为处于关键研发路径或进行长期复杂研究、对Token生成速度有极高要求的用户提供支持。不过从现实来看,如果一个研究团队每天消耗五千万个Token,以每百万150美元计价,这样的成本是难以承受的。但我们坚信阶梯化与细分化就是AI产业的未来发展方向。AI技术必须从确立自身价值和实用性起步,不断迭代升级,未来大多数AI服务都将采用这种多层级的模式。
回顾Hopper架构,大家本就预期下一代产品性能会有所提升,但Grace Blackwell的飞跃幅度超乎所有人想象。Grace Blackwell在免费层级实现了吞吐量的极大提升,而这正是企业实现服务变现的核心领域,其吞吐量直接跃升了35倍。正如各行各业的商业逻辑一样:服务层级越高,对应的质量与性能越好,但可用容量相对越低。我们在将基础层级性能提升35倍的同时,还引入了全新的服务层级,这就是Grace Blackwell相较于Hopper实现的巨大跨越。
接下来登场的是Vera Rubin。在每一个细分服务层级上我们都实现了吞吐量的飞跃。特别是在平均售价最高、最具商业价值的顶层细分市场中,我们将吞吐量提升了整整10倍。在顶尖领域实现如此幅度的性能跨越是极其艰难的工程挑战。这正是NVLink72的优势所在,也是极低延迟架构带来的巨大红利。通过极致的软硬件协同设计,我们成功拔高了整个行业的技术上限。
从客户的实际运营角度来看,假设一个数据中心只有1吉瓦的电力总容量,我们需要进行精细的算力分配:比如将各25%的算力分别投入到免费、中级、高级和Premium层级中。免费层级用于获客,而顶层服务则面向最具价值的客户群,两者结合最终转化为业务营收。在相同的资源限制下,Blackwell架构能够创造五倍以上的收入,而Vera Rubin同样能实现五倍的营收增长。因此客户应该尽早向Vera Rubin架构迁移,这不仅能显著提升吞吐量,还能大幅降低单Token的生成成本。
但我们的追求不止于此。实现超高吞吐量需要海量的FLOPS算力支撑,而实现极低延迟和高频交互则高度依赖庞大的内存带宽。由于系统芯片的物理表面积总是有限的,计算机架构往往难以同时兼顾极高的FLOPS与极致的带宽。在底层设计上,优化高吞吐量与优化低延迟本质上是相互矛盾的。
为了打破这一物理瓶颈,我们收购了Groq芯片研发团队并获得了相关技术授权。双方一直在通力合作整合系统架构。如今在最具商业价值的高端层级中,我们将性能再度提升了35倍。NVIDIA之所以能在绝大多数AI工作负载中占据绝对的主导地位,根本原因就在于我们深刻理解吞吐量在这一领域的重要性。NVLink72展现出了颠覆性的架构优势,它是目前最正确的技术路径,即使在引入Groq技术后,其核心地位依然坚如磐石。
然而如果我们向外大幅延伸需求场景,假设你需要提供的服务不再是每秒400个Token,而是每秒1000个Token的超高速生成,NVLink72受限于带宽瓶颈将力不从心。这正是Groq大显身手的领域。Groq技术超越了现有极限,甚至突破了NVLink72所能触及的性能天花板。如果将技术转化为实际收益,Vera Rubin的创收能力是Blackwell的5倍。如果你的主要业务是高吞吐量工作负载,我建议100%部署Vera Rubin;但如果你的业务涉及大量代码编写或极高价值的Token生成任务,引入Groq将是明智之举。一种合理的资源配置是将Groq部署在约25%的数据中心节点中,剩余75%全部采用Vera Rubin。通过将两者深度融合,我们可以进一步拓展系统的性能边界。
Groq的计算系统之所以极具吸引力,是因为它采用了确定性的数据流处理器架构。它完全依赖静态编译和编译器调度,由软件预先精准计算并调度执行时机,确保算力与数据同步到达。这种架构彻底摒弃了动态调度并配备了海量的SRAM,是专门为AI推理这一单一工作负载量身定制的。随着全球对超智能、高速Token的生成需求呈指数级爆发,这种系统集成的价值将日益凸显。
在这个体系中存在着两种走向极端的处理器架构:一颗Vera Rubin芯片拥有288GB的庞大显存;而如果要承载Rubin级别的海量模型参数以及庞大的上下文和KV缓存(KV Cache),则需要堆叠数量惊人的Groq芯片。庞大的内存需求曾一度限制了Groq进入主流市场,直到我们构思出一个绝妙的解决方案——通过一款名为Dynamo的软件实现完全的解耦推理(Disaggregated Inference)。
我们彻底重构了AI推理流水线的执行方式。我们将最擅长高吞吐量计算的任务交给Vera Rubin处理,同时将解码生成、低延迟响应以及受带宽瓶颈制约的工作负载卸载给Groq。就这样我们将两种特性截然不同的处理器完美统一。为了解决海量内存需求,我们只需横向扩展大量Groq芯片来扩充内存容量。对于万亿参数级别的超大模型,我们可以将其完整部署在Groq芯片集群中;同时Vera Rubin在一旁协同工作,负责存储处理复杂智能体(Agentic AI)系统所需的庞大KV缓存。
基于解耦推理的概念,Vera Rubin负责处理相对简单的预填充(Pre-fill)环节,而Groq则深度参与解码(Decode)过程。解码阶段中计算密集的注意力(Attention)机制由Vera Rubin承担,而前馈网络(Feedforward Network)以及最终的Token生成则在Groq芯片上执行。这两大系统通过以太网(Ethernet)紧密耦合,并通过特殊传输模式将网络延迟削减了近一半。在这一强大的硬件底座之上,我们运行了专为AI工厂打造的卓越操作系统Dynamo,最终实现了高达35倍的性能飞跃,更带来了全球前所未见的Token生成层级推理性能。这就是整合了Groq技术的新一代Vera Rubin系统。
在此我要特别感谢Samsung。他们为我们代工制造了Groq LP30芯片,目前产线正在全力运转,芯片已全面进入量产阶段。预计在今年第三季度左右,我们还将发布升级版的Groq LPX。
回顾以往,由于NVLink72架构的极度复杂性,Grace Blackwell在早期的样片测试阶段面临了巨大挑战;但Vera Rubin的测试工作推进得异常顺利。正如Satya所宣布的,第一台Vera Rubin机架已在Microsoft Azure云平台上正式点亮运行。我们在全球范围内构建了极其强大的供应链体系,目前每周能够产出数千套此类庞大系统,相当于每个月都能交付数吉瓦规模的AI工厂基础设施。在持续交付GB300机架的同时,我们也在全面量产Vera Rubin机架。
与此同时Vera CPU也取得了空前的成功。当前AI在执行工具调用(Tool Use)等复杂操作时,依然高度依赖CPU的指令处理能力,Vera CPU的架构设计完美契合了这一核心诉求。Vera CPU与BlueField数据处理器以及CX9网卡深度整合,共同接入了BlueField-4网络堆栈生态。目前全球所有的主流存储企业都在积极融入我们的系统生态。过去是人类在使用SQL查询调用数据,而未来将是海量的AI智能体在疯狂读取存储系统。这些系统必须能够无缝支持cuDF加速存储、cuVS加速存储以及极其关键的海量KV缓存读取。
令人惊叹的是,在短短两年内,我们在一座吉瓦级的AI工厂中,通过前所未有的软硬件架构创新打破了摩尔定律原本只能带来的线性算力增长。凭借这套全新的架构,我们将Token生成速率从每秒200万暴增至7亿,实现了整整350倍的惊人跨越。这就是极致协同设计(Extreme Co-design)的力量:先进行深度的垂直整合与优化,随后将其水平开放给整个行业生态。

关于我们的产品路线图:Blackwell架构的Oberon系统已经全面问世,并且在Rubin架构中我们将继续沿用Oberon系统,确保客户软硬件资产的向后兼容。Oberon采用了铜缆纵向扩展(Scale-up)技术,同时我们也支持通过光通信实现系统的横向扩展(Scale-out),最高可扩展至NVLink576的庞大网络。业界经常讨论NVIDIA未来会押注铜缆还是光通信,我们的答案是两者齐头并进。我们将推出配合Kyber架构的NVLink144,并通过光纤连接将采用NVLink72的Oberon系统进一步扩展为NVLink576集群。
下一代Rubin Ultra芯片正在紧锣密鼓地流片中。同时我们还将推出全新的LP35芯片,它将首发搭载NVIDIA革命性的NVFP4计算架构,为系统带来指数级的X-factor性能加速。目前采用NVLink72光子级扩展、搭载全球首款共封装光学(CPO)器件Spectrum 6的Oberon系统已经全面投入量产。
在这之后我们将迎来代号为Feynman的全新一代架构。Feynman不仅拥有全面革新的GPU,还将搭载由NVIDIA与Grok团队强强联手打造的全新LPU——LP40芯片。与之配套的还有代号为Rosa的全新CPU以及新一代BlueField-5数据处理器,负责将新一代CPU与SuperNIC CX10紧密连接。在Feynman架构下,我们将提供基于铜缆的Kyber纵向扩展方案,以及基于CPO技术的Kyber光通信纵向扩展方案。这是我们首次在纵向扩展领域同时并行推进铜缆和共封装光学技术路线。铜缆连接依然至关重要,但同时我们也必须大规模提升光通信的连接规模和CPO产能,以应对日益暴涨的算力需求。
NVIDIA正以每年一次的极速节奏推进架构迭代,并已从一家芯片公司彻底蜕变为提供AI工厂和基础设施的系统级公司。目前在全球正建设的庞大AI工厂中,由于缺乏系统级优化存在着巨大的算力和能源浪费。许多底层组件在进入数据中心之前从未进行过联合设计与调试。
为了解决这一痛点,我们打造了Omniverse及其延伸的DSX平台。这是一个让全球产业链伙伴能够在虚拟世界中共同协作、联合设计吉瓦级超级AI工厂的数字孪生平台。我们拥有涵盖机架结构、机械物理、热力学散热、电气工程以及复杂网络拓扑的全套物理级模拟系统,这些仿真能力已深度集成到我们全球生态伙伴的专业工业软件中。此外DSX平台还能直接与现实世界的电网连接,动态统筹调度数据中心功耗与电网负荷以节约能源。在数据中心内部我们引入了Max-Q技术,在供电、冷却及各类硬件设施之间进行动态负载均衡,确保每一度电都能转化为最极致的Token吞吐量。在这个宏大的系统工程中,我深信至少还能挖掘出两倍的性能提升空间。
NVIDIA DSX是一张用于设计和运营AI工厂的Omniverse数字孪生蓝图。开发者可以通过丰富的API接入:使用DSXsim进行物理、电气与热能仿真;通过DSxExchange管理AI工厂的运营数据;利用DSxFlex实现与电网的动态功率协同;最后由DSX Max-Q动态最大化Token吞吐量。这一流程始于NVIDIA与各大设备制造商提供的仿真就绪(Sim-ready)资产,交由PTC Windchill PLM进行管理,随后导入达索系统的3DExperience平台进行基于模型的系统工程(MBSE)设计。工程企业可将数据无缝导入自定义的Omniverse应用中完成最终厂房设计。在虚拟验证环节,我们调用西门子Star-CCM+进行外部热分析,使用Cadence Reality进行内部热分析,利用ETAP进行电气仿真,最后依靠NVIDIA的网络模拟器DSx Air配合Procore平台完成虚拟调试。
当物理站点落成上线后,数字孪生将转化为工厂的运营者。AI智能体将与DSX Max-Q协同工作,动态编排基础设施。Phaedrus Agent负责监督冷却和电力系统以持续优化能源效率;Emerald AI Agent则负责解读实时电网需求信号并动态调整功率。Omniverse的初衷就是构建世界的数字孪生,而DSX正是我们全新的AI工厂平台。
不仅如此,NVIDIA的目光已经投向太空。Thor芯片已顺利通过太空辐射认证并成功部署在卫星中用于轨道成像。未来我们计划在太空中建设数据中心。目前我们正与航天伙伴联合研发名为Vera Rubin Space One的新型计算机,它将成为人类在太空建立数据中心的先驱。由于太空环境中没有热传导和对流,只能依靠热辐射,这要求我们的工程师必须攻克前所未有的散热技术难关。
今天著名开发者Peter Steinberger也来到了现场,他主导开发了一款名为OpenClaw的软件。也许连他自己都没意识到这款软件的深远影响力。短短数周内OpenClaw就蹿升至榜首,成为人类历史上最受欢迎的开源项目,它在极短时间内的成就甚至超越了Linux过去三十年的积淀。这款软件具有划时代的意义,NVIDIA今天在此正式宣布将全力支持OpenClaw生态。
它的使用门槛极低,开发者只需在控制台中输入一行简短的代码,系统就会自动下载OpenClaw并为你构建一个专属的AI Agent,随后你只需用自然语言下达指令即可。Andrei Karpathy团队也刚发布了意义非凡的研究成果:你可以在睡前给AI Agent布置任务,它会在夜间全自动运行上百次实验,自动保留有效结果并剔除无效路径。
OpenClaw正在重塑各行各业。有人分享了一位60岁的父亲安装OpenClaw的案例:他通过蓝牙将设备连接到OpenClaw,系统接管了精酿啤酒的全套自动化流程,甚至自动生成并上线了供客户下单的完整电商网站。在深圳数百家商户正利用它实现龙虾销售的全链路自动化。连我们自己的工程师也正在尝试使用OpenClaw来构建下一代的OpenClaw。现在甚至连OpenClaw开发者大会(Claw Con)都应运而生了。
那么OpenClaw究竟是什么?本质上它是一个超级连接器和全局化的智能体系统(Agentic System)。它的核心能力在于调用并连接大型语言模型,从而接管与管理计算机资源。OpenClaw可以访问各类工具和底层文件系统;具备强大的任务调度能力,能够执行定时任务(Cron Jobs);它拥有极强的逻辑拆解能力,能够根据分步引导(Step-by-step)的提示词拆解复杂问题,并自主衍生和唤醒其他子代理(Sub-agents)协同工作。此外它还拥有极其丰富的全模态I/O输入输出能力,你可以通过任何模态与之交互——甚至向它挥手它也能理解,并在执行完毕后通过系统消息、短信或电子邮件向你汇报结果。
它还有什么功能?基于这一点,可以说它事实上是一个操作系统。我刚才使用的正是描述操作系统时会用到的语法。OpenClaw已经开源了Agentic计算机的核心操作系统,这与Windows让个人电脑成为可能并无二致。现在OpenClaw让创建个人智能体成为可能,其影响不可估量。最重要的一点是,现在每一家软件公司和技术公司都意识到了这一点。对于CEO们来说,问题在于你们的OpenClaw战略是什么。正如我们曾经需要制定Linux战略、HTTP和HTML战略从而开启互联网时代,正如我们需要制定Kubernetes战略从而使移动云成为可能,当今世界上的每家公司都需要制定OpenClaw战略和智能体系统战略,这是全新的计算机。
在OpenClaw出现之前,企业级IT被称为数据中心的原因是那些巨大的建筑存储着数据、人们的文件以及企业的结构化数据。这些数据会流经包含各种工作流和记录系统的软件,并转化为人类和数字员工使用的工具。那是旧的IT行业:软件公司开发工具、保存文件,全球系统集成商和顾问帮助公司研究如何使用并集成这些工具。这些工具对于治理、安全、隐私和合规性来说具有极高的价值,且这一切将继续保持其重要性。但在OpenClaw之后的智能体时代,情况将发生改变。每一家IT公司和SaaS公司都将转变为一家动力源公司,毫无疑问,每一家SaaS公司都将成为智能体即服务公司。
令人惊叹的是,OpenClaw在最准确的时间为整个行业提供了最需要的东西,就像Linux、Kubernetes和HTML在最恰当的时机出现一样。它让整个行业能够抓住这个开源技术栈并大有作为。但目前面临一个问题:企业网络中的智能体系统可以访问敏感信息、执行代码并进行外部通信。这意味着它可以访问员工、供应链和财务等敏感信息并将其发送出去,这显然是绝对不被允许的。因此,我们召集了世界上顶尖的安全和计算专家与Pieter合作开发了OpenClaw,使其具备企业级安全和隐私保护能力。
我们推出了NVIDIA的OpenClaw参考实现NemoClaw。它拥有代理式AI工具包,其中第一部分是已集成到OpenClaw中的OpenShell技术,这让它具备了企业级就绪能力。你可以下载试用NemoClaw参考堆栈,并将全球所有SaaS公司极具价值的策略引擎连接到它。NemoClaw或带有OpenShell的OpenClaw将能够执行该策略引擎,它配备了网络护栏和隐私路由器,从而保护并安全地在公司内部执行策略。
我们还为智能体系统增加了定制化Claws功能,让用户能够拥有专属的定制模型,这正是NVIDIA的Open Model Initiative。NVIDIA目前处于每一个AI模型领域的最前沿,无论是Nemotron语言模型、Kosmos世界基础模型、GROOT通用机器人人工智能、用于自动驾驶汽车的AlphaMIO、用于数字生物学的VaioNemo,还是用于AI物理学的Earth-2。因为世界是多样化的,没有单一的模型可以服务于所有行业。
Open Models是全球规模最大且最具多样性的AI生态系统之一,涵盖语言、视觉、生物学、物理学和自主系统领域的近三百万个开放模型,助力构建特定领域的AI。作为开源AI领域最大的贡献者之一,NVIDIA构建并发布了六个系列的开放前沿模型,提供训练数据和框架以帮助开发者进行定制和采用。每个系列都在推出登顶排行榜的新模型。其核心包括用于语言推理、视觉理解、RAG、安全和语音的Nemotron模型,用于物理AI世界生成与理解的前沿模型Kosmos,全球首款具备思考与推理能力的自动驾驶AIAlphaMIO,通用机器人基础模型GROOT,用于生物化学和分子设计的开放模型VaioNemo,以及植根于AI物理学的天气和气候预测模型Earth-2。
NVIDIA开放模型为研究人员和开发人员提供了构建其专业领域AI的基础。我们的模型是世界级的并在排行榜上名列前茅,但最重要的是我们将持续推动其进化,例如Nemotron 3之后将推出Nemotron 4,Kosmos 1之后推出了Kosmos 2,GROOT也已经到了第二代。我们通过垂直整合与水平开放让每个人都能加入AI革命。在研究、语音、世界模型、通用人工智能机器人、自动驾驶汽车和推理领域,我们的模型均位列排行榜第一,其中最重要的是集成在OpenClaw中的Nemotron-3,它是世界上最好的三个模型之一。我们致力于创建基础模型以便用户进行微调和后训练,使其完全符合所需的智能水平。即将推出的Nemotron 3 Ultra将成为世界上最出色的基础模型,帮助每个国家建立其主权AI。
今天,我们宣布成立Nemotron联盟,致力于让Nemotron-4变得更加出色。我们投入了数十亿美元用于AI基础设施建设以开发AI核心引擎,这不仅对推理库至关重要,也能激活世界上的每一个行业。大语言模型固然重要,但在全球不同的行业和国家,由于从生物学到物理学、从自动驾驶到通用机器人的专业领域完全不同,你需要有能力定制自己的模型。我们有能力与每一个地区合作,打造特定领域的主权AI。
加入该联盟的出色公司包括影像公司Blackforest Labs、编程公司Cursor、在创建自定义智能体方面拥有十亿次下载量的LangChain、Mistral,以及打造了多模态智能体系统的Perplexity。此外,还有Reflection、来自印度的Sarvam、Thinking Machine以及Mira Murati的实验室等优秀伙伴加入了我们。世界上每一家软件公司都需要智能体系统和OpenClaw策略,这些伙伴都对此表示赞同,并正在与我们合作集成NeMo Claw参考设计、NVIDIA Agentic AI Toolkit以及我们所有的开源模型。
这是一场企业级IT的复兴,将把一个两万亿美元的行业重塑为价值数万亿美元的产业,不仅提供人们使用的工具,还提供针对特定领域的智能体租赁服务。未来,我们公司的每一位工程师除了获得几十万美元的基本工资外,还需要一份年度Token预算,我可能会给他们相当于基本工资一半的Token,这将为他们带来十倍的增值空间。Token预算已成为硅谷的招聘工具之一,因为能够使用Token的工程师将拥有更高的生产力。
这些Token将由大家合作共建的AI工厂生产。如今的企业构建在文件系统和数据中心之上,而未来的每一家软件公司都将是代理化的Token制造商,为工程师和客户提供Token。OpenClaw的影响力与HTML和Linux的诞生同样深远。我们现在拥有了世界级的开放代理框架供所有人构建OpenClaw战略,同时还提供了性能卓越且安全可靠的优化版参考设计Nemo Claw。

智能体具备感知、推理和行动的能力。目前大多数智能体都是在数字世界中进行推理和编写软件的数字智能体,但我们也一直在研究具有物理实体的智能体,也就是机器人,它们需要的是物理AI。世界上几乎每一家制造机器人的公司都在与NVIDIA合作。我们提供由训练计算机、合成数据生成与仿真计算机以及机器人内部计算机构成的三台计算机架构,拥有实现目标所需的所有软件栈和AI模型,这些都已集成到全球从Siemens到Cadence等合作伙伴的生态系统中。今天我们宣布了一大批新合作伙伴,自动驾驶汽车的ChatGPT时刻已经到来,我们已经成功实现了汽车的自动驾驶。
NVIDIA的自动驾驶出租车平台迎来了比亚迪、现代、日产和吉利四位新合作伙伴,这四家车企年产量达1800万辆,他们与梅赛德斯-奔驰、丰田和通用汽车等之前的合作伙伴一起,将使未来支持自动驾驶出租车功能的汽车数量达到惊人的规模。我们还宣布与Uber达成重大合作,将在多个城市部署具备自动驾驶出租车能力的车辆并将其接入Uber网络。
此外,我们正与ABB、Universal Robotics、KUKA等众多机器人公司合作,将物理AI模型集成到仿真系统中,以便将机器人部署到生产线上。Caterpillar和T-Mobile也参与了合作,未来的无线电塔将升级为NVIDIA Aerial AI RAN,这种机器人无线电塔能对流量进行推理,计算出如何调整波束成形以节省能源并提高保真度。在众多人形机器人中,Disney机器人是我最喜欢的之一。物理AI在全球范围内的首次大规模部署从自动驾驶汽车开启,借助NVIDIA AlphaMIO,车辆现在具备了推理能力,能够安全智能地应对各种场景。汽车可以对操作进行旁白解说,解释绕过违章停放车辆等决策的思考过程,并严格遵循加速等指令。
在这个物理AI与机器人技术的时代,全球开发者正在构建各种类型的机器人。但由于现实世界充满了不可预测的边缘情况,仅靠真实数据不足以应对所有场景,因此我们需要由AI和仿真生成的数据。对于机器人而言,算力即数据。开发者在海量视频和人类演示数据上预训练世界基础模型,通过结合经典模拟与神经模拟生成海量合成数据,并进行大规模策略训练。
为加速这一进程,NVIDIA构建了开源的ISAAC Lab用于机器人的训练、评估与模拟。Newton用于可扩展且GPU加速的可微分物理模拟,Kosmos世界模型用于神经模拟,GROOT开源机器人基础模型用于推理与动作生成。凭借充足的算力,各地开发者正弥合物理AI的数据鸿沟。例如,Peritas AI在ISAAC Lab中训练手术室辅助机器人并通过Kosmos成倍增加数据;Skilled AI利用ISAAC Lab和Kosmos生成训练后数据,并通过强化学习在数千种场景中强化模型。Humanoid、Hexagon Robotics、Foxconn和Noble Machines均使用ISAAC Lab进行全身控制、操作策略训练及数据生成微调。Disney Research则在Newton和ISAAC Lab中结合其Kamino物理模拟器为其角色机器人训练策略。
接下来请出Disney机器人Olaf。它的成功运行证明了Newton和Omniverse的强大。Olaf肚子里的Jetson计算机让它学会了在Omniverse中行走。正是通过物理学原理,以及在与Disney和DeepMind共同开发的NVIDIA Warp之上运行的Newton解算器,Olaf才能完美适应物理世界。试想一下Disneyland的未来,将会有无数像Olaf这样自由走动的角色机器人。通常在演讲结束时我会复述重点内容,包括推理拐点、AI工厂、正在发生的OpenClaw智能体革命以及物理AI和机器人技术。但今天我们将用一段总结视频来收尾。
视频回顾了算力爆发的历程,从CNN到OpenClaw,我们将算力提升了四千万倍。在AI时代早期,训练是核心范式,但如今推理正在运行整个世界。通过Vera等架构,成本降低了35倍,Blackwell让推理能力大幅跃升。过去构建AI工厂耗时数年且缺乏明确的扩展方法,而现在的技术能直接将电力转化为营收。智能体也从被动观望转变为自主行动,一旦偏离航向,开源的NeMo Guardrails会迅速拦截并守护进程。
这不仅是电影场景,会思考的汽车和机器玩具已经拉开序幕,AlphaMIO掌控了自动驾驶,机器人领域迎来了GPT时刻。各种架构的结合掀起了推理热潮,我们每年都在构建新架构以满足日益增长的Token需求。AI技术栈已向所有人开放,开源模型正引领前沿。当真实数据缺失时,我们利用算力生成合成数据,助力机器人完美学习并验证缩放法则。未来已至,感谢大家参加GTC大会。

