w3ctech

黄仁勋 NVIDIA GTC 大会主题演讲全文,发布 NeMoClaw,让 OpenClaw 变得企业级安全,并具备企业隐私保护能力。

以下内容为黄仁勋在 NVIDIA GTC 大会主题演讲全文,基于演讲视频整理翻译而来:

欢迎来到 GTC。

我想提醒大家,这可是个纯粹的技术大会。一大早就看到这么多人排起长龙,看到你们在座的所有人,真是太棒了。GTC 就是 GTC,我们要聊技术,我们要聊平台。NVIDIA 有三大平台。你们可能以为我们主要谈论其中一个,比如与 CUDA-X 相关的平台,我们的系统是另一个平台,而现在我们有了一个新平台,叫作“AI 工厂”(AI Factories)。我们今天会把它们全聊一遍,而最重要的是,我们要谈论生态系统。

但在开始之前,让我先感谢一下开场秀的主持人们。我觉得他们干得非常出色。

Conviction 的 Sarah Guo(郭宏才/Sarah),红杉资本(Sequoia Capital)的 Alfred Lin(林君叡),以及 NVIDIA 的第一位风险投资人 Gavin Baker。这三位都深谙技术,对行业动态洞若观火,当然,他们在技术生态系统中也有着极其广泛的触角。

当然,还有我今天特别邀请的所有 VIP 嘉宾,以及我们的整个团队,我想借此机会感谢你们所有人。

我还要感谢今天到场的所有公司。如你们所知,NVIDIA 是一家平台公司。我们拥有技术,拥有平台,拥有丰富的生态系统。今天,这里可能汇聚了代表着 100 万亿美元产业规模的 100% 的企业,有 450 家公司赞助了本次大会。我要感谢你们。大会有 1000 场技术分会,2000 位演讲者。本次大会将涵盖人工智能“5层架构”(5-layer cake)的每一层——从土地、电力、数据中心外壳等基础设施,到芯片,到平台,到模型,当然,最重要的,也是最终将推动这个行业腾飞的,是所有的应用层。这一切,都始于这里。

今年是 CUDA 诞生 20 周年。我们在 CUDA 上深耕了 20 年。20 年来,我们一直致力于这种架构、这项革命性的发明——SIMT(单指令多线程)。只需编写标量代码,就能衍生出多线程应用,这比 C/C++ 编程要容易得多。最近,我们引入了 Tile 机制,以帮助开发者更好地对 Tensor Core(张量核心)和人工智能底层的数学结构进行编程。如今,我们有成千上万的开源工具、编译器、框架和库,有几十万个公共项目。CUDA 已经深入整合到了每一个生态系统之中。

这张图基本上诠释了 NVIDIA 100% 的战略。从一开始你们就看我讲这张幻灯片,而最终,最难实现的一点,就是最底部的这块——“装机量”(Installed Base)。我们花了 20 年时间,才在全球建立了数以亿计的、运行 CUDA 的 GPU 和计算系统——存在于我们所在的每一朵云中,我们服务的每一家计算机公司里,几乎渗透到了每一个行业。

CUDA 的巨大装机量正是飞轮加速转动的原因。装机量吸引了开发者,开发者创造出新的算法从而实现突破,例如深度学习,以及许多其他技术。这些突破孕育了全新的市场,并在其周围构建起新的生态系统,吸引其他公司加入,从而进一步扩大了装机量。

这个飞轮,现在正越转越快。NVIDIA 软件库的下载量正在以惊人的速度飙升,规模极其庞大,增长速度前所未有。正是这个飞轮,让这个计算平台能够支撑如此海量的应用、这么多新的突破;但最重要的是,它也让这些基础设施具备了极其长久的生命力。

原因显而易见,有太多的应用可以跑在 NVIDIA CUDA 上——覆盖 AI 生命周期的每一个阶段,我们支持每一种数据处理平台,我们加速各种不同类型的科学原理求解器。因此,我们的应用触角极其深广,以至于一旦你部署了 NVIDIA GPU,它的使用寿命就高得惊人。这也是为什么大约 6 年前我们交付的 Ampere(安培)架构,如今在云端的价格不降反升的原因之一。所有这一切之所以成为可能,根本原因在于庞大的装机量、高速转动的飞轮以及广泛的开发者触达。当所有这些条件具备,并且我们不断更新软件时,计算成本就会下降。加速计算与软件优化的结合,极大地提升了应用速度。与此同时,随着我们在其生命周期内持续维护和更新软件,你不仅能获得第一天的性能爆发,还能在未来持续享受到加速计算带来的成本递减。我们愿意倾注心血,愿意支持世界上每一块这样的 GPU,因为它们在架构上都是兼容的。我们愿意这么做,因为装机量实在太庞大了。

如果我们发布一项新的优化,会有数百万人受益。这适用于全世界的每一个人。这种动态的组合,使得 NVIDIA 架构不断拓展其边界,加速其增长。同时压低了计算成本,最终又刺激了新的增长。所以,CUDA 是这一切的核心。但是我们的旅程,也就是 CUDA 的旅程,实际上始于 25 年前的 GeForce。

我知道在座有多少人是伴随着 GeForce 长大的。GeForce 是 NVIDIA 最伟大的营销活动。早在你们自己买得起显卡之前很久,我们就已经把你们吸引为未来的客户了。是你们的父母买的单,年复一年地为你们成为 NVIDIA 的客户而买单,直到有一天你们成长为出色的计算机科学家,成为我们真正的客户、真正的开发者。但这就是 25 年前 GeForce 奠定的基石。

我们在 25 年前开启了通向 CUDA 的旅程。我们发明了可编程着色器(Programmable Shader)——一项在当时看来顺理成章、旨在让加速器变得可编程的发明。那是世界上第一个可编程加速器,25 年前的像素着色器(Pixel Shader)。这促使我们不断向更深处探索。在这之后的 5 年(也就是距今 20 年前),CUDA 诞生了。这是我们做过的最重大的投资之一,当时我们其实负担不起,它消耗了我们公司绝大部分的利润,但我们毅然将 CUDA 搭载在 GeForce 的背上,送入了每一台计算机。我们倾尽全力打造这个平台,因为我们对它的潜力有着极其强烈的预感与信念。尽管初期困难重重,但公司对它矢志不渝,在长达 20 年的 13 代产品演进中,我们每一天都坚信着它,如今,CUDA 已经无处不在。

像素着色器当然引领了 GeForce 的革命。大约 10 年前,或者说 8 年前,我们引入了 RTX,这是针对现代计算机图形时代对我们架构的一次彻底的重新设计。

GeForce 将 CUDA 带给了世界,因此让 Alex Krizhevsky、Ilya Sutskever、Geoff Hinton、Andrew Ng(吴恩达)以及许多其他人发现,GPU 可以成为他们加速深度学习的挚友。这引发了 AI 时代的“大爆炸”。10 年前,我们决定将可编程着色技术进行融合,并提出了两个新概念:硬件光线追踪(这非常难实现)以及当时的一个新想法——想象一下大约 10 年前,我们认为 AI 将彻底颠覆计算机图形学。就像 GeForce 将 AI 引入世界一样,现在 AI 要反哺并彻底改变计算机图形的生成方式。

那么,今天我将向你们展示一些属于未来的东西。这是我们下一代的图形技术,我们称之为“神经渲染”(Neural Rendering),这是 3D 图形与人工智能的融合,这就是 DLSS 5,大家请看。

不可思议吧?计算机图形真正获得了生命。我们做了什么?我们融合了可控的 3D 图形(虚拟世界的基础真实、结构化数据)——记住这个词,生成的虚拟世界的“结构化数据”(Structured Data)。我们将 3D 图形的结构化数据与生成式 AI 的概率计算结合了起来。其中一个是完全预测性的,另一个是概率性但高度逼真的。我们将这两种理念结合在一起,通过结构化数据进行完美控制,同时进行内容生成。结果就是,生成的内容既精美、惊艳,又完全可控。这种融合结构化信息与生成式 AI 的概念,将在一个又一个的行业中不断重演。

结构化数据是可信 AI 的基石。好吧,接下来可能会有点吓到你们。我要翻到下一页幻灯片了,别倒吸一口凉气。

在接下来的时间里,我们都要围绕这张架构图展开。这是我最棒的一张幻灯片。每次我问团队,我哪张幻灯片最棒?他们反复指着这张。他们说,别放这张,Jensen,千万别放。我说,不行,对你们中一些人来说座位是免费的,这就是你们的入场券代价。看,这就是结构化数据,你们听说过。

SQL, Spark, Pandas, Velox,这些是非常非常重要的大型平台;Snowflake, Databricks, EMR, Amazon EMR, Azure Fabric, Google Cloud BigQuery,所有这些平台都在处理“数据帧”(Data Frames)。这些数据帧就像是巨大的电子表格,保存着生活中的所有信息。这就是结构化数据,是商业的“基准事实”(Ground Truth),是企业计算的基础。现在,我们要让 AI 来使用结构化数据,而且我们最好能把它加速到极致。过去,我们只是加速结构化数据处理,以便能做更多的事、成本更低、每天处理得更频繁,让公司运转得更加同步,这已经很不错了。然而在未来,这些数据结构将被 AI 接管,而 AI 的速度要比我们快得多得多。未来的智能体(Agents)同样也会使用结构化数据库。

当然,还有非结构化数据库、生成式数据库,这种数据库代表了世界上绝大多数的数据。向量数据库、非结构化数据、PDF、视频、语音、世界上所有的信息——大约占每年生成信息的 90%。一直以来,这些非结构化数据对世界几乎毫无用处。我们阅读它,把它扔进文件系统,仅此而已。遗憾的是,我们无法查询它,无法搜索它,这很难做到。原因在于非结构化数据没有简单的索引方式。你必须理解它的含义和目的。现在,我们让 AI 来做这件事。就像 AI 能够解决多模态感知和理解一样,你可以用同样的技术(多模态感知与理解)去阅读一份 PDF,理解它的含义,然后将这种含义嵌入到一个更大的结构中,以便我们进行搜索和查询。 NVIDIA 为此创建了两个基础库,就像我们为 3D 图形创建 RTX 一样:我们为数据帧和结构化数据创建了 cuDF,为向量存储、语义数据和非结构化 AI 数据创建了 cuVS。这两个平台将成为未来最重要的两大平台。

看到它在整个网络中被广泛采用,我感到超级兴奋。这个由全球数据处理系统组成的复杂网络。正因为数据处理已经存在了很长时间,有着如此多不同的公司、平台和服务,我们花了很长时间才深深融入这个生态系统。我为我们在这里所做的工作感到超级自豪。今天,我们将宣布几项合作。

IBM,SQL 的发明者,同时也是有史以来最重要的领域特定语言之一,正在使用 cuDF 加速其 Watsonx.data。我们来看一下。

播放视频环节:

60 年前,IBM 推出了 System/360,这是第一个用于通用计算的现代平台,开启了计算时代。接着是 SQL,一种声明式语言,无需让计算机一步步执行指令即可查询数据;以及数据仓库。它们共同构成了现代企业计算的基石。今天,IBM 和 NVIDIA 正在联手为 AI 时代重塑数据处理。通过使用 NVIDIA GPU 计算库加速 IBM Watsonx.data 的 SQL 引擎,数据赋予了 AI 上下文和意义(基准事实)。AI 需要快速访问海量数据集。

如今的 CPU 数据处理系统已经跟不上步伐了。雀巢(Nestlé)每天要做出数千个供应链决策。他们的“订单至现金”数据集市在 CPU 上汇总了全球 185 个国家的所有供应订单和交付事件。雀巢每天需要刷新该数据集市几次。而现在,通过在 NVIDIA GPU 上运行加速版的 Watsonx.data,雀巢能够以快 5 倍的速度运行相同的工作负载,并且成本降低了 83%。下一个计算平台已经到来——为 AI 时代而生的加速计算。

NVIDIA 加速云端的数据处理。我们也加速本地的数据处理。如你们所知,戴尔(Dell)是全球领先的计算机系统制造商,也是全球领先的存储供应商之一。他们与我们合作打造了 Dell AI 数据平台,集成了 cuDF 和 cuVS,打造了一个属于 AI 时代的加速数据平台。这是他们与 NTT Data 合作的一个案例。

巨大的速度提升。这是 Google Cloud。大家都知道,我们与 Google Cloud 合作了很长时间。我们加速了 Google 的 Vertex AI,现在我们又加速了 BigQuery——这是一个非常重要的框架和平台。这是我们与 Snapchat 合作的一个例子,我们将计算成本降低了近 80%。

当你加速数据处理、加速计算时,你不仅能获得速度上的收益、规模上的收益,最重要的是,你还能获得成本上的收益。所有这些优势融为一体。这最初被称为摩尔定律。摩尔定律是指性能每隔几年翻一番。换种说法就是,只要价格和绝大多数计算机的成本保持不变,你每年都能获得两倍的性能,或者说每年计算成本都在下降。然而,摩尔定律已经失去动力,我们需要一种新方法。加速计算让我们能够实现这些巨大的飞跃。稍后你们会看到,因为我们持续优化算法——NVIDIA 是一家算法公司——由于我们的触角如此之广,装机量如此之大,我们能够持续不断地为大家降低计算成本,同时扩大规模并提升速度。

在 Google Cloud 上,你们可以看到我刚才提到的这个模式。我给大家展示了三个版本的例子。NVIDIA 构建了加速计算平台,上面搭载了一系列库库。我给了三个例子:RTX 是其中之一,cuDF 是另一个,cuVS 又是一个,稍后我还会展示几个。这些库运行在我们的平台上,但最终,我们会整合到全球的云服务、OEM 厂商以及其他平台中。携手合作,我们触达全球。NVIDIA、Google Cloud 和 Snapchat 这种合作模式将一次又一次地重演。就是这样。这是 NVIDIA 与 Google Cloud 合作的例子,我们加速了 Vertex AI,加速了 BigQuery。

我对我们在 JAX/XLA 上所做的工作感到超级自豪。我们在 PyTorch 上的表现不可思议,我们是世界上唯一在 PyTorch 和 JAX/XLA 上都表现卓越的加速器。我们支持的客户,比如 Baseten, CrowdStrike, Puma (Run:ai?), Salesforce,他们其实不仅是我们的客户,也是我们的开发者伙伴。我们将 NVIDIA 技术整合进他们的产品,然后将他们落地到云端。我们与云服务提供商(CSP)的关系,本质上是我们把客户带给他们。我们整合我们的软件库,加速工作负载,然后让这些客户在云端落地。如你所见,大多数云服务提供商都非常喜欢和我们合作,他们总是问我们什么时候把下一个客户引到他们的云上。我想告诉大家,我们有很多客户,我们要加速所有人,所以会有成千上万的客户落地在你们的云上,请对我们保持耐心。这是 Google Cloud。

这是 AWS。我们和 AWS 合作了很长时间。今年我超级兴奋的一件事是,我们将把 OpenAI 引入 AWS。这将极大地推动 AWS 云计算的消耗,扩展 OpenAI 的算力和覆盖面。正如你们所知,他们的算力非常受限。我们在 AWS 加速了 EMR、SageMaker 和 Bedrock。NVIDIA 已经深度集成到了 AWS 中,他们是我们第一个云合作伙伴。微软 Azure,NVIDIA 建造的第一台 AI 超级计算机是给自己用的,但第一台商用的就是安装在 Azure 上的。那次合作促成了我们与 OpenAI 之间巨大的成功。

我们和 Azure 合作了很长时间,现在我们加速了 Azure Cloud,那是他们的 AI Foundry;我们与他们深度合作,加速了 Bing 搜索,在各个 Azure 区域与他们合作。随着我们将 AI 扩展到全世界,有一项能力变得极其重要——那就是机密计算(Confidential Computing)。在机密计算中,你要确保即使是云运营商也无法看到你的数据,甚至无法接触或查看你的模型。NVIDIA GPU 是世界上首批做到这一点的。现在它能够支持机密计算,保护极具价值的 OpenAI 模型和 Anthropic 模型在不同云和区域的安全部署,这一切都归功于我们的机密计算。这项技术超级重要。

这还有一个例子,Synopsys,我们非常棒的合作伙伴,我们正在加速他们所有的 EDA 和 CAE 工作流,并将这些落地到微软 Azure 上。

我们是 Oracle 的第一个 AI 客户。很多人可能以为我们只是他们的第一个供应商,没错我们确实是第一个供应商,但我们更是他们的首位 AI 客户。我很自豪,是我第一次向 Oracle 解释了什么是 AI 云,而我们成了他们的首个客户。自那以后,他们开始一飞冲天。我们把一大批合作伙伴落地在他们那里,比如 Cohere、Fireworks,当然还有大名鼎鼎的 OpenAI。

我们和 CoreWeave 也有极好的合作关系。他们是世界上第一个 AI 原生云。这家公司的建立只有一个目标:随着加速计算时代的到来,专门用于供应和托管 GPU。作为 AI 云的托管方,他们拥有一批极棒的客户,并且正在以惊人的速度增长。

有一个平台让我非常激动,那就是 Palantir 和 Dell。我们这三家公司共同建立了一种全新类型的 AI 平台——Palantir Ontology 平台。我们可以在任何国家、任何物理隔离(Air-gapped)的区域、完全在本地(On-prem)、完全在现场搭建这些平台。AI 可以被部署在世界上的任何角落。如果没有我们的机密计算能力,没有我们构建端到端系统的能力,没有我们提供从数据处理(不论是向量还是结构化数据)一直到 AI 的完整加速计算与 AI 栈的能力,这是不可能实现的。

我想向大家展示这些例子。这是我们与全球云服务提供商特殊的合作关系。虽然今天他们都来了,我也有幸在展台巡视时见到他们,但这真的让人无比兴奋。我只想感谢大家付出的辛勤努力。NVIDIA 所做的就是这些,而你们会一次又一次地看到这个主题。

NVIDIA 是垂直整合的——世界上第一家垂直整合但水平开放的公司。为什么这样做是必要的?原因很简单。加速计算不仅仅是一个芯片问题。加速计算也不仅仅是一个系统问题。加速计算其实漏掉了一个词,只是我们现在不再提了,那就是“应用加速”(Application Acceleration)。如果我能造一台让所有东西都跑得更快的计算机,那叫 CPU,但它的潜力已经耗尽了。未来我们继续加速应用、带来巨大速度提升和成本降低的唯一方法,就是通过应用或领域特定的加速。我把前面的词省略了,所以它变成了“加速计算”。这就是为什么 NVIDIA 必须一个接一个库(Library)、一个接一个领域(Domain)、一个接一个垂直行业(Vertical)去攻克的原因。

我们是一家垂直整合的计算公司。别无他法。我们必须理解应用,必须理解领域,必须从根本上理解算法,并且我们必须弄清楚如何在任何场景下部署这些算法——无论是在数据中心、云端、本地、边缘,还是在机器人系统中。所有这些计算系统都是不同的。最终,系统和芯片,我们都是垂直整合的。

让这一切变得无比强大、也是你们看到前面那些幻灯片的原因在于,NVIDIA 是水平开放的。只要你们希望,我们就会将 NVIDIA 的技术整合到你们的平台中。我们提供软件,提供库,与你们的技术深度整合,从而将加速计算带给全世界的每一个人。这届 GTC 就是一个极好的证明。

大多数时候,你们会看到我谈论这些垂直行业,我会拿它们举例。顺便提一下,在这届 GTC 上,来自金融服务行业的参会者比例是最高的。我知道,但我希望你们是开发者,而不是交易员朋友们。

我想说一件事。台下的听众代表了 NVIDIA 供应链上游和下游的生态系统。我们不仅关注下游,同样关注上游的供应链。让人无比兴奋的是,过去一年里,我们整个上游供应链——无论你是一家有着 50 年、70 年甚至 150 年历史的老牌公司,现在都成为了 NVIDIA 供应链的一部分,与我们在上游或下游紧密合作。去年,大家是不是都迎来了创纪录的一年?恭喜你们!

我们正在开创某种事业。这是一场无比庞大变革的开端。看看加速计算,我们现在已经奠定了计算平台。但为了激活这些平台,我们需要具备解决各个垂直行业中关键问题的“特定领域库”。你会看到我们涉足了自动驾驶汽车等各个领域,我们的触角、广度和影响力令人难以置信。我们在这个领域有专门的分会场。

我刚才提到了金融服务。算法交易正从经典机器学习(由被称作“宽客/Quant”的人类进行特征工程)转向让超级计算机研究海量数据,让它自己发现洞察和模式。金融行业正在迎来它的深度学习和 Transformer 时刻。医疗保健行业正在经历他们的 ChatGPT 时刻,我们在那里做着非常令人兴奋的工作。我们在医疗健康领域有一系列超棒的主题演讲,比如 Kimberly Powell。我们正在讨论用于药物发现的 AI 物理学或 AI 生物学,用于客户服务和诊断辅助的 AI 智能体。当然,还有物理 AI(Physical AI)、机器人系统。所有这些不同的 AI 向量分支,NVIDIA 都提供了相应的工业平台。我们正在彻底重置并启动人类历史上最大规模的建设——建立 AI 工厂、建立芯片工厂、建立计算机工厂,全球大多数行业的代表今天都在这里。

当然还有媒体、娱乐和游戏领域。实时的 AI 平台被用于翻译、广播支持、现场游戏和直播视频。海量的内容将被 AI 增强。我们有一个叫作 Holoscan 的平台。在量子计算领域,今天有 35 家公司在这里与我们一起构建下一代量子-GPU 混合系统。零售和消费品(CPG)行业使用 NVIDIA 进行供应链管理,创建用于购物的代理系统和用于客户支持的 AI 智能体。

这里正在进行大量的工作——一个 35 万亿美元的行业。还有机器人和制造业,这是一个 50 万亿美元的产业。NVIDIA 在这个领域已经深耕了十年,构建了构建机器人系统所必需的三台基础计算机。我们实际上与我们所知道的每一家制造机器人的公司都在合作集成。我们在展会上展出了 110 款机器人。

然后是电信行业,它的规模大概和全球 IT 行业一样大,大约 2 万亿美元。显然,基站无处不在,它是全球基础设施之一。它是上一代计算的基础设施。但这个基础设施将被彻底重塑,原因很简单。现在的基站只做一件事——作为基站。而在未来,它将是一个 AI 基础设施平台。AI 将在边缘运行,所以在这里有很多非常棒的讨论。我们在那里的平台叫作 Aerial。我们的 AI RAN(无线接入网)与诺基亚、T-Mobile、爱立信达成了重大的核心业务合作。

我刚才提到的所有这一切——计算平台,乃至非常重要的 CUDA 库、CUDA 品牌,其实质就是 NVIDIA 发明的算法。我们是一家算法公司。这正是我们的特别之处。这让我也能够深入这每一个行业,去想象未来,让世界上最好的计算机科学家去描述和解决问题,重构它,重新表达它,最终把它变成一个库。

我们有太多这样的库了。我想在这次展会上,我们要宣布发布 100 个,不,是 70 个库,也许还有 40 个模型,这仅仅是在这次展会上发布的。我们一直在不断更新它们。这些库是我们公司王冠上的明珠。正是它们激活了计算平台,让计算平台能够去解决实际问题、产生影响力。我们创造过的最重要、最伟大的库之一就是 cuDNN(CUDA 深度神经网络库)。它彻底引发了人工智能的革命,导致了现代 AI 的大爆炸。让我给你们看一段关于 CUDA 的短片。

播放视频:

20 年前,我们为加速计算打造了 CUDA 架构。今天,我们重塑了计算。上千个 CUDA 库正在帮助开发者在科学和工程的每一个领域实现突破:用于决策优化的 cuOpt;用于计算光刻的 cuLitho;用于直接稀疏求解器的 cuDSS;用于几何感知神经网络的 cuEquivariance;用于 AI RAN 的 Aerial;用于可微物理的 Warp;用于基因组学的 Parabricks。它们的基石是算法,它们无比美丽。

你们刚才看到的一切都是模拟出来的。有些是原理求解器(基础物理求解器),有些是 AI 代理(AI 物理模型),有些则是物理 AI(机器人模型)。所有的东西都是模拟的,没有什么是纯动画,没有什么是手动绑定的,一切都是完全物理模拟出来的。这就是 NVIDIA 从底层到底在做的事。正是通过将对算法的理解与我们的计算平台相连接,我们才能够开启并解锁这些机遇。

NVIDIA 是一家垂直整合的计算公司,同时对世界保持水平开放。这就是 CUDA。刚才你们看到了很多公司,有沃尔玛、欧莱雅等了不起的成熟企业,摩根大通和罗氏。这些都是塑造当今社会的企业。丰田今天也在场。

这些是世界上最大的一些公司。但同样真实的是,还有一大批你们可能从未听说过的公司。我们称他们为“AI 原生企业”(AI Natives)。一大批初创公司,这个名单极其庞大。这仅仅是一小部分,我当时决定不了是多放点还是少放点。所以我就做成了这样,让你们谁也看不清。这样谁也不会觉得被冒犯了。然而,这个名单里隐藏着许多全新的公司。有些你们可能听说过,比如 OpenAI, Anthropic,但还有很多其他的。他们服务于不同的垂直领域。

在过去的两年里,特别是去年,发生了一些惊人的事情。我们和这些 AI 原生企业合作了很久,但就在去年,一切呈爆发式增长。我会向你们解释为什么会这样。

这个行业迎来了爆发,有 1500 亿美元的风投资金涌入了这些初创企业。这是人类历史上最大规模的投资浪潮。这也是历史上第一次,投资规模从几百万、几千万美元,直接飙升到了几亿美元、几十亿美元。原因在于,这也是历史上第一次,这些公司中的每一家都需要算力,海量的算力。他们需要 Token,海量的 Token。他们要么自己创建、构建并生成 Token,要么在 Anthropic、OpenAI 等公司生成的现有 Token 之上进行集成、提供附加价值。所以这个行业在很多方面都与众不同。但有一点是非常清晰的:他们正在产生的影响力、他们已经交付的惊人价值,是实实在在的 AI 原生力量。

(欢呼声)

因为我们重塑了计算。就像在 PC 革命期间诞生了一大批新公司一样,就像在互联网革命期间诞生了一大批新公司一样,在移动云时代也是如此。每一个时代都有自己的标准。我们现在谈论的,是一个刚刚发生且极其重要的新主要标准。在这一代,我们同样拥有一大批非常、非常特殊的公司。既然我们重塑了计算,那么理所当然会涌现出一批全新的、对世界未来产生深远影响的重要公司。就像在上一次计算平台迭代中诞生的 Google、Amazon、Meta 这些伟大公司一样。

我们现在正处于一个新平台迁移的起点。但在过去几年里到底发生了什么?如你们所知,我们一直在深耕深度学习和 AI,那是现代 AI 的大爆炸。我们一直处在这个风暴的中心,并推动这个领域发展了很久。但为什么偏偏是过去两年?过去两年到底发生了什么?其实是三件事:ChatGPT 的诞生开启了“通用 AI”时代。它不仅能感知和理解,还能翻译并生成独特的内容。我向你们展示了生成式 AI 与计算机图形学的融合,它让计算机图形重获新生。大家,世界上每个人都应该使用 ChatGPT。我自己每天早上都在用它做计划。所以,ChatGPT 代表了生成式 AI 时代——一种与我们过去完全不同的“生成式计算”(Generative Computing)。它不再是过去的计算方式了。

生成式 AI 是一种软件能力,但它深刻改变了计算的执行方式。计算曾经是基于检索(Retrieval-based)的,现在变成了生成式(Generative)的。当我在接下来谈论某些事情时,请记住这个概念,你们就会明白为什么我们所做的一切将改变计算机的架构、计算机的供应方式、计算机的建造方式,以及什么是计算的真正意义。这就是生成式 AI,发生在 2022 年底到 2023 年。

紧接着是“推理 AI”(Reasoning AI)的出现,比如 o1,随后又借由 o3 进一步腾飞。推理让 AI 能够自我反思,能够自己思考,能够做计划,能将它不理解的复杂问题分解成它能理解的步骤或部分。它可以基于研究来夯实自己的回答。o1 让生成式 AI 变得可信并以事实为基准,这直接让 ChatGPT 一飞冲天。这是一个非常非常重大的时刻。为了生成内容所需的输入 Token 数量,以及为了推理生成的输出 Token 数量,使得模型稍微变大了一些。当然,你可以有大得多的模型。o1 模型稍大一些,但没大太多,然而它用于上下文的输入 Token 和用于思考的输出 Token,让计算量出现了惊人的指数级增长。

然后我们迎来了 Claude Code(以及类似的代码智能体),首批具身 Agentic 模型。它能够读取文件、编写代码、编译、测试、评估,然后返回并迭代。Claude Code 彻底颠覆了软件工程。正如你们所有人所知,NVIDIA 内部 100% 的工程师都在使用 Claude Code、Codex 和 Cursor 或者是它们的组合。今天,没有一个软件工程师不在使用一个或多个 AI 智能体的协助来编程。Claude Code 代表了一次全新的拐点。

有史以来第一次,你不再问 AI 什么(what)、哪里(where)、何时(when)、如何(how),而是要求它:去创造(create)、去做(do)、去构建(build)。你要求它使用工具,获取你的上下文,阅读文件。它能够以智能体的方式分解问题,进行推理、反思,它能够解决问题并真正执行任务。一个从只能“感知”的 AI,变成了能“生成”的 AI;一个能生成的 AI,变成了能“推理”的 AI;而现在,一个能推理的 AI 变成了能够真正处理具有高度生产力工作的 AI。

在过去的两年里,对计算量的需求——在这个房间里的每个人都知道,对 NVIDIA GPU 的计算需求已经爆表了。现货价格正在飙升。哪怕你磨破嘴皮也找不到一块多余的 GPU。然而与此同时,我们正在疯狂出货海量的 GPU,但需求仍然在不断攀升。这是有原因的——就是这个根本性的拐点。

AI 终于能够执行生产力任务了,因此,“推理的拐点”(Inference Inflection)已经到来。AI 现在必须去思考。为了思考,它必须进行推理(Inference)。

AI 现在必须去执行动作。为了执行,它必须进行推理。AI 必须去阅读,为了阅读它必须推理;它必须去逻辑推导,它必须推理。AI 的每一个环节——每次它要思考,要推导,要执行,要生成 Token 时,它都必须进行推理。现在的重点已经远远超出了单纯的训练(Training)。现在是在推理的战场。在这个由于 Token 数量增加导致所需算力激增了大约 10,000 倍的时刻,推理的拐点正式到来。当我将这两者结合起来——在过去两年里,单个任务的计算需求上升了 10,000 倍,而用户的使用量估计上升了 100 倍。大家听过我的观点:我相信在过去两年里,总体的计算需求增加了 100 万倍。

这是我们共同的感受。这是每一家初创公司的感受。这也是 OpenAI 的感受,是 Anthropic 的感受。如果他们能获得更多的算力容量,他们就能生成更多的 Token,收入就会大幅上升,更多的人就能使用它。AI 就能进化得更高级、更聪明。

我们现在正处在那个正向的飞轮系统中,我们已经到达了那个时刻——推理的拐点已经到来。去年这个时候,我站在这个台上说,在那个时间节点,我们看到了大约 5000 亿美元。我们看到了极其确定的、对 Blackwell 和 Rubin 直到 2026 年的高达 5000 亿美元的强劲需求和采购订单。那是去年我说的。现在,我不知道你们是否有同感,但 5000 亿美元真的是一笔极其庞大的收入。不过似乎没人觉得惊叹。

我知道你们为什么不惊讶,因为在座的各位都迎来了创纪录的一年。但我今天站在这里要告诉你们,距离我们在华盛顿特区的 GTC 几个月后,距离去年这里的 GTC 一年后的今天,我看到的是:到 2027 年,这笔需求至少是 1 万亿美元。

这听起来合理吗?这就是我接下来要花时间跟你们讲的。事实上,我们甚至会供不应求。我确信实际的计算需求将远高于这个数字,这背后是有原因的。

首先是我们在过去一年做了大量的工作。当然,正如你们所知,去年是 NVIDIA 的“推理之年”。我们想要确保,我们不仅在训练(Training)和后训练(Post-training)上表现出色,我们在 AI 的每一个阶段都要做到无可挑剔。只有这样,对我们基础设施的投资才能尽可能长久地持续扩展。NVIDIA 基础设施的使用寿命会很长,因此分摊下来的成本就会极其低廉。你用得越久,成本就越低。在我看来毫无疑问,NVIDIA 的系统是你能在世界上找到的成本最低的 AI 基础设施。所以第一部分是,去年我们全身心投入到了推理 AI。这直接推动了刚才提到的拐点的出现。

去年我们非常高兴 Anthropic 选择了 NVIDIA,Meta(Llama)选择了 NVIDIA。与此同时,作为一个整体,开源模型代表了世界上三分之一的 AI 算力。开源模型已经逼近了前沿水平,并且无处不在。正如你们今天所知,NVIDIA 是当今世界上唯一能运行所有 AI 领域、支持所有 AI 模型(无论是语言、生物学、计算机图形学、计算机视觉、语音、蛋白质与化学,还是机器人学),无论是在边缘还是云端、任何语言的平台。

NVIDIA 的架构对所有这一切都是通用且灵活的,并且在每一个领域都表现优异。这使我们成为成本最低、信心最高的平台。因为当你们构建这些系统时——正如我提到的,1 万亿美元是一笔巨大无比的基础设施投资——你必须拥有绝对的信心:你投下的这笔万亿资金能够被充分利用,性能强劲,极具成本效益,并在你可预见的未来都具备使用寿命。在 NVIDIA 身上做这样的基础设施投资,你完全可以放心。我们已经证明了,这是世界上唯一一个你可以带着绝对信心去世界上任何地方构建的基础设施。你想把它放在任何一朵云上?我们很高兴。你想部署在本地?我们乐见其成。你想部署在世界任何地方的任何国家?我们都非常乐意支持。

我们现在是一个能运行所有 AI 工作负载的计算平台。现在我们的业务已经开始显现出这样的结构:60% 的业务来自头部五家超大规模云服务商(Hyperscalers)。然而,即使在这前五大客户中,有一部分也是他们内部的 AI 消耗。内部 AI 消耗,是非常核心的工作负载:推荐系统正从基于表格、协同过滤和内容过滤的方式,向深度学习和大型语言模型演进;搜索功能也转向了深度学习和大型语言模型。几乎所有这些超大规模工作负载都在向 NVIDIA GPU 极其擅长的方向转移。但最重要的是,因为我们与各大 AI 实验室合作,因为我们加速所有的 AI 模型,也因为我们拥有一大批 AI 原生企业生态系统,我们可以将这些需求带上云端。无论你们的投资有多庞大、多迅速,这些算力都将被消化。这占据了我们 60% 的业务。其余 40% 的业务则遍布全球——区域云、主权云、企业级、工业、机器人、边缘计算、大型系统、超级计算系统、小型服务器、企业服务器。系统的数量令人难以置信。AI 的多样性造就了它的韧性,AI 的触达范围就是它的抗压能力。毫无疑问,这绝不是一项只能跑一个单一应用的技术。这绝对是一场新的计算平台迁移。而我们的工作,就是继续推进这项技术。

去年我提到的一件最重要的事情是,去年是我们的推理之年。我们倾注了一切。我们在 Hopper 架构正处于巅峰、如日中天的时候,冒了一个巨大的风险,进行了重塑。我们认定,只有通过 NVLink 8(即后来的 NVLink 72)等架构演进,才能将其带入下一个层级。我们彻底重新设计了系统架构,对整个计算系统进行了解耦,并打造了 NVLink 72。它的构建方式、制造方式、编程方式,全都发生了翻天覆地的变化。Grace Blackwell 和 NVLink 72 是一场巨大的豪赌。这对任何人都不容易。今天在座的许多合作伙伴,我想感谢你们为之付出的所有艰辛努力,谢谢你们。

NVLink 72、NV-FP4。不仅仅是 FP4 精度,NV-FP4 是一种全新类型的 Tensor Core(张量核心)和计算单元。我们现在已经证明,使用 NV-FP4 进行推理,我们不仅没有损失精度,反而获得了性能和能效的巨大飞跃。我们甚至成功地将 NV-FP4 用于训练。所以,NVLink 72、NV-FP4,以及 Dynamo(结合 TensorRT-LLM)的软件创新,还有一大批新算法。我们甚至建造了一台超级计算机,专门用来帮我们优化内核并优化我们完整的软件栈,我们称之为 DGX Cloud。我们在超算能力上投资了数十亿美元,帮助我们打造出让推理成为可能的内核和软件。最终,所有的成果汇聚在了一起。

人们过去常对我说:“Jensen,推理太容易了。” 不,推理才是终极的难题。推理也是终极的重要,因为它直接驱动了你的收入。所以这就是结果。这是一份来自 SemiAnalysis(半导体分析机构)的报告,这是有史以来对 AI 推理进行的最全面、最庞大的一次扫描。

在图表的左侧,纵轴这里是“每瓦 Token 数”(Tokens per Watt)。每瓦 Token 数至关重要,因为每个数据中心,每一个工厂(按定义来说),都受限于电力(Power Constrained)。一个 1 吉瓦(GW)的工厂永远变不成两个,它受到物理法则和原子定律的限制。所以在那 1 吉瓦的数据中心里,你想产出最大数量的 Token,也就是这个工厂的产品。所以你想尽可能地处在这条曲线上方。

X 轴则是交互性(Interactivity)——也就是单次推理的速度。推理速度越快,显然响应越快。但更重要的是,推理越快,你能运行的模型就越大,能处理的上下文就越多,你能思考贯通的 Token 就越多。

这个轴代表着 AI 的“聪明程度”。所以,Y 轴是 AI 的吞吐量(产量),X 轴是 AI 的聪明程度。注意,AI 越聪明,你的吞吐量就越低——这很合理,因为它思考的时间更长。

所以这根轴是速度。我要再回到这点,这很重要。这就是我“折磨”大家的地方,但这太重要了。未来全世界所有的 CEO,都将以我接下来描述的这种方式来审视他们的业务,因为这就是你们的 Token 工厂。这就是你的 AI 工厂,这就是你的收入来源。展望未来,毫无疑问。所以这是吞吐量,这是智力。在给定的数据中心功耗下,每瓦性能越好,你能生产的 Token 吞吐量就越高。而图表的这边,是成本。

请注意,NVIDIA 拥有世界上最高的性能。没人会对这个感到惊讶。让他们惊讶的是,仅仅在“一代”产品之间,由于晶体管密度的提升,摩尔定律顶多能带来 50% 或 2 倍的性能提升。你可能会预期它比 Hopper H200 提升 1.5 倍。没人会想到它提升了 35 倍。

去年这个时候我说过,NVIDIA 的 Grace Blackwell NVLink 72 在每瓦性能上提升了 35 倍。当时没人信我。然后 SemiAnalysis 的 Dylan Patel 出了一份报告并引用了我的话。他指责我“保留实力”(Sandbagging)。他说 Jensen 藏拙了,实际性能是 50 倍,而他没有说错。他没说错。所以我们的单 Token 成本……

我们的单 Token 成本是世界上最低的。你根本无法击败它。

(掌声)

我以前说过,如果你选错了架构,那就算它免费送你,也还不够便宜。原因在于,无论发生什么,你依然需要去建造一个 1 吉瓦的数据中心。你依然需要建造一个 1 吉瓦的工厂。那个吉瓦级工厂将运行 15 年来摊销成本。那个吉瓦级工厂光是空壳就大约需要 400 亿美元。即便里面什么都不放,就是 400 亿美元进去了。你最好他妈的确保把最好的计算机系统放进去,这样你才能拥有最优的 Token 成本。

NVIDIA 的 Token 成本是世界顶级的,目前基本上是无法触碰的断层领先。之所以能做到这一点,全靠极端的软硬件协同设计(Co-design)。所以我很高兴他在这份报告中点名了我们。

这里有个 Token 猴王。我们把所有的软件,正如我告诉你们的,我们垂直整合,但我们水平开放。我们将所有的软件和技术整合在一起。然而,我们也可以将其打包并集成到世界各地的推理服务提供商中。

这些公司增长得太快了。他们发展得不可思议。比如 Fireworks,林健(Jian Lin)今天也在这里。他们成长得实在是太快了。去年增长了 100 倍!他们是真正的 Token 工厂,而他们工厂的生产效率、性能和 Token 制造成本,对他们来说就是一切。这就是当我们为他们更新软件后发生的事情(在相同硬件系统上)。看看他们的 Token 速度。差距惊人。

在 NVIDIA 更新算法、软件以及我们提供的所有技术之前,平均速度大约是每秒 700 个 Token,之后飙升到了近 5000 个,足足提高了 7 倍。这就是极端协同设计的不可思议的力量。

我刚才提到了工厂的重要性,这就是工厂的重要性。你的数据中心,过去是用来存放文件的。现在它成了一个生成 Token 的工厂。无论你怎么折腾,大家都受限于土地、电力和数据中心外壳。一旦建好,你的功耗就被锁死了。在有限的功耗基础设施下,你最好确保你的推理——因为你知道推理就是你的核心工作负载,Token 是你的新商品,那些算力产出就是你的收入——你最好确保架构已经被优化到了极致。 在未来,每一个云厂商(CSP),每一家计算机公司,每一家云公司,每一家 AI 公司,所有企业,都将时刻关注他们的 Token 工厂效率。这就是你未来的工厂。我知道这一点的依据是,这个房间里的每个人都渴望被智能所赋能。而在未来,那种智能将被 Token 所度量和强化。让我给你们展示一下我们是如何走到今天的。

播放视频 近十年前,在 2016 年 4 月 6 日,我们推出了 DGX-1,世界上第一台专为深度学习设计的计算机。8 块 Pascal GPU 通过第一代 NVLink 连接,在一台机器内提供 170 TFLOPS 的算力。这是世界上第一台为 AI 研究人员量身定制的计算机。伴随 Volta 架构,我们推出了 NVSwitch,将 16 块 GPU 实现了全对全(All-to-all)带宽连接,犹如一个巨大的单一 GPU 般运行,这是向前迈出的一大步。但模型规模在不断膨胀。数据中心需要演变成一个单一的计算单元,因此 Mellanox 加入了 NVIDIA。 2020 年,DGX A100 SuperPOD 成为首批将纵向扩展(Scale-up)与横向扩展(Scale-out)架构相结合的 GPU 计算机。用于纵向扩展的 NVLink 3,以及用于横向扩展的 ConnectX-6 和 Quantum InfiniBand。 接着是 Hopper 架构,搭载 FP8 Transformer 引擎的首款 GPU,开启了生成式 AI 的时代。配备 NVLink 4、ConnectX-7、BlueField-3 DPU 和第二代 Quantum InfiniBand。它彻底颠覆了计算。随后 Blackwell 凭借 NVLink 72 重新定义了 AI 超级计算系统架构。72 块 GPU 由第 5 代 NVLink 连接,提供高达 130TB/s 的全对全带宽。计算托盘集成了 Blackwell GPU、Grace CPU、ConnectX-8 和 BlueField-3。 基于 Spectrum-4 以太网运行的横向扩展架构,支持 3D 缩放定律,全速推进预训练、后训练和推理,成为当前强劲的 AI 计算系统。计算需求仍在呈指数级增长。现在,Vera Rubin 登场,为 Agentic AI 的每个阶段量身定制,推动计算的每一大支柱(包括 CPU、存储、网络和安全)向前演进。

Vera Rubin 平台,NVLink 72 提供 3.6 ExaFLOPs 的算力,高达 260 TB/s 的 NVLink 全对全带宽,这是为智能体 AI 时代充能的终极引擎。专为编排和 AI 工作流设计的 Vera CPU;基于 BlueField-4 构建的 AI 原生存储 STX 机架;以及通过共封装光学器件(CPO)扩展的 Spectrum-X,大幅提升了能效与弹性。

还有一项不可思议的全新补充。

Groq 3 LPX 机架,与 Vera Rubin 机架紧密相连。Groq LPU 拥有海量的片上 SRAM,作为 Token 加速器与本就快得不可思议的 Vera Rubin 强强联手。使得每兆瓦吞吐量提升高达 35 倍。全新的 Vera Rubin 平台,只需 7 个系统或 5 个机架规模的计算节点,即可组成一台革命性的、专为智能体 AI 打造的超级计算机。短短 10 年,算力提升了 4000 万倍!

过去的美好时光里,当我讲到 Hopper 时,我会举起一块小小的芯片。那真可爱。这是 Vera Rubin,我们想象中的样子。

当我们构想 Vera Rubin 时,我们想到的是整个系统——软硬件全面垂直整合,端到端扩展,作为一个巨大的统一系统进行终极优化。

它被设计成专用于智能体系统,原因很明确。对于智能体来说,最核心的工作负载当然是它的思考——即大型语言模型。大型语言模型会越来越大、越来越大。它将更快速地阅读更多 Token,以加快思考速度;但同时,它还需要频繁访问内存。它会对内存系统发起猛烈冲击。KV 缓存、结构化数据(cuDF)、非结构化数据(cuVS),它将极其猛烈地压榨存储系统,这就是为什么我们重塑了存储系统的原因。它还要使用工具,与对运行缓慢的计算机相对宽容的人类不同,AI 要求工具必须越快越好。这些工具,不管是未来的网页浏览器,还是云端的虚拟 PC,那些计算机都必须尽可能快。

我们创造了一款全新的 CPU,一款专为极高的单线程性能、惊人的数据吞吐量、卓越的数据处理能力以及极致能效而设计的 CPU。这是世界上唯一一款采用 LPDDR5 的数据中心 CPU。它具备无可匹敌的单线程性能和每瓦性能。我们打造它是为了让它能够与这些机架协同工作,处理智能体任务。

看,这就是 Vera Rubin 系统。它在哪?这里。这就是 Vera Rubin 系统。

注意,从上一代到现在,100% 采用液冷技术。所有的线缆都消失了。过去需要两天才能安装好的设备,现在只需两小时,简直不可思议。因此制造的周期时间将大幅缩短。这同时也是一台用 45 度温水冷却的超级计算机。这极大减轻了数据中心的压力,省下了大量原本用于数据中心散热的成本和能源,并将其全部释放在计算系统上。

这就是秘密武器。我们是世界上唯一一家成功构建出第六代纵向扩展交换系统的公司。这不是以太网,不是 InfiniBand,这是 NVLink,第六代 NVLink。这极其难以做到,不仅是难,简直是难于登天。我为 NVLink 团队感到无比自豪。完全液冷。

这是全新的 Groq 系统,稍后我会给你们展示更多细节。这个系统,8 块 Groq 芯片,这是 LP30,这绝对是世界前所未见的。大家以前见过的只是 V1(第一代),这是第三代。我们现在已经进入大规模量产,稍后我会给你们看更多细节。

这是世界上第一款采用共封装光学器件(CPO)的 Spectrum-X 交换机。这也是在全面量产中的共封装光学技术——光学器件直接贴装在芯片上,光纤直连硅片,电子转化为光子并直接连接到芯片。

我们和台积电(TSMC)共同发明了这项工艺技术,我们是今天唯一一家将其量产的公司,这被称为 COUPE 技术。这是彻底的革命。

NVIDIA 的 Spectrum-X 已经全面量产。这是 Vera 系统。

它的每瓦性能是当今世界上任何 CPU 的两倍。它也已经投入量产。你们知道,我们从没想过我们会单卖 CPU。但我们现在正在单独销售大量的 CPU。这毫无疑问将成为我们数十亿美元级别的业务。我非常非常满意我们的 CPU 架构师们。

我们设计了一款革命性的 CPU,这就是搭载 Vera CPU 的 CX9 系统,以及连接到基于 BlueField-4 的 STX 全新存储平台。

好,这些是机架。它们每一个都连接着 NVLink 机架。以前我给你们看过这个,它超级重。而且感觉每年都在变重,因为我觉得每年的线缆都在增加。这就是 NVLink 机架。我们之所以将这项技术发扬光大,是因为通过这种布线系统(结构化布线)来建立数据中心极其高效,所以我们决定将其引入以太网。所以这是一个在一个机架内容纳 256 个液冷节点的以太网机架。它也是通过这些惊人的连接器连在一起的。

你们想看看 Rubin Ultra 吗?

这就是 Rubin Ultra 计算节点。不同于横向插拔的 Rubin,Rubin Ultra 被装进了一个叫作 Kyber 的全新机架中。这使得我们能够在一个 NVLink 域内连接 144 块 GPU。所以 Kyber 机架……我相信我能举得动它,但我还是不举了。

它非常重。这是一个计算节点,它垂直滑入 Kyber 机架。这是它连接的地方。这是中板(Midplane)。Kyber 机架顶部的那四个 NVLink 连接器滑入并连接到这里,这就成了一个节点,这里的每一个交换机都是一个独立的计算节点。最惊人的部分是这个中板。在中板的背面,与其使用受限于铜线传输距离的线缆系统,我们现在有了这个系统来连接 144 块 GPU。这是新的 NVLink。它也垂直放置,并从背板连接到中板。前面是计算节点,后面是 NVLink 交换机。这就是一台巨大的计算机!所以,这就是 Rubin Ultra。

正如我提到的,正如我刚才说的。我们把它放下来吧?我还需要看剩下的幻灯片。哦,它降下来了。好的,谢谢 Janine。这就是不排练的结果。好,所以你们看到了。慢慢来,别受伤。

你们看到了这张幻灯片,你们知道,只有在 NVIDIA 的主题演讲上,你才能看到去年的幻灯片又被拿出来讲一遍。原因是我只想告诉你们,去年我告诉了大家一件非常非常重要的事情,它太重要了,值得再说一遍。这可能是决定未来 AI 工厂命运的最重要的一张图表。

全世界的每一位 CEO 都会跟踪它、深入研究它。虽然现实比这复杂得多,是多维度的,但你会不断研究你的 AI 工厂的吞吐量和 Token 速度。在等功耗(ISO Power)条件下的吞吐量和 Token 速度,因为那是你拥有的所有电力上限。你的工厂需要永远关注这两个指标,因为这种分析将直接关系到你的收入。你今年所做的选择,将精准地体现在明年的收入表中。这张图就是核心所在。我之前说过,纵轴是吞吐量,横轴是 Token 速率。今天我要给你们展示这个,因为我们现在能够提高 Token 速度。由于模型规模在增大,上下文长度也在增加——根据不同应用场景的不同级别,上下文输入长度可能会从 10 万个 Token 增加到数百万个,输出 Token 也在变长。

所以这一切最终将影响未来 Token 的市场定位和定价。Token 是一种新的大宗商品。像所有大宗商品一样,一旦它到达拐点,一旦它变得成熟,它将被细分为不同的层级。高吞吐量、低速的部分可以作为免费层。

下一个层级可以是中端层级——更大的模型,可能更快的速度,当然还有更长的输入上下文。 这对应着不同的价格点。你可以从各种服务中看到这一点。 这个是免费层,第一层可能是每百万 Token 3 美元,下一层可能是 6 美元。你会希望不断推高这个边界。因为模型越大越聪明,输入的 Token 上下文越长,关联性就越强,速度越快,你就能思考和迭代出更聪明的 AI 模型。所以这关乎更聪明的 AI 模型。当你拥有更聪明的模型时,这其中的每一次攀升都允许你提高售价。比如这是 45 美元,也许有一天会有一个高级模型(Premium Model)和高级服务,它能提供极高的 Token 速度,因为你处于关键路径上,或者你正在进行冗长的研究,那么每百万 Token 150 美元根本不算什么。我们来算笔账。

假设你作为一个研究员,每天使用 5000 万个 Token,按每百万 Token 150 美元计算,结果你会发现,对于一个研究团队来说,这根本花不了几个钱。所以我们相信这就是未来。这就是 AI 发展的方向。它今天是这样的,它必须从这里开始建立其价值和实用性,然后变得越来越好。未来,你会看到大多数服务涵盖了这一切。

这是 Hopper。Hopper 的起点在这里,我移动了图表,这是 50,这是 100。Hopper 大概是这样的。你预期 Hopper 的下一代会更高,但谁也没想到它会高出这么多。

这是 Grace Blackwell。Grace Blackwell 做的是在你的免费层极大地提高了吞吐量;但在你变现能力最强、最具价值的中坚业务层,它将你的吞吐量提高了 35 倍!这和世界上任何公司生产的产品规律是一样的——层级越高、质量越高、性能越高,但产量和容量就越低。这和世界上任何其他生意没有区别。所以现在我们能够把这一层的吞吐量提高 35 倍,并且我们还引入了全新的层级。

这就是 Grace Blackwell 的巨大优势,相较于 Hopper 的一次飞跃。好,下面是我们接下来要做的。这是 Grace Blackwell,让我重置一下。接下来这是 Vera Rubin。好吗?

现在,想想刚才每一个层级发生了什么。在每一个层级上,我们都提升了吞吐量。而在带来最高平均售价(ASP)和你最具价值的细分市场上,我们将吞吐量提高了 10 倍。这是最难啃的骨头。在那个位置极其难以实现。这就是 NVLink 72 的优势。这是极低延迟带来的好处。这是极端协同设计的成果,让我们能将整个曲线向上平移。

那么从客户的角度来看,最终这意味着什么?假设我将所有算力综合起来,我用 25% 的电力用于免费层,25% 的电力用于中端层,25% 用于高端层,剩下 25% 用于尊享(Premium)层。我的数据中心只有 1 吉瓦的功耗。所以我可以决定如何分配:免费层帮我吸引更多客户,高级层让我服务最有价值的客户。这一切产生的综合效益,就是你最终能创造的收入。

基于这个简化的例子,Blackwell 能够创造 5 倍于以往的收入。而 Vera Rubin 则能再创造 5 倍的收入。

所以,你们应该尽快过渡到 Vera Rubin。原因在于,你的 Token 成本会下降,而你的吞吐量会上升。但我们想要的还不止于此。

我们要更多。让我回到这张图。正如我所告诉你们的,高吞吐量需要海量的浮点运算(Flops)。而低延迟、高交互性则需要海量的带宽(Bandwidth)。计算机系统无法同时处理极端的浮点运算和极端的带宽,因为任何芯片表面的物理面积都是有限的。所以,为高吞吐量做优化和为低延迟做优化,本质上是一对死敌。这就是当我们与 Groq 合作时发生的事情。我们收购了开发 Groq 芯片的团队并获得了技术授权。我们现在一直在合作整合这个系统。

这就是整合后的样子。在最具价值的这个层级上,我们现在将性能提高了 35 倍。这张极其简单的图表向你们揭示了 NVIDIA 为何迄今为止在绝大多数工作负载上如此强悍的原因。原因就是,在这个区域,吞吐量实在太重要了。

NVLink 72 是彻底颠覆游戏规则的存在。它就是绝对正确的架构,即便你把 Groq 加进来,也很难打败它。然而,如果你把这张图表向右延伸,如果你想要提供能实现每秒 1000 个 Token,而不是 400 个 Token 的服务。突然之间,NVLink 72 就显得力不从心了,单靠它根本达不到那个速度。我们就是没有足够的带宽。这时候 Groq 就派上用场了。当你把它向右推,就会变成这样。它突破了 NVLink 72 的极限。如果你把这转化为相对于 Blackwell 的收入……

Vera Rubin 带来了 5 倍的提升。如果你绝大多数的工作负载都是高吞吐量需求,我建议你 100% 坚持使用 Vera Rubin。但如果你的工作负载中有很多是编程需求,或者极高价值的工程 Token 生成,我建议加上 Groq。我会给数据中心里大约 25% 的算力加上 Groq。剩下的 100% 都是 Vera Rubin。这给了你一个概念,关于如何将 Groq 加入 Vera Rubin,从而进一步扩展它的性能并挖掘更大的价值。结果就是这样。

这形成了一种强烈的对比。Groq 之所以如此吸引我,是因为它的计算系统——一种确定性数据流处理器(Deterministic Data Flow Processor)。它是静态编译的(Statically Compiled),由编译器进行调度。这意味着编译器能提前算出计算数据何时到达,所有这一切都在软件中被提前静态完成和调度。没有动态调度。它的架构设计有海量的 SRAM。它只为一件事设计——那就是推理。而这一项单一的工作负载,恰巧正是 AI 工厂未来的工作负载。随着世界继续追求生成高速的 Token,追求极其聪明的 Token,这种整合的价值将越来越高。

所以,这是两种走极端的处理器。你可以看到,一块芯片是 500 MB(的SRAM),而一块 Vera Rubin 的 GPU(Rubin)是 288 GB(的高带宽内存)。如果要把整个 Rubin 级别的模型参数,以及所有与之配套的海量 KV 缓存都装进 Groq 里,那得需要极多的 Groq 芯片。这曾限制了 Groq 真正走向主流并腾飞的能力,直到我们有了一个绝妙的主意。

如果我们利用一款名叫 Dynamo 的软件,把推理彻底解耦(Disaggregated Inference)会怎样?如果我们重新设计管线中执行推理的方式,把那些非常适合 Vera Rubin 的工作放在 Rubin 上做,然后把解码生成、低延迟、受带宽限制的工作负载转移给 Groq 呢?于是,我们统一了两种极端不同的处理器:一个负责高吞吐量,一个负责低延迟。这仍然改变不了一个事实,那就是我们需要大量的内存。所以对于 Groq,我们将挂载大量的 Groq 芯片,从而扩大它的内存容量。想象一下,对于一个万亿参数的模型,我们必须将所有的参数存放在 Groq 芯片中。然而,它旁边就是 NVIDIA 的 Vera Rubin,在那里我们可以存放处理所有这些智能体 AI 系统必需的极其海量的 KV 缓存。

它正是基于这种“解耦推理”(Disaggregated Inference)的理念。

我们做预填充(Prefill)——那是简单的部分;但我们也紧密地集成了“解码”(Decode)。解码中的注意力机制(Attention)需要大量的数学运算,因此放在 NVIDIA Vera Rubin 上执行。而前馈神经网络(FFN)的解码部分,即 Token 的生成部分,则交由 Groq 芯片完成。这两者通过现今的以太网以一种特殊的模式紧密耦合,将延迟降低了近一半。这种能力让我们得以整合这两个系统。我们在其上运行 Dynamo——这款为 AI 工厂打造的不可思议的操作系统。你将获得 35 倍的性能提升!更别提它还为 Token 生成带来了世界上前所未有的全新推理性能层级。所以,这就是 Groq 的魅力。

Vera Rubin 系统,加上 Groq。我要感谢为我们制造 Groq LP30 芯片的三星(Samsung)。他们正在全力以赴地生产。我非常感谢你们。我们的 Groq 芯片已经投入生产。我们大约会在下半年,可能在第三季度出货,好吗?Groq LPX。

关于 Vera Rubin……其实很难想象还会涌现多少新客户。最棒的是,早期的 Grace Blackwell 采样过程非常复杂,因为需要把 NVLink 72 等复杂的系统整合到一起。但 Vera Rubin 的早期采样进行得极其顺利。实际上,Satya(微软CEO)我想已经发文说,微软 Azure 上第一台 Vera Rubin 机架已经启动并运行了!所以我为他们感到超级兴奋。我们会继续疯狂生产这些设备。我们现在已经建立了一条能够每周制造数千台此类系统的供应链。本质上,我们的供应链里每个月都能产出装机量达数吉瓦(GW)的 AI 工厂。因此,在全力量产 GB300 机架的同时,我们也会快速量产 Vera Rubin 机架。

我们已经开始全面量产。各种 CPU 系列极其成功。原因就在于 AI 使用工具需要强大的 CPU。Vera CPU 的设计完美切中了这个甜蜜点。对于下一代数据处理来说,Vera CPU 是理想之选。

Vera CPU 加上 CX9,并连接到 BlueField-4 存储栈上。全世界 100% 的存储行业都在加入我们的这个系统。原因在于他们看到了和我们一模一样的前景:存储系统即将被 AI 轰炸。它将经受猛烈的冲击。过去,是人类在使用这些存储系统,人类在使用 SQL。现在,将是 AI 来使用这些存储系统,它们要存储 cuDF 加速结构化数据、cuVS 加速数据,以及非常重要的——KV 缓存。所以,这就是 Vera Rubin 系统。

最不可思议的是这个:在仅仅两年的时间里,在一个 1 吉瓦的工厂中,运用我刚才展示给大家的数学逻辑——要是按照摩尔定律,我们只能前进几个小台阶,我们会成倍增加晶体管数量、浮点运算次数和带宽量。但有了这种全新架构,我们把 Token 生成速度从 200 万硬生生提到了 7 亿!整整 350 倍的飞跃!这就是极端协同设计的威力。这就是我所说的:我们垂直整合、自上而下优化,然后水平开放给所有人享受成果。这是我们的路线图。

非常快地过一下,Blackwell 已经在这里了,也就是 Oberon 系统。对于 Rubin 架构,我们同样支持 Oberon 系统规范。我们总是向下兼容的,如果你不想改变现有机房架构,只想引入新一代计算节点,你可以直接使用。旧的标准机架系统 Oberon 仍然可用。Oberon 是铜缆纵向扩展(Scale-up)的。并且通过 Oberon,我们还可以利用光学扩展(光学纵向扩展),扩展到 NVLink 576。

好的。有很多讨论在问:“NVIDIA 还会做铜缆的纵向扩展吗?还会做光学的纵向扩展吗?” 我们两者都会做。所以我们会通过 Kyber 推出 NVLink 144(铜缆);然后利用 Oberon 加上光学扩展,打造 NVLink 72 结合光学的方案,从而达到 NVLink 576。接下来的 Rubin 迭代就是 Rubin Ultra,将搭载 Rubin Ultra 芯片(目前正在流片中),以及一款全新的 LPU——LP35。LP35 将首次整合 NVIDIA 的 NV-FP4 计算结构,再次带来好几倍的速度提升。这就是 Oberon NVLink 72 加上光学扩展,它使用了世界上首款共封装光学(CPO)交换机 Spectrum-6。所有这一切都在量产中。

从这里出发的下一代架构叫 Feynman(理查德·费曼)。Feynman 当然有新的 GPU。它也会有一款新的 LPU:LP40。这是极其巨大的一步。不可思议。如今融合了 NVIDIA 的规模优势和 Groq 团队的共同开发,LP40 将极其惊人。还有一款代号为 Rosa(罗莎琳德·富兰克林)的全新 CPU。以及连接下一代 CPU 的超级网卡 CX10 和 BlueField-5。

我们会有 Kyber(铜缆纵向扩展)。我们也会有通过 CPO 进行的 Kyber 光学纵向扩展。因此,我们将首次同时采用铜缆和共封装光学(CPO)技术进行纵向扩展。 很多人一直在问: “Jensen,铜缆还会重要吗?” 答案是肯定的。 “Jensen,你们打算做光学纵向扩展吗?” 是的。 “你们打算做光学横向扩展吗?” 是的。 所以,对于生态系统中的所有人来说,我们需要大得多的产能,这才是关键。我们需要更多的铜缆产能,我们需要更多的光学产能,我们需要更多的 CPO 产能。这也是为什么我们一直在与你们所有人合作,为这种级别的增长奠定基础。所以 Feynman 架构将拥有一切。看看我是不是漏了什么,差不多就这些。每年都有全新的架构,速度非常快。

非常快地,NVIDIA 已经从一家芯片公司变成了一家 AI 工厂公司、AI 基础设施公司、AI 计算公司。从系统,到如今我们在打造整座 AI 工厂。在这些 AI 工厂里,有太多被白白浪费的能源。我们要确保这些 AI 工厂以最优的方式被设计并协同运作。过去,这些组件在被塞进数据中心之前,相互之间从未见过面。我们这些技术供应商现在都认识彼此,但在过去,我们在数据中心建成前从不见面。这绝对不行。我们正在构建极其复杂的系统,所以我们必须在某个虚拟的地方先碰头。于是我们创造了 Omniverse 和 DSX 世界(NVIDIA DSX 平台)。在这个平台上,我们所有人可以在系统内虚拟地会面,并共同设计这些千兆瓦级的巨型 AI 工厂。

我们有针对机架的机械、热力学、电气和网络的仿真系统。这些仿真系统与我们生态系统中极其出色的工具公司实现了整合。我们还可以与电网相连,让我们能够相互通信,根据需求动态调整电网电力和数据中心功耗,从而节省能源。而在数据中心内部,我们通过 Max-Q 动态调节计算能力、散热以及我们共同开发的所有技术,确保没有任何电力被浪费,确保以最高效的状态运行,从而提供海量的 Token 吞吐量。

在我看来,这里头绝对有一倍的效能榨取空间。在千兆瓦的规模下,这一倍的提升是极其惊人的。我们称之为 NVIDIA DSX 平台。它和我们的所有平台一样,拥有硬件层、库层和生态系统层。完全一样。让我们来看一下。

播放视频 人类历史上最大规模的基础设施建设正在进行。世界正竞相建造芯片系统和 AI 工厂,每一千兆瓦的延迟,都意味着数十亿美元的收入损失。AI 工厂的收入等于“每瓦 Token 产出”。因此,在受限于电力的情况下,每一瓦未被充分利用的电,都是流失的收入。

NVIDIA DSX 是构建在 Omniverse 上的数字孪生蓝图。旨在设计和运营 AI 工厂,以实现 Token 吞吐量、韧性和能效的最大化。开发者通过多种 API 接入。DSX-M 用于物理、电气、热力学和网络仿真;DSX Exchange 用于处理 AI 工厂的运营数据;DSX Flex 用于电网间安全的动态电源管理;以及 DSX Max-Q,用于动态最大化 Token 吞吐量。这一切从 NVIDIA 以及被 PTC Windchill PLM 妥善管理的设备制造商的仿真资产开始。接着,通过达索系统(Dassault Systèmes)的 3DEXPERIENCE 平台完成基于模型的系统工程。Jacobs 将这些数据导入他们定制的 Omniverse 应用中以敲定设计。通过顶尖的仿真工具进行测试:使用西门子(Siemens)Star-CCM+ 进行外部热学仿真,Cadence Reality 进行内部散热模拟,使用 ETAP 验证电气方案,并利用 NVIDIA 网络模拟器 DSX Air 进行网络验证。最后通过 Procore 进行虚拟试运行,确保缩短实体建设时间。当场地正式上线时,这个数字孪生模型就成了运营中枢。

AI 智能体与 DSX Max-Q 协同工作,动态编排基础设施。代理商智能体监控冷却和电气系统,向 Max-Q 发送信号,从而持续优化计算吞吐量和能效。Emerald AI 智能体则解析实时电网需求和压力信号,并动态调整功耗。通过 DSX,NVIDIA 和我们的合作伙伴生态系统正竞相在世界各地构建 AI 基础设施,以确保拥有极高的韧性、能效和吞吐量。

这真的很不可思议,对吧?Omniverse 被设计用来容纳这个世界的数字孪生,它是从地球的数字孪生开始的。它将容纳各种规模的数字孪生。我们有一个极其出色的合作伙伴生态系统,我要感谢你们所有人。在场的所有这些公司,对我们的世界来说都是全新面孔。几年前我们甚至还不认识你们中的许多人。而现在我们并肩作战,紧密合作,共同建造这个世界见过的最大计算机,并且是在行星级的规模上进行。这就是 NVIDIA DSX,我们全新的 AI 工厂平台。

这部分我就不多讲了。不过这一次,我们要进军太空了。我们已经在太空领域崭露头角。Thor 芯片已经通过了抗辐射认证,所以我们不仅可以从卫星上做成像,未来还要在太空中建立数据中心!显然这非常复杂。

所以,我们正在与合作伙伴开发一台名叫 Vera Rubin Space 1 的新计算机。它将进入太空,在太空中建立数据中心。当然,太空中没有热传导,没有对流,只有热辐射。所以我们必须弄清楚如何在太空中冷却这些系统。但我们有一大批极其优秀的工程师在攻克它。

让我来谈谈一些全新的东西,Peter Steinberger 就在现场,他写了一款软件叫 OpenClaw。我不知道他是否预料到它会如此成功,但它的重要性是深远的。OpenClaw 成了人类历史上最受欢迎的开源项目,而这仅仅花了几个星期的时间。它超越了 Linux,超越了 Linux 30 年的成就!它就是这么重要。它将大放异彩。

你只需要做这个。好的,我们正式宣布支持它。我快速过一下。我想给你们展示几样东西。你只需在控制台里敲入这行代码。它就会跑出去,找到 OpenClaw,下载,然后为你构建一个 AI 智能体。接下来你可以让它做任何你需要做的事情。好,一起来看看。

播放视频

不可思议吧,真不可思议。我用这种方式生动地说明了什么是 OpenClaw,我相信你们都能理解。但让我们想想到底发生了什么。

什么是 OpenClaw?它是一个连接式的、Agentic 的 IT 系统。它负责调用并连接各种大型语言模型。所以它首先拥有自己管理的资源。它可以调用工具,可以访问文件系统,可以访问大型语言模型。它能进行任务调度,能执行 cron 定时任务。它能把你交给它的复杂问题拆解,一步一步去解决。它甚至可以派生并调用其他的子智能体(Sub-agents)。

它有 I/O(输入/输出)。你可以用任何模态与它对话。你可以向它挥手,它能懂你。你可以用任何方式对它讲话,它会给你发消息,发短信,发电子邮件。所以它拥有 I/O 接口。它还有什么?基于上述种种,你实际上可以说,它就是一个操作系统。

我刚刚用的描述,完全是用来描述操作系统的语法。OpenClaw 本质上开源了 AI 计算时代的操作系统!这就好比 Windows 让我们能够创造个人电脑一样,现在,OpenClaw 让我们能够创造个人智能体。这里面的寓意是极其深远的,极其深远。

首先,光是它的普及速度本身就足以说明一切。然而最重要的一点是:现在每一家公司、每一家软件公司、每一家技术公司的 CEO 们面临的问题是——你的 OpenClaw 战略是什么?就像我们过去每个人都需要有 Linux 战略;我们需要有 HTTP 和 HTML 战略,这开启了互联网;我们需要有 Kubernetes 战略,这让移动云时代成为可能。今天,世界上的每一家公司,都需要一个 OpenClaw 战略,一个智能体系统战略。

这就是新的计算机。接下来是最激动人心的部分——企业 IT 领域。在 OpenClaw 出现之前(我之前提到过传统企业 IT 是如何运作的,之所以叫“数据中心”,是因为那些大房间、大楼里存的都是数据,是人类的文件,是企业的结构化数据),我们通过那些内置了工具、记录系统和各种固化工作流的软件系统来处理数据,而这些变成了人类或数字员工用来操作的“工具”。这就是传统的 IT 行业——软件公司制造工具、保存文件。当然,还有全球系统集成商(GSI)等顾问公司,帮助企业弄清楚如何使用这些工具以及如何将它们集成。这对于治理、安全、隐私和合规性极其有价值。所有这些在今天依然有效。

只是在有了 OpenClaw 之后,在进入 Agentic 时代之后,世界将变成这样。这是极其非凡的。每一家 IT 公司,每一家企业,每一家 SaaS(软件即服务)公司,都将变成一家 AaaS 公司(Agent as a Service,智能体即服务)。毫无疑问。每一家 SaaS 公司都会成为一家 AaaS 公司。令人惊叹的是,OpenClaw 在最恰当的时刻,给了这个行业最需要的东西。就像 Linux 在最恰当的时刻出现,就像 Kubernetes 出现在最恰当的时刻,就像 HTML 的出现,让整个行业能够抓住这个开源协议栈,去创造无限可能。

不过,这里有一个坎。在企业网络中运行的智能体系统,如果能够访问敏感信息、执行代码,并且能够对外部通信——大家把这三点大声念出来试试看。想想看,访问敏感信息,执行代码,对外部通信。它显然可以访问员工信息,访问供应链数据,访问财务信息,然后把这些信息发出去对外部通信。很显然,这绝不能被允许!因此我们做的是,我们与 Peter 合作,我们调集了世界上最顶尖的安全和计算专家,与 Peter 共同努力,让 OpenClaw 变得企业级安全,并具备企业隐私保护能力。

我们称之为 NVIDIA NeMoClaw(作为对 OpenClaw 的企业级支持),它包含了所有这些智能体 AI 工具包。其中第一部分是一项叫作 OpenShell 的技术,现已整合进 OpenClaw。现在它彻底“企业级就绪”了。

这个协议栈,包含着我们称为 NeMoClaw 的参考设计。你可以下载它,测试它,并将它与你公司——世界上任何 SaaS 公司的策略引擎(Policy Engine)相连。你们的策略引擎极其重要,极其有价值。这些策略引擎可以与 NeMoClaw(或者配备了 OpenShell 的 OpenClaw)连接并执行策略。

它拥有网络护栏(Network Guardrail)。它拥有隐私路由器(Privacy Router)。因此,我们能够实施保护,防止智能体在公司内部越权执行,确保一切安全运行。我们还为智能体系统添加了几个特性。而对于你们自定义的 Claw,最重要的一点是支持你们自定义的模型。这就是 NVIDIA 的开放模型计划。

目前,我们在 AI 的每一个领域都处在前沿水平。无论是 Nemotron(语言与推理)、Cosmos(世界基础模型与物理 AI)、GR00T(通用机器人模型)、AlphaMayo(自动驾驶汽车模型)、BioNeMo(数字生物学),还是 Earth-2(AI 气象与物理)。我们在每一个领域都处于前沿。一起来看看。

视频播放 世界是多元的。没有任何一个单一模型能够服务所有的行业。开放模型(Open Models)是世界上最大、最多元的 AI 生态系统之一。近 300 万个跨越语言、视觉、生物学、物理学和自治系统的开源模型,为各个专业领域的 AI 建设提供了支持。NVIDIA 是开源 AI 最大贡献者之一。我们构建并发布了 6 大系列的开放前沿模型,连同训练数据、配方和框架,帮助开发者定制并采用那些霸榜排行榜的全新模型。最核心的是用于语言、视觉理解、RAG(检索增强生成)、安全性以及语音的 Nemotron 推理模型。你能听到我说话吗? 你好,是的,我现在能听到你说话。 用于物理 AI、世界生成与理解的 Cosmos 前沿模型。世界上首个具备思考和推理能力的自动驾驶汽车 AI——AlphaMayo。 用于通用机器人的 GR00T 基础模型。 用于生物学、化学和分子设计的 BioNeMo 开放模型。扎根于 AI 物理学的气象和气候预测模型 Earth-2。NVIDIA 的开放模型为全球的研究人员和开发者提供了坚实的基础,帮助他们构建并部署专属领域的 AI。

我们的模型之所以对大家有价值,不仅仅是因为它们在排行榜上名列前茅、处于世界级水平。最重要的是,因为我们绝对不会停止对它们的研发。我们将每一天都继续优化它们。Nemotron-3 之后会有 Nemotron-4。Cosmos-1 之后会有 Cosmos-2,如此迭代。我们将继续推进这些模型,垂直整合,水平开放,让每个人都能加入这场 AI 革命!无论是研究、语音、世界模型,还是通用机器人、自动驾驶和推理模型,我们都霸占了榜首。

当然,其中最重要的一项,这是 OpenClaw 中的 Nemotron-3。看这前三名,这是世界上最好的三个模型。我们正处于前沿。

不仅如此,我们希望创造这些基础模型,以便你们能够对它进行微调、进行后训练,将其塑造成你所需要的特定的智能体。这是 Nemotron-3 Ultra,它将成为世界上曾被创造出来的最强基础模型。这让我们能够帮助每个国家构建他们的“主权 AI”。我们正在与世界各地的许多公司合作。

今天我要宣布的一件最令人兴奋的事情,那就是“Nemotron 联盟”(Nemotron Coalition)。我们对此倾注了巨大的心血。我们投入了数十亿美元构建 AI 基础设施,不仅开发了 AI 所必需的核心引擎、所有推理库等,还创造了激活全球各个行业的 AI 模型。

大型语言模型非常重要,毕竟人类智能离不开语言。但在全球不同的行业、不同的国家中,你需要能够在你自己的领域定制你的专属模型。跨领域的模型差异极大,从生物学到物理学,从自动驾驶汽车到通用机器人,当然还有人类语言。我们有能力与每一个区域合作,创造特定领域的、属于他们自己的主权 AI。

今天,我们宣布成立一个联盟。这个联盟将与我们合作,让 Nemotron-4 变得更加不可思议!这个联盟中汇聚了一批了不起的公司。

Black Forest Labs 图像公司。Cursor,大名鼎鼎的编程助手公司,我们用了非常多。LangChain,专用于创建自定义智能体的框架,下载量破十亿。Mistral。Arthur。Perplexity 搜索引擎,大家绝对应该去用它,它是一个不可思议的多模态智能系统。Reflection。印度的 Sarva。Thinking Machines。Mirai 实验室。各种了不起的公司加入了我们。谢谢你们。

我说过,每一家企业软件公司、世界上每一家软件公司,都需要智能体系统,需要智能体战略,你需要有 OpenClaw 战略。

他们全都认同这一点,他们正与我们合作,将 NeMo Claw 的参考设计、NVIDIA AI 工具包,当然还有我们所有的开放模型整合进去。一家接一家的公司,名单太长了。我们正在与你们所有人合作,我对此深表感激。这就是我们的时刻。

这是一场重塑,一场复兴——企业 IT 的文艺复兴。这个原本价值 2 万亿美元的产业,将变成一个价值数万亿美元的新产业!它提供的将不仅仅是供人们使用的工具,而是在你们所擅长的垂直专业领域里高度定制的,我们可以用来“租赁”的 AI 智能体。

我完全能想象在未来,我们公司的每一位工程师都需要年度的“Token 预算”。他们一年的基本薪水可能是几十万美元,而我会再给他们提供价值这笔薪水一半的 Token,让他们的生产力放大 10 倍!这绝对会成真。这甚至已经成为了硅谷招聘员工的筹码:“我这笔工作预算里自带多少 Token 额度?” 原因非常简单,因为每一个能够使用 Token 的工程师效率都会飙升。而你们知道,这些 Token,将由我们和你们共同建设的 AI 工厂源源不断地生产出来。因此,当今建立在文件系统和数据中心之上的所有企业级软件公司,在未来都将变成 Agentic,他们都将成为 Token 的制造商。 对于自己的工程师,他们是 Token 的消耗者;对于他们的客户,他们是 Token 的制造商。

OpenClaw 诞生的意义怎么强调都不为过。它就和 HTML 一样伟大,和 Linux 一样伟大。我们现在拥有了一个世界级的、开放的智能体框架,大家都可以用它来构建自己的 OpenClaw 战略;同时我们创建了一个名叫 NeMo Claw 的参考设计,大家可以直接拿去使用,它经过了极致优化、性能强劲、同时又极其安全可靠。

说到智能体。你们知道智能体能够“感知、推理和行动”。目前我刚才提到的大部分智能体都是“数字智能体”。它们在数字世界里行动,它们推理并编写软件代码,这都是数字层面的。但长久以来,我们同样在研发实体化(Embodied)的物理智能体。

机器人,以及它们所需要的 AI 也就是“物理 AI”。在这里我们有一些重磅发布。我来给大家过一遍。现场有 110 个机器人,几乎世界上你能想到的每一家造机器人的公司,都在和 NVIDIA 合作。我们打造了三台不同的计算机:用于训练的计算机,用于生成合成数据和仿真的计算机,当然还有直接装载在机器人本体上的机器人计算机。我们提供了实现这些所需的全部软件栈,帮助你们开发的 AI 模型。所有这一切都已经被集成到了全球的生态系统以及我们不可思议的合作伙伴中,比如西门子(Siemens)、Cadence 等等。今天,我们要宣布一大批新的合作伙伴。

大家知道我们在自动驾驶领域深耕已久。自动驾驶汽车的 ChatGPT 时刻已经到来。现在我们明确知道我们可以成功实现汽车的全自动驾驶。今天我们宣布 NVIDIA Robo-taxi(自动驾驶出租车)就绪平台的四位新合作伙伴:比亚迪(BYD)、现代(Hyundai)、日产(Nissan)、吉利(Geely)。每年有 1800 万辆汽车在生产。加上之前的合作伙伴奔驰(Mercedes)、丰田(Toyota)和通用(GM)。未来这些 Robo-taxi-ready 的汽车数量将非常惊人。我们还宣布了与 Uber 在多个城市的重大合作。我们将部署并将这些 Robo-taxi-ready 车辆连接到他们的网络中。所以,会有大批新车面世。

我们在现场还有 ABB、优傲机器人(Universal Robots)、库卡(KUKA),非常多的机器人公司。我们正在与他们合作,将我们的物理 AI 模型落实并集成到仿真系统中,以便我们将这些机器人部署到世界各地的生产线上。卡特彼勒(Caterpillar)也在这里。甚至连 T-Mobile 都来了!原因在于,在未来,那个过去只用来发信号的基站铁塔,将变成 NVIDIA Aerial AI RAN(智能无线接入网)。它将成为一个拥有“机器智能”的信号塔,意味着它能推断交通流量,弄清楚如何调整波束成形,从而尽最大可能节省能源,并尽可能提升信号保真度。

现场有很多各种各样的人形机器人。但我最喜欢的其中一个,是一个迪士尼机器人。这样吧,我先给你们放几段视频。先看这个。

【演示视频】 物理 AI 的第一次全球大规模普及已经到来。首先是自动驾驶汽车。凭借 NVIDIA AlphaMayo,车辆现在具备了推理能力,能够跨越多种场景安全、智能地运行。我们让车辆描述自己的动作。汽车说:“我正在变道到右侧,以跟随我的路线。” 让它在做决定时解释自己的思考过程:“我的车道上有一辆违规并排停放的车辆。”

汽车说:“我正在绕过它。” 并让它遵循指令。 乘客说:“嘿奔驰,你能开快点吗?” 汽车说:“没问题,我会提速。”

这就是物理 AI 与机器人的时代。世界各地,开发者正在打造各式各样的机器人。但现实世界极其庞杂、不可预测、充满了边缘场景。现实世界的数据永远不足以用于所有场景的训练。

对于机器人来说……算力就是数据!

开发者利用互联网规模的视频和人类演示动作对“世界基础模型”进行预训练,并评估模型的表现,为后训练做好准备。利用经典的物理仿真与神经仿真技术,他们生成了海量的合成数据,并在规模化场景中训练策略,从而大幅加速开发进程。NVIDIA 打造了用于机器人训练与仿真评估的开源工具 Isaac Lab;用于可扩展、GPU 加速可微物理仿真的 Newton;用于神经仿真的 Cosmos 世界模型;以及用于机器人推理和动作生成的 GR00T 开放机器人基础模型。有了足够的算力,世界各地的开发者正在填补物理 AI 的数据鸿沟。

他们的手术室辅助机器人正在 NVIDIA Isaac Lab 中受训,利用 NVIDIA Cosmos 世界模型实现数据增广。Skilled AI 公司利用 Isaac Lab 和 Cosmos 为他们的 AI 大脑进行后训练。他们利用强化学习在成千上万次环境变化中加固模型。Humanoid 公司使用 Isaac Lab 训练全身控制与抓取策略。Hexagon Robotics 使用 Isaac Lab 进行数据生成与训练。富士康(Foxconn)在 Isaac Lab 中微调 GR00T 模型,Noble Machines 同样如此。迪士尼研发部(Disney Research)使用他们的 Camino 物理仿真器结合 Newton 与 Isaac Lab,为他们在每一个宇宙中的卡通角色机器人训练控制策略。

女士们先生们,奥拉夫(Olaf)!它活了。奥拉夫,你好吗? 我们终于见面了,我知道你,因为是我给了你属于你的计算机,就装在你肚子里。

你能想象吗?未来的迪士尼乐园。所有这些机器人,所有这些角色,都在四处走动互动。不过我得承认,我本以为你会更高一点。说实话,我从没见过这么矮的雪人。

嘿,这样吧,你能帮我个忙吗?通常情况下,我结束主题演讲的方式是回顾一下我刚讲过的内容。我们谈论了推理的拐点。我们谈论了 AI 工厂。我们谈论了正在上演的 OpenClaw 智能体革命。当然,还有物理 AI 和机器人。但是,不如这样,我们请几位朋友来帮我们做个收尾。好,放音乐吧!

(动感的说唱/演唱开始) 主题演讲结束了,如 Jensen 所述, 为前方的道路绘制了蓝图, 这里的 AI 工厂正在苏醒, 智能体正在学习如何前行, 从开放模型到机器人,现在我们拆解这一切。 算力大爆炸!看看我们见证了什么, 从 CNN 到 OpenClaw 智能体遍布大地, 但他们需要能量来满足渴望, 所以我们解决了问题,堪称绝妙, 我们将算力翻了 4000 万倍狂飙! 在这个 AI 时代的乐园里茁壮成长, 会说话的短模型和伙伴们正驱动着世界, 现在有人告诉我们谁才是老板, 成本直降三十五倍, Blackwell 让 Token 欢跃歌唱, 推理的时代已经敲响! 是的,我们的工厂曾经需要复杂的齿轮, 供应商们费力拉扯着机架和线缆, 慢慢搭建,一件又一件, 毫无头绪如何规模化实现。 直到 DSX 和 Dynamo 出现,它们知道怎么做! 将电力……直接转化成收入的磅礴! 智能体曾经只能等待与观望,现在必须去执行, 但若它们试图越界妄动?没门! NeMo 将守护一切,是的我的朋友,开源至上! 能够思考的汽车,充满智能的机器人, 这可不是演电影,一切已经成真! AlphaMayo 掌控着方向盘, 这是属于机器人的 ChatGPT 瞬间。 从无到有看它们自己驾驶, 举起你们的双手,为物理 AI 欢呼! 不留恋过去,不论曾经怎样, 现在我们为 AI 倾注更多力量! Vera Rubin 加上 Groq 激起推理的巨浪, 它们联手合作,现金正如暴雨般天降! 我们年复一年推出新架构, 因为 OpenClaw 智能体正吼着需要更多 Token! 属于所有人的 AI 协议栈,让我们共享这 5 层蛋糕。 时机已到,道路清晰, 因为开放模型引领我们走到这里! 当数据缺失,无需争论, 我们只要用算力生成合成数据! 机器人零瑕疵学习, 四大缩放定律被彻底点燃。 未来已来,不来看看吗? 欢迎大家来到 GTC 盛典!

好了,祝大家度过一个愉快的 GTC!

w3ctech微信

扫码关注w3ctech微信公众号

共收到0条回复