NVIDIA 和 OpenAI 推出了最快的开放推理模型

2025-08-07 03:01:54

摘要生成中

NVIDIA 和 OpenAI 刚刚发布了两个新的开源推理模型，gpt-oss-120b 和 gpt-oss-20b。120b 模型可以在单个 NVIDIA GB200 NVL72 系统上每秒处理 150 万个令牌。这得益于 NVIDIA 的 Blackwell 架构和一种新的 4 位精度格式 NVFP4 的结合。这种格式有助于在准确性和效率之间取得平衡。

模型的驱动力

这些模型高效运行的原因在于新硬件和智能软件的结合。它们是在NVIDIA强大的H100 GPU上训练的，并且旨在能够在各种设备上顺利运行。您可以在大型云系统和配备NVIDIA RTX显卡的普通台式电脑上使用这些模型。如果您已经在使用CUDA，您可能可以在不需要额外工作的情况下运行这些模型。

这两种模型也被打包为 NVIDIA 所称的“推理微服务”。这使得模型相对更快且更容易。您无需从头开始构建一切。如果您已经在使用流行的 AI 工具，如 Hugging Face 或 Llama.cpp，这些模型将直接集成进来。

NVIDIA的较新Blackwell硬件在这里也发挥了重要作用。它包括一个叫做NVFP4的功能，通过使用低精度数字而不失去准确性来帮助模型更快、更高效地运行。听起来可能很专业，但结果非常简单。它将导致更快的AI，使用更少的电力和内存。对于企业来说，这可能意味着更低的成本。

NVIDIA与OpenAI之间的长期合作关系也帮助实现了这一点。这段关系可以追溯到Jensen Huang亲自交付第一台DGX-1的时候。现在gpt-oss系列的发展感觉是这一合作的下一个合乎逻辑的步骤。然而，这些产品将需要数量级更多的计算能力、精细打磨和运营准备。其硬件、软件和服务都在协同工作，这在这个层面上是很少见的。

让每个人都可以构建

此次发布最重要的事情之一是这些模型是开放的。这意味着来自初创公司和大学的任何人都可以参与其中。他们可以在其基础上进行构建、定制，并在他们的系统中使用它们。OpenAI 现在拥有超过 400 万名终身开发者在其平台上进行开发。而 NVIDIA 方面则有超过 650 万名开发者使用其软件工具。他们已经合作近十年，影响力巨大。全球有数亿个 GPU 运行在 NVIDIA CUDA 平台上。当这样的技术发布到这样一个庞大而经验丰富的生态系统中时，采用往往会迅速推进。这就是为什么这开始感觉不像是一次发布，而更像是一个转折点。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
分享

0/400

暂无评论