NVIDIA 和 OpenAI 推出了最快的开放推理模型

robot
摘要生成中

NVIDIA 和 OpenAI 刚刚发布了两个新的开源推理模型,gpt-oss-120b 和 gpt-oss-20b。120b 模型可以在单个 NVIDIA GB200 NVL72 系统上每秒处理 150 万个令牌。这得益于 NVIDIA 的 Blackwell 架构和一种新的 4 位精度格式 NVFP4 的结合。这种格式有助于在准确性和效率之间取得平衡。

模型的驱动力

这些模型高效运行的原因在于新硬件和智能软件的结合。它们是在NVIDIA强大的H100 GPU上训练的,并且旨在能够在各种设备上顺利运行。您可以在大型云系统和配备NVIDIA RTX显卡的普通台式电脑上使用这些模型。如果您已经在使用CUDA,您可能可以在不需要额外工作的情况下运行这些模型。

这两种模型也被打包为 NVIDIA 所称的“推理微服务”。这使得模型相对更快且更容易。您无需从头开始构建一切。如果您已经在使用流行的 AI 工具,如 Hugging Face 或 Llama.cpp,这些模型将直接集成进来。

NVIDIA的较新Blackwell硬件在这里也发挥了重要作用。它包括一个叫做NVFP4的功能,通过使用低精度数字而不失去准确性来帮助模型更快、更高效地运行。听起来可能很专业,但结果非常简单。它将导致更快的AI,使用更少的电力和内存。对于企业来说,这可能意味着更低的成本。

NVIDIA与OpenAI之间的长期合作关系也帮助实现了这一点。这段关系可以追溯到Jensen Huang亲自交付第一台DGX-1的时候。现在gpt-oss系列的发展感觉是这一合作的下一个合乎逻辑的步骤。然而,这些产品将需要数量级更多的计算能力、精细打磨和运营准备。其硬件、软件和服务都在协同工作,这在这个层面上是很少见的。

让每个人都可以构建

此次发布最重要的事情之一是这些模型是开放的。这意味着来自初创公司和大学的任何人都可以参与其中。他们可以在其基础上进行构建、定制,并在他们的系统中使用它们。OpenAI 现在拥有超过 400 万名终身开发者在其平台上进行开发。而 NVIDIA 方面则有超过 650 万名开发者使用其软件工具。他们已经合作近十年,影响力巨大。全球有数亿个 GPU 运行在 NVIDIA CUDA 平台上。当这样的技术发布到这样一个庞大而经验丰富的生态系统中时,采用往往会迅速推进。这就是为什么这开始感觉不像是一次发布,而更像是一个转折点。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)