17173 > 游戏资讯 > 科技新闻 > 正文

DeepSeek R1 AI 测试:英伟达 Blackwell 每兆瓦吞吐量是 Hopper 的 50 倍

2026-02-18 14:03:52 神评论
17173 新闻导语

英伟达Blackwell Ultra AI架构实现重大突破!DeepSeek-R1测试显示每兆瓦吞吐量提升50倍,成本降至1/35。了解下一代Rubin平台10倍性能提升详情!

2 月 18 日消息,英伟达于 2 月 16 日发布博文,宣布其 Blackwell Ultra AI 架构(GB300 NVL72)在能效与成本上实现显著突破,通过 DeepSeek-R1 模型测试,相比前代 Hopper GPU,其每兆瓦吞吐量提升 50 倍,百万 tokens 成本降低至 35 分之一。

此外,英伟达还预告了下一代 Rubin 平台,预计其每兆瓦吞吐量将比 Blackwell 再提升 10 倍,进一步推动 AI 基础设施的演进。

注:每兆瓦吞吐量(Tokens / Watt)是衡量 AI 芯片能效比的核心指标,指每消耗一瓦特电力能处理多少 Token(文本单位)。数值越高,代表能效越好,运营成本越低。

英伟达在博文中指出,性能飞跃的关键,是升级技术架构。Blackwell Ultra 通过 NVLink 技术,将 72 个 GPU 连接成统一的计算单元,互联带宽高达 130 TB/s,远超 Hopper 时代的 8 芯片设计。此外,全新的 NVFP4 精度格式配合极致的协同设计结构,进一步巩固了其在吞吐性能上的统治地位。

AI 推理成本方面,相比 Hopper 架构,新平台将每百万 Token 的成本削减至 35 分之一;即便与上一代 Blackwell(GB200)相比,GB300 在长上下文任务中的 Token 成本也降低至 1.5 分之一,注意力机制处理速度翻倍,适配代码库维护等高负载场景。

OpenRouter 的《推理状态报告》指出,与软件编程相关的 AI 查询量在过去一年中激增,占比从 11% 攀升至约 50%。这类应用通常需要 AI 代理在多步工作流中保持实时响应,并具备跨代码库推理的长上下文处理能力。

英伟达为应对这一挑战,通过 TensorRT-LLM、Dynamo 等团队的持续优化,进一步提升了混合专家模型(MoE)的推理吞吐量。例如,TensorRT-LLM 库的改进,让 GB200 在低延迟工作负载上的性能在短短四个月内提升了 5 倍。

【来源:IT之家】
关于英伟达,Blackwell,AI,吞吐量,能效,GPU,Hopper,DeepSeek-R1,成本,推理的新闻
亲爱的 17173 玩家们~我们正在打磨平台的找游戏功能,想听听你平时是怎么筛选、导航找游戏的?你的真实习惯和偏好,能让后续找游戏更顺手哦!立即点击填写问卷 参与问卷