英伟达已适配 DeepSeek-V4 AI 模型,GB200 NVL72 开箱性能超 150 tokens / sec / user
英伟达Blackwell平台适配DeepSeek-V4 AI模型,GB200 NVL72性能超150 tokens/sec/user!支持100万Token上下文,提供NIM微服务与vLLM框架部署方案。
4 月 25 日消息,英伟达今天(4 月 25 日)发布博文,宣布其 NVIDIA Blackwell 平台已适配 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 两款模型,开发者可通过 NVIDIA NIM 微服务下载部署,或利用 SGLang 与 vLLM 框架进行定制化推理。
英伟达在博文指出,DeepSeek-V4-Pro 拥有 1.6T 总参数量与 49B 激活参数,定位高级推理任务;DeepSeek-V4-Flash 版本则为 284B 总参数量与 13B 激活参数,主打高速高效场景。

两款模型均支持 100 万 Token 上下文窗口与最高 38.4 万 Token 输出长度,覆盖长文本编码、文档分析等核心应用,并采用 MIT 开源协议。
实测数据显示,DeepSeek-V4-Pro 在 NVIDIA GB200 NVL72 上开箱即用性能超 150 tokens / sec / user,借助 vLLM 的 Day 0 配方,开发者可在 Blackwell B300 上快速部署。随着 Dynamo、NVFP4 及 CUDA 内核的深度优化,预期性能将进一步提升。

部署生态方面,开发者可通过 NVIDIA NIM 微服务下载部署,或利用 SGLang 与 vLLM 框架进行定制化推理。SGLang 提供低延迟、均衡及最大吞吐量三种配方;vLLM 则支持多节点扩展至 100 个以上 GPU,具备工具调用与推测解码能力。

附上参考
Build with DeepSeek V4 Using NVIDIA Blackwell and GPU-Accelerated Endpoints
- 1想玩就玩!《激战3》官方确定不设置通行证与月卡
- 2腾讯新游《追逐卡蕾多》发布首个实机演示,同步开启测试招募
- 3从“差评如潮”到业界良心,它用了38个免费DLC......
- 4韩国MMORPG新作《希望 M2》公开全新插画
- 5经典MMO《洛奇》迎来大更新:全新主线G28黄昏残墟上线!
- 6绅士日报:韩国MMO建模巅峰?乳摇扭胯太性感,只敢关上门偷偷玩!
- 7《燕云十六声》暑期版本6月26日开启!新区域杭州城开启江南时代
- 8《洛奇英雄传》萌萌赫列塔来啦!缤纷夏日英雄试炼今日开启!
- 9《星际战甲》大版本「旧日暮影:众星」将于6月18日上线,一图速览全新内容!
- 10《归唐》到底行不行?有哪些细节和令人担忧的地方?

