英伟达刷新 MLPerf 的 DeepSeek-V3 671B 训练记录:提速 60%,最快 2.02 分钟完成
英伟达Blackwell平台刷新MLPerf记录,DeepSeek-V3 671B训练提速60%,最快仅2.02分钟,8192块GPU集群创下新标杆!
英伟达昨日(6 月 16 日)发布博文,宣布在 MLPerf Training 6.0 全部 7 项基准测试中,其 Blackwell 平台拿下最快训练成绩,并成为唯一覆盖全部测试项目的平台。

注:MLPerf Training 是业界常用的 AI 训练基准测试体系,用来比较不同硬件与系统在模型训练任务中的速度和效率。
而昨日(6 月 16 日)最新发布的 MLPerf Training 6.0 测试套件中,主要包含 7 项核心测试,涵盖了当前主流的大语言模型、生成式 AI 及经典机器学习工作负载:
DeepSeek-V3:基于拥有 671B 参数的大规模预训练语言模型,侧重测试稀疏计算(MoE 架构)的性能。
GPT-OSS 20B:包含 210 亿参数的生成式预训练语言模型测试。
Llama 3.1-8B:主流的 8B 参数大规模语言模型(LLM)预训练测试。
Llama 2-70B:利用低秩自适应(LoRA)技术对 70B 参数的 Llama 2 模型进行微调测试。
FLUX.1:文生图(Text-to-Image)生成模型测试,测试多节点扩展下的处理能力。
GNN(图神经网络):基于 RGAT 模型的大规模图结构数据分类测试。
推荐系统 (Recommender):基于 DLRM(深度学习推荐模型)的处理测试,通常用于评估大规模内容分发与广告推荐性能。
MLPerf Training 6.0 测试套件主要新增了 DeepSeek-V3 671B 和 GPT-OSS-20B 两个混合专家模型(MoE)预训练工作负载。
英伟达此次提交了 GB200 NVL72 和 GB300 NVL72 两套机架级系统。每套 NVL72 内部通过第 5 代 NVLink Switch 连接 72 块 GPU,把算力和内存整合成统一资源池。
在性能层面,GB300 NVL72 较 GB200 NVL72 在同等规模下最高可带来 1.6 倍训练速度提升。

在规模层面,英伟达把 Blackwell 训练集群推到 8192 块 GPU。其在 DeepSeek-V3 671B 任务上,用 GB200 NVL72 完成 8192 块 GPU 规模提交,成为迄今 MLPerf Training 中规模最大的 Blackwell 成绩。

CoreWeave 则借助采用 Spectrum-X 以太网的 GB300 NVL72 系统,在 8192 块 GPU 规模上把 DeepSeek-V3 671B 训练到目标质量,耗时缩短至 2.02 分钟。附上相关截图如下:


- 1《龙之谷》6月17日更新上线:勇者讨伐战第2季单人开战,全新龙玉与周年庆预热同步登场
- 2《天下3》弱水三千S3赛季预热活动开启
- 3清北追捧十五年的鹅腿,原来是一场现实版的《鹅鸭杀》
- 4NEXON将延续《泡泡堂》IP 承诺其他IP暂无停运计划
- 5对于单机孤狼玩家,腾讯国服《弧光猎人》或许是更合适的选择
- 6曾经的3D《DNF》回来了!第一热血硬派ACT网游是否值得一玩?
- 7Steam新品节,但文艺复兴:韩产手游《泽诺尼亚》时隔18年移植pc
- 8新作公布到工作室解散只隔8天:疯狂裁撤真能降本增效?
- 9Nexon新作MMO《无冕之烬》免费试玩开启!截止6月22日
- 10掌控禁忌,役使恶魔!《暗黑破坏神:不朽》全新职业“术士”今日正式上线

