本文由第三方AI基于17173文章http://news.17173.com/content/05112026/110427380.shtml提炼总结而成,可能与原文真实意图存在偏差。不代表网站观点和立场。推荐点击链接阅读原文细致比对和校验。
DeepSeek V4引爆软件栈大战!AMD ROCm 14天性能暴涨75倍:硬刚NVIDIA CUDA
2026-05-11 11:04:27
神评论
17173 新闻导语
AMD ROCm软件栈14天性能暴涨75倍!DeepSeek V4大模型推理吞吐量飙升,硬刚NVIDIA CUDA,大幅降低AI推理延迟,改善用户体验。
SemiAnalysis旗下InferenceX性能测试平台发布的最新测试数据显示,自DeepSeek V4大模型发布以来,AMD ROCm软件栈在约14天内实现了75倍的推理吞吐提升。
该测试覆盖了FP4和FP8精度下的8K/1K上下文典型应用场景,测试周期截至5月8日。

在相同交互性水平下,token处理能力同步增长,有效降低了大模型推理延迟,显著改善了终端用户的使用体验。
此次性能飞跃完全来自ROCm软件栈的深度优化,未涉及硬件层面的改动,展现出AMD在AI软件领域的快速迭代能力。
性能提升主要源于两大核心优化:融合mHC操作与RoPE哈达玛变换,降低CPU开销并提高HBM内存利用率。
此外,索引器、键值缓存压缩器等核心计算内核均采用TileLang和Triton语言编写,大幅加快了开发迭代速度。
目前ROCm距离单节点聚合英伟达B200的性能水平仍有5倍差距,距离PD解耦版本B200则还有1.5倍提升空间。
相关信息显示,AMD有望在未来几周内完成剩余的性能优化目标,进一步缩小与NVIDIA CUDA的技术差距。
这是DeepSeek V4发布后,AMD ROCm团队在未提前获得模型权重的情况下启动适配,仅用约两周便交出上述成绩单。

【来源:快科技】
热门测试游戏
- 1《遗忘之海》PC端7月9日公测上线!公测前瞻情报公开
- 2《英雄联盟》官宣怀旧模式,详情于7月12日MSI决赛揭晓
- 3五千万人预约的“新世界”,又把MMO的桌子给掀了
- 4《剑侠情缘:重逢》正式官宣开启预约,虎牙联手西山居打造三端互通
- 5魔兽故事:暴雪真没活了!魔兽新剧情再玩弑师梗?最强洛阿被一刀秒
- 6消消乐厂商放大招?乐元素UE5大世界二游《白银之城》二测招募开启
- 7《猿公剑》国风+中式武学+闪避反击+仁王刷装备,好像真有说法?
- 8韩国MMORPG新作《宙斯: 傲慢之神》7月1日开启预约
- 9《三角洲行动》全新「裂变」赛季正式开启,战火已燃,即刻入场!
- 10全服玩家一起推动剧情走向的游戏?《诡秘之主》游戏剧情前瞻

