DeepSeek V4推理性能分析:NV华为最优 AMD实现100x提升
DeepSeek V4推理性能大对决:NVIDIA稳居榜首,华为昇腾Day0支持媲美CUDA,AMD竟实现100倍性能飙升!哪个AI生态最适合你?点击揭晓。
作为开源AI大模型的中坚力量,DeepSeek V4的问世不只是多了一个大模型,而是各大AI生态圈的一次考验,谁能率先支持DeepSeek V4谁家的生态就有更大优势。
SemiAnalysis日前发了一篇长文分析了V4的推理性能,对比了目前常见的AI生态圈,包括NVIDIA、华为、AMD及各自的CUDA、ROCm、CANN,以及第三方社区开源的各种方案。

综合下来,目前最强、最优的还是NVIDIA的CUDA平台vLLM及SGLang框架,V4发布当天就能Day0支持,哪怕是最新的硬件GB200/300也是开箱可用的水平。
华为的昇腾生态在这个问题上也不弱于CUDA,昇腾950DT+CANN框架也是发布当天Day0支持,硬件及软件上都可以做到全栈支持。
这两个生态是最优的,要知道以往不论国内外大模型,基本上只有NVIDIA的CUDA生态可以做到Day0全栈支持,显然V4在开发阶段就针对国产AI平台做了适配及优化,这一点也确实做到了。
AMD的硬件及ROCm生态指标都不错,但在V4的Day0支持上拉跨了,MI355X显卡刚开始只能跑FP8,性能很差,但AMD的SGLang团队追赶得极快,26天时间里就把性能提升了100x倍。
综合SemiAnalysis的分析来看,NVIDIA的CUDA生态圈肯定还是最稳的,Day0支持毫无悬念,而且还有最新的硬件加持,GB300的Token成本算下来还是很低的。
华为的昇腾+CANN生态也能做到NVIDIA那样的Day0支持,这方面也让人刮目相看,也是国产AI平台的一次重大进步,只不过跟NVIDIA相比,国产AI的算力被限制住了,硬件性能目前差距比较大。
AMD这边硬件及软件纸面上都很强,但生态还不够完善也是真的,只不过起点低的好处就是进步空间大,100x性能提升听上去也很带感,就是要看客户喜不喜欢这种风格了。

- 1重磅炸弹!曝《星际争霸》全新3A新作,或将马上亮相
- 2娱美德推进《夜鸦》在中国大陆的上线 IP新作年内上线
- 3《魔兽世界》倒计时一周!全新12.0.7版本“真相之幕”即将上线
- 4《泡泡堂》韩服宣布停运,盛趣回应:独立运营不受影响
- 5拳头离职大佬创业!新作虽说是“缝合怪”,但好评率仍高达81%
- 6遣返回国!日本“国宝级”美少女福田悠亚新西兰旅游被审讯6小时
- 7Steam新品节前瞻,推荐七款值得关注的多人联机/网游!
- 8绷不住了!电竞含片?智商税已经离谱到这个地步了?
- 9魔兽世界:时光服P4最新DPS排行,唯一三系登顶职业出现,雷火又开始造新神了
- 10正惊GIF:六大美女聚餐!桌上有说有笑,青春艳丽模样让无数人心动

