AMD的AI显卡MI355X实测来了:显存碾压N卡B200、优化算法弥补互联缺陷
AMD MI355X AI显卡实测:288GB显存碾压NVIDIA B200,通过TSP与Tree Attention算法优化,长文本吞吐量逼近旗舰级竞品,挑战NVIDIA市场垄断地位!
在AI显卡领域NVIDIA一家独占了90%的市场份额,之所以领先不仅在于纸面性能强,实际AI算力也是远超AMD、Intel等对手的,不过AMD现在有机会追回来了。
AMD今年下半年会出货MI450系列AI显卡,这一代的AI竞争力上来了,但是当前的MI350X系列还是很多厂商部署没多久的,依然需要挖掘潜力,AI云服务商 Zyphra日前就发布了首份基于 AMD旗舰AI显卡MI355X的端到端大模型推理实测。
先说结论,他们的测试在真实单节点环境下运行了DeepSeek V3.2、Kimi K2.6 与 GLM-5.1,最终显示MI355X有能力直接对标NVIDIA的Blackwell架构AI显卡B200。

文章内容比较长,来看点重点的,首先是AMD强的地方,其杀手锏是288GB的海量显存,远超B200的180GB,更大容量的显存让MI355X处理超长文本时,单卡就能塞下更多缓存,直接省下了拆卡并行的硬件成本。
但AMD的劣势在芯片间互联带宽上,B200靠NVLink技术就能让任意双卡跑满900GB/s带宽,相比之下AMD的MI355X还在采用点对点Infinity Fabric直连,卡间通信效率一般,带宽峰值也就537.6GB/s。
既然AMD的显卡带宽硬件上有缺陷,Zyphra 就在软件优化上下了功夫,他们开发了张量序列并行 (TSP) 与树状注意力 (Tree Attention) 算法来解决问题。
他们的团队用树状通信取代了传统的环形网络,把解码阶段的计算和数据传输完全折叠在一起,强行用算法弥补了AMD硬件在点对点互联上的缺陷。
最终的效果还不错,虽然在单请求绝对速度上,NVIDIA B200肯定还会全面领先,,但是随着长文本场景增多,而且上下文拉长之后,MI355X加上算法优化之后吞吐量已经逼近B200。
Zyphra用实例证明只要底层软件栈优化够好,AMD的AI显卡也能依靠大显存优势在长文本生产环境中与NVIDIA 的旗舰级AI显卡正面竞争。
有了这些经验之后,Zyphra 计划利用这套架构支持1.6万亿参数的DeepSeek V4 Pro部署,并将上下文拉升至100万token。
团队后续还将针对MI355X开发专属的低精度量化方案,并引入全新的扩散投机采样模型,进一步挖掘这块芯片的算力潜能。





- 1《龙之谷》6月17日更新上线:勇者讨伐战第2季单人开战,全新龙玉与周年庆预热同步登场
- 2《天下3》弱水三千S3赛季预热活动开启
- 3清北追捧十五年的鹅腿,原来是一场现实版的《鹅鸭杀》
- 4NEXON将延续《泡泡堂》IP 承诺其他IP暂无停运计划
- 5对于单机孤狼玩家,腾讯国服《弧光猎人》或许是更合适的选择
- 6曾经的3D《DNF》回来了!第一热血硬派ACT网游是否值得一玩?
- 7Steam新品节,但文艺复兴:韩产手游《泽诺尼亚》时隔18年移植pc
- 8掌控禁忌,役使恶魔!《暗黑破坏神:不朽》全新职业“术士”今日正式上线
- 9八年磨一剑!《太吾绘卷:天幕心帷》完整版今日正式上线
- 10《燕云十六声》6月26日杭州城12区域全面开放 端午活动率先上线

