马斯克 xAI 坐拥 55 万张英伟达 GPU 但算力利用率仅 11%,Meta 和谷歌可达 43~46%
马斯克xAI坐拥55万张英伟达GPU,但算力利用率仅11%,远低于Meta和谷歌的43-46%。揭秘AI算力浪费背后的行业难题与优化方案。
5 月 3 日消息,据《The Information》今日报道,马斯克旗下人工智能公司 xAI—— 也就是 Grok 大模型的幕后团队,目前手头上约有 55 万块英伟达 GPU(包括 H100 与 H200),但实际利用率仅有 11%。

据介绍,这些硬件目前主要部署在孟菲斯的 Colossus 超算集群中,采用液冷配置。尽管与 Blackwell 最新一代产品相比稍显老旧,但这样的体量在全球范围内依然位居前列。
然而,如此海量的硬件并未转化为有效的计算产出。该集群的实际利用率仅有 11%。当然,这并非意味着其余 89% 的 GPU 处于完全闲置状态,而是指模型的实际浮点运算利用率远远低于理论峰值。
业内人士解释称,衡量 AI 算力效率的关键指标叫做 MFU(Model FLOPs Utilization),即模型浮点运算利用率。11% 的 MFU 意味着,理论上能产生 100 份训练吞吐量的硬件,实际只产出了 11 份,大量的电力和硬件时间都消耗在了数据等待、通信开销和重新计算等环节,而没有转化为有效的训练吞吐。
面对这一数字,xAI 总裁 Michael Nicolls 在一份内部备忘录中承认其“低得尴尬”,并为团队设定了在未来几个月内将利用率拉升至 50% 的目标。
xAI 并非个例,算力利用率偏低是整个 AI 基础设施领域的行业性难题。报道指出,在超大规模集群下,软件优化跟不上硬件部署速度是普遍现象。作为对比,Meta 和谷歌在软件堆栈上投入了大量精力,因此其 GPU 利用率相对较高,但也只有约 43% 和约 46%。
此前曾报道,Colossus 集群的建设速度令人瞠目,从启动到首阶段投用仅用了 19 天,英伟达 CEO 黄仁勋更指出“这通常需要四年的时间”。这种飞速扩张虽然让 xAI 在硬件储备上占据了先机,但目前似乎也暴露出了软件配套与分布式训练能力的滞后。
此外,业界分析指出,AI 训练具有间歇性特征,硬件在模型推理时满负荷运转,但在数据分析阶段则会陷入闲置,这是导致利用率较低的重要因素。
除了 AI 训练本身的间歇性,业内人士指出,GPU 供应短缺带来的行为扭曲也加剧了算力浪费。由于高端 GPU 产能紧张且获取周期长,许多企业担心被回收资源而倾向于囤积硬件,实际负载却无法消化,从而造成了庞大的闲置资源与高昂的闲置成本并存的现象。
为了改变现状,xAI 计划从基础设施和软件堆栈优化入手。同时,有消息指出,xAI 未来可能会推出针对其庞大 GPU 集群的租赁服务,将闲置算力转化为收入。
此外,马斯克也在大力投入 TeraFab 项目,旨在为 xAI、SpaceX 等企业设计自研 AI 芯片,并基于 Intel 14A 工艺打造下一代先进计算方案。
- 1对于单机孤狼玩家,腾讯国服《弧光猎人》或许是更合适的选择
- 2《剑星:血雨》新女主伊薇太幼引争议 网友举例韩妹打脸老外
- 3掌控禁忌,役使恶魔!《暗黑破坏神:不朽》全新职业“术士”今日正式上线
- 4NEXON将延续《泡泡堂》IP 承诺其他IP暂无停运计划
- 5《上古世纪归来》公布先驱测试计划 原厂正版授权重启经典端游
- 6《魔域》重大活动今日上线 海量福利共赴守护之约
- 7风靡全球的《宝可梦GO》 把300亿张照片卖给了美国军方
- 8Nexon新作MMO《无冕之烬》免费试玩开启!截止6月22日
- 9《龙之谷》6月17日更新上线:勇者讨伐战第2季单人开战,全新龙玉与周年庆预热同步登场
- 10八年磨一剑!《太吾绘卷:天幕心帷》完整版今日正式上线

