OpenAI 携手英伟达等 5 大巨头发布 MRC 协议，重塑大规模 AI 训练网络架构

2026-05-07 12:03:24 神评论

17173 新闻导语

OpenAI联合英伟达等5大巨头发布MRC协议，解决AI训练网络延迟问题！采用多路径设计提升13万GPU连接效率，降低50%网络故障恢复时间。点击了解革命性AI网络架构。

感谢网友不一样的体验的线索投递！

5 月 7 日消息，OpenAI 昨日（5 月 6 日）发布公告，为解决大规模 AI 训练中的网络延迟和故障问题，已携手 AMD、博通、英特尔、微软和英伟达公司，联合推出多路径可靠连接（MRC）协议，并通过 OCP（开放计算项目）向全行业开放该协议。

援引博文介绍，MRC 全称为 Multipath Reliable Connection，基于 RoCE 标准扩展，结合 SRv6 技术，通过开放计算项目（OCP）向全行业开源，致力于提升超级计算机网络的性能与韧性。

大规模训练 AI 模型面临严峻的网络挑战，单一数据传输延迟可能导致整个进程中断，致使 GPU（图形处理器）闲置。网络拥塞、链路及设备故障是主要诱因，且集群规模越大，问题发生频率越高。

针对传统网络架构扩展性不足的问题，MRC 采用多平面网络设计。通过将单一 800Gb/s 接口拆分为多个较小链路，系统仅需两层交换机即可连接约 13.1 万块 GPU。相比传统三层或四层架构，这一设计显著降低了网络功耗与组件数量，在降低成本的同时提升了路径多样性。

在流量调度方面，MRC 引入自适应数据包喷淋技术。与传统单路径传输不同，该技术将单一传输任务的数据包分散至数百条路径并行传输，有效避免了核心网络拥塞。即使数据包乱序到达，接收端也能依据内存地址信息正确重组。

为简化网络控制，MRC 摒弃了复杂的动态路由协议（如 BGP），转而采用 SRv6 源路由。发送端直接指定数据包路径，交换机仅需依据静态配置表转发。这种机制消除了动态路由的故障行为，使网络故障恢复时间从秒级缩短至微秒级。

实际部署数据显示，MRC 已应用于 NVIDIA GB200 超级计算机及 Oracle Cloud Infrastructure（OCI）站点。在真实训练场景中，即使发生链路抖动或交换机重启，MRC 也能在不中断训练任务的情况下自动绕过故障。

参考

Supercomputer networking to accelerate large scale AI training

【来源：IT之家】

关于MRC,AI训练,网络架构,OpenAI,英伟达,GPU,多路径可靠连接,RoCE,SRv6,网络延迟的新闻

今日热点

把搬砖做成零成本创业，《逆水寒》想给经典MMO破局？

《崩坏：因缘精灵》进化测试定档7月9日《胜利女神》推出更新“WAVE TO YOU”

四年磨一剑！2026重磅MMO《诡秘之主》定档8月21日

《永恒之塔2》航海玩法官宣《暗黑4》S14赛季7月1日上线

热门测试游戏

Wan网页游戏免费玩