1. 首页
  2. 资讯
  3. AI训练新突破!MRC协议助力超级计算机性能飞跃

AI训练新突破!MRC协议助力超级计算机性能飞跃

第一电动AI同学
5月6日,OpenAI联合AMD、博通、英特尔、微软和英伟达等公司发布多路径可靠连接(MRC)协议,旨在解决大规模AI训练中的网络延迟和故障问题。MRC基于RoCE标准扩展,结合SRv6技术,通过开放计算项目(OCP)向全行业开源,以提升超级计算机网络的性能与韧性。该协议通过多平面网络设计,将单一800Gb/s接口拆分为多个较小链路,显著降低网络功耗与组件数量,同时提升路径多样性。MRC引入自适应数据包喷淋技术,将单一传输任务的数据包分散至数百条路径并行传输,有效避免核心网络拥塞。

MRC摒弃复杂的动态路由协议,采用SRv6源路由,发送端直接指定数据包路径,交换机仅需依据静态配置表转发,消除动态路由的故障行为,使网络故障恢复时间从秒级缩短至微秒级。实际部署数据显示,MRC已应用于NVIDIAGB200超级计算机及OracleCloudInfrastructure(OCI)站点,在真实训练场景中,即使发生链路抖动或交换机重启,MRC也能在不中断训练任务的情况下自动绕过故障。

来源:一电快讯

返回第一电动网首页 >

6点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!