在一个研究博客Meta 工程师于 8 月 5 日星期一发布,描述了他们开发的一种新型网络拓扑,用于优化 AI 训练。研究人员指出,传统的数据中心网络基础设施不适合大型人工智能工作负载,这些工作负载需要数以万计的GPU之间的协调,研究人员设计了一种替代方法,使用RoCEv2作为节点间数据传输标准。
根据 AI 超集群设计的最新进展,Meta 也已转向基于织物的架构,该架构比过去使用的固定拓扑具有更大的可扩展性。专用结构在集群中的任意两个 GPU 之间提供高带宽、低延迟和无损传输,无论它们的物理位置如何。这意味着 Meta 可以根据需要动态增加或减少容量。然而,尽管新的网络设计更有效地使用 GPU 计算,并可以根据需要利用额外的处理器,但高端 AI 芯片的供应目前受到生产限制,限制了 AI 开发人员的能力。
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。