文章预览
AI大模型训练-智能无损网络技术共四篇! 1. 简介 智能无损网络是通过硬件架构、智能无损算法和一系列的网络技术,为人工智能、分布式存储、 HPC ( High Performance Computing ,高性能计算)等应用场景提供的“无丢包、低时延、高吞吐”网络环境,用于加速计算和存储的效率,为数据中心构建统一融合的网络。 1.2 产生背景 1.2.1 RDMA 的应用需求 RDMA ( Remote Direct Memory Access ,远程直接内存访问)技术的内核旁路机制允许应用与网 卡之间直接读写数据,使得服务器内的数据传输时延降低。 同时 RDMA 利用相关的硬件和网络技术,使服务器网卡之间可以直接读内存,实现了高吞吐量、超低时延和低 CPU 开销的效果。 当前分布式存储、 HPC 高性能计算、 AI 人工智能等场景均采用 RoCEv2 ( RDMA over Converged Ethernet version 2 )作为以太网
………………………………