AI开发平台MODELARTS-在容器镜像中安装MLNX_OFED:场景描述
场景描述
ModelArts GPU服务器上配置了Mellanox Technologies网卡,支持RDMA(Remote Direct Memory Access)。因此可以在容器镜像中安装MLNX_OFED,使得NCCL可以启用该网卡,提高跨节点通信效率。
NCCL启用该网卡后,跨节点通信采用的方法为NET/IB。未启用该网卡时,跨节点通信采用的方法为NET/Socket。NET/IB在时延与带宽方面都要优于NET/Socket。
服务器GPU型号 |
Mellanox Technologies网卡 |
服务器安装的MLNX_OFED版本 |
推荐容器镜像安装的MLNX_OFED版本 |
---|---|---|---|
Vnt1 |
ConnectX-5 |
4.3-1.0.1.0/4.5-1.0.1.0 |
4.9-6.0.6.0-LTS |
Ant8/Ant1 |
ConnectX-6 Dx |
5.5-1.0.3.2 |
5.8-2.0.3.0-LTS |