AI开发平台MODELARTS-在容器镜像中安装MLNX_OFED:场景描述

时间:2024-04-30 17:31:40

场景描述

ModelArts GPU服务器上配置了Mellanox Technologies网卡,支持RDMA(Remote Direct Memory Access)。因此可以在容器镜像中安装MLNX_OFED,使得NCCL可以启用该网卡,提高跨节点通信效率。

NCCL启用该网卡后,跨节点通信采用的方法为NET/IB。未启用该网卡时,跨节点通信采用的方法为NET/Socket。NET/IB在时延与带宽方面都要优于NET/Socket。

表1 ModelArts GPU服务器Mellanox Technologies网卡和MLNX_OFED安装情况

服务器GPU型号

Mellanox Technologies网卡

服务器安装的MLNX_OFED版本

推荐容器镜像安装的MLNX_OFED版本

Vnt1

ConnectX-5

4.3-1.0.1.0/4.5-1.0.1.0

4.9-6.0.6.0-LTS

Ant8/Ant1

ConnectX-6 Dx

5.5-1.0.3.2

5.8-2.0.3.0-LTS

support.huaweicloud.com/docker-modelarts/docker-modelarts_0120.html