AI开发平台MODELARTS-常见错误原因和解决方法:问题二 网卡名称错误

时间:2025-05-19 09:57:49

问题二 网卡名称错误

当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。

比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。

图1 网卡名称错误
export GLOO_SOCKET_IFNAME=enp67s0f5   # 多机之间使用gloo通信时需要指定网口名称,
export TP_SOCKET_IFNAME=enp67s0f5     # 多机之间使用TP通信时需要指定网口名称
export HCCL_SOCKET_IFNAME=enp67s0f5   # 多机之间使用HCCL通信时需要指定网口名称

关于环境变量的解释可以参考:Distributed communication package - torch.distributed — PyTorch 2.3 documentation

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_590224.html
提示

您即将访问非华为云网站,请注意账号财产安全