AI开发平台MODELARTS-在Lite资源池上使用ranktable路由规划完成Pytorch NPU分布式训练:约束与限制

时间:2024-06-07 16:50:34

约束与限制

  • 该功能只支持贵阳一区域,如果要在其他区域使用请联系技术支持。
  • ModelArts Lite资源池对应的CCE集群需要安装1.10.12及以上版本的华为云版Volcano插件。Volcano调度器的安装升级请参见Volcano调度器。仅华为云版Volcano插件支持开启路由加速特性。
  • 训练使用的Python版本是3.7或3.9,否则无法实现ranktable路由加速。
  • 训练作业的任务节点数要大于或等于3,否则会跳过ranktable路由加速。建议在大模型场景(512卡及以上)使用ranktable路由加速。
  • 脚本执行目录不能是共享目录,否则ranktable路由加速会失败。
  • 路由加速的原理是改变rank编号,所以代码中对rank的使用要统一,如果rank的使用不一致会导致训练异常。
support.huaweicloud.com/usermanual-modelarts-lite/usermanual-modelarts-lite-0339.html