AI开发平台MODELARTS-不同机型的对应的软件配套版本:不同机型的对应的软件配套版本

时间:2024-01-24 17:32:53

不同机型的对应的软件配套版本

表1 裸金属服务器

类型

卡类型

RDMA

操作系统

适用范围、约束

依赖插件

NPU

ascend-snt9b

roce

  • 操作系统:EulerOS 2.10 64bit
  • 内核版本:4.19.90-vhulk2211.3.0.h1543.eulerosv2r10.aarch64
  • 架构类型:aarch64
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC
  • 集群转发模式:iptables|ipvs
  • huawei-npu
  • npu-driver
  • volcano

插件版本匹配关系请见表3

ascend-snt9b

roce

  • 操作系统:Huawei Cloud EulerOS 2.0 64bit
  • 内核版本:5.10.0-60.18.0.50.r865_35.hce2.aarch64
  • 架构类型:aarch64
  • 集群类型:CCE Turbo
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:ENI
  • 集群转发模式:iptables|ipvs

ascend-snt9

roce

  • 操作系统:EulerOS 2.8 64bit
  • 内核版本:4.19.36-vhulk1907.1.0.h619.eulerosv2r8.aarch64
  • 架构类型:aarch64
  • 集群类型:CCE Standard|Turbo
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC|ENI
  • 集群转发模式:iptables|ipvs

GPU

ascend-ant8-pcie80

roce

  • 操作系统:EulerOS 2.10 64bit
  • 内核版本:4.18.0-147.5.2.15.h1109.eulerosv2r10.x86_64
  • 架构类型:x86
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC

    分布式训练时仅支持容器隧道网络

  • 集群转发模式:iptables|ipvs
  • gpu-beta
  • gpu-driver
  • rdma-sriov-dev-plugin

插件版本匹配关系请见表3

nvidia-ant1

roce

  • 操作系统:EulerOS 2.10 64bit
  • 4.18.0-147.5.2.15.h1109.eulerosv2r10.x86_64
  • 架构类型:x86
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC

    分布式训练时仅支持容器隧道网络

  • 集群转发模式:iptables|ipvs

nvidia-v100

roce|IB

  • 操作系统:EulerOS 2.9 64bit(仅上海一p6|p6s规格使用)
  • 内核版本:147.5.1.6.h1099.eulerosv2r9.x86_64
  • 架构类型:x86
  • 集群类型:CCE Standard|
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC

    分布式训练时仅支持容器隧道网络

  • 集群转发模式:iptables|ipvs
  • 操作系统:EulerOS 2.9 64bit(推荐)
  • 内核版本:4.18.0-147.5.1.6.h841.eulerosv2r9.x86_64
  • 架构类型:x86
表2 弹性云服务器

类型

卡类型

操作系统

适用范围

依赖插件

NPU

ascend-snt3p-300i

  • 操作系统:EulerOS 2.9
  • 架构类型:x86
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC|ENI
  • 集群转发模式:iptables|ipvs
  • huawei-npu
  • npu-driver
  • volcano

插件版本匹配关系请见表3

ascend-snt3

  • 操作系统:EulerOS 2.5
  • 架构类型:x86
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC
  • 集群转发模式:iptables|ipvs
  • 操作系统:EulerOS 2.8
  • 架构类型:arm
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC

    集群转发模式:iptables|ipvs

GPU

nvidia-v100-pcie32

  • 操作系统:EulerOS 2.9
  • 架构类型:x86
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC
  • 集群转发模式:iptables|ipvs
  • gpu-beta
  • gpu-driver
  • rdma-sriov-dev-plugin

插件版本匹配关系请见表3

nvidia-a30

  • 操作系统:EulerOS 2.9
  • 架构类型:x86
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC
  • 集群转发模式:iptables|ipvs

ant1-pcie40

  • 操作系统:EulerOS 2.9
  • 架构类型:x86
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC
  • 集群转发模式:iptables|ipvs

nvidia-t4

  • 操作系统:EulerOS 2.9
  • 架构类型:x86
  • 集群类型:CCE Standard
  • 集群版本:v1.23|v1.25
  • 集群规模:50|200|1000|2000
  • 集群网络模式:容器隧道网络|VPC
  • 集群转发模式:iptables|ipvs
表3 插件版本与CCE集群版本适配关系

类别

插件名称

插件版本

适配CCE集群版本

适用范围、约束

插件功能描述

ccePlugin

gpu-beta

1.2.29

v1.(23|25).*

GPU

支持在容器中使用GPU显卡的设备管理插件。

1.2.15

v1.(23|25).*

huawei-npu

1.2.5

v1.(23|25).*

NPU

支持容器里使用huawei NPU设备的管理插件。

volcano

1.11.9

v1.(23|25).*

NPU

基于Kubernetes的批处理平台。

1.7.1

v1.(23|25).*

1.4.2

v1.(23|25).*

npuDriver

npu-driver

6.4.0.2.220-23.0.rc2.2

6.4.0.3.220-23.0.rc2.3

6.4.0.4.220-23.0.rc3(推荐)

7.0.0.5.242-23.0.rc3

c78-21.0.2

c81-22.0.0.3

c82-22.0.2.100

c85-23.0.rc1

无约束

NPU

用于升级、回滚npu驱动。

helm

rdma-sriov-dev-plugin

0.1.0

无约束

BMS、RDMA且非ascend-1980

用于支持容器里使用RDMA网卡。

memarts

3.23.6-r002

无约束

无约束

无约束

os-node-agent

6.2.0-20230925213538

无约束

无约束

OS插件,用于故障检测。

icAgent

icagent

default

CCE默认安装当前适配版本

无约束

CCE基础组件,用于日志和监控。

gpuDriver

gpu-driver

gpu-driver与系统内核版本有关,请见表4

用于升级、回滚gpu驱动,插件依赖gpu-beta版本。

表4 系统内核与gpu-driver配套关系

镜像版本

系统内核版本

适配CCE

gpu-driver版本

EulerOS 2.10

4.18.0-147.5.2.15.h1109.eulerosv2r10.x86_64

v1.(23|25).*

容器隧道网络|VPC|ENI

  • 515.65.01
  • 470.182.03
  • 470.57.02

4.18.0-147.5.2.5.h805.eulerosv2r10.x86_64

v1.(23|25).*

容器隧道网络|VPC|ENI

  • 515.65.01
  • 470.57.02
  • 460.32.03
  • 440.33.01

EulerOS 2.3

3.10.0-514.44.5.10.h193.x86_64

v1.(23|25).*

容器隧道网络|VPC

  • 515.65.01
  • 470.57.02
  • 440.33.01

3.10.0-514.44.5.10.h254.x86_64

v1.(23|25).*

容器隧道网络|VPC

  • 515.65.01
  • 470.57.02
  • 440.33.01

EulerOS 2.9

4.18.0-147.5.1.6.h841.eulerosv2r9.x86_64

v1.(23|25).*

容器隧道网络|VPC

  • 515.65.01
  • 470.182.03
  • 470.57.02
  • 440.95.01
support.huaweicloud.com/usermanual-modelarts-lite/toctopics/zh-cn_topic_0000001796768421.html