华为云用户手册

  • 镜像三:pytorch1.4-cuda10.1-cudnn7-ubuntu18.04 表3 pytorch1.4-cuda10.1-cudnn7-ubuntu18.04镜像介绍 AI引擎框架 是否使用 GPU (CUDA 版本) URL 包含的依赖项 Pytorch 1.4 是 (cuda 10.1) swr.{region_id}.myhuaweicloud.com/atelier/pytorch_1_4:pytorch_1.4-cuda_10.1-py37-ubuntu_18.04-x86_64-20220926104017-041ba2e 例如: 华北-北京四 swr.cn-north-4.myhuaweicloud.com/atelier/pytorch_1_4:pytorch_1.4-cuda_10.1-py37-ubuntu_18.04-x86_64-20220926104017-041ba2e 华东上海一 swr.cn-east-3.myhuaweicloud.com/atelier/pytorch_1_4:pytorch_1.4-cuda_10.1-py37-ubuntu_18.04-x86_64-20220926104017-041ba2e 华南-广州 swr.cn-south-1.myhuaweicloud.com/atelier/pytorch_1_4:pytorch_1.4-cuda_10.1-py37-ubuntu_18.04-x86_64-20220926104017-041ba2e PyPI 程序包 Ubuntu 软件包 torch 1.4.0 torchvision 0.5.0 ipykernel 6.7.0 ipython 7.34.0 jupyter-client 7.3.4 ma-cau 1.1.6 ma-cau-adapter 1.1.3 ma-cli 1.2.2 matplotlib 3.5.1 modelarts 1.4.11 moxing-framework 2.1.0.5d9c87c8 numpy 1.19.5 opencv-python 4.1.2.30 pandas 1.1.5 pillow 9.2.0 pip 22.1.2 psutil 5.8.0 PyYAML 5.1 scipy 1.5.2 scikit-learn 0.22.1 tornado 6.2 tensorboard 2.1.1 automake build-essential ca-certificates cmake cpp curl ffmpeg g++ gcc gfortran git git-lfs grep libcudnn7 libcudnn7-dev libjpeg-dev:amd64 libjpeg8-dev:amd64 openssh-client openssh-server nginx pandoc python3 rpm screen tar tmux unzip vim wget zip
  • 镜像四:mindspore1.2.0-openmpi2.1.1-ubuntu18.04 表4 mindspore1.2.0-openmpi2.1.1-ubuntu18.04镜像介绍 AI引擎框架 是否使用 GPU (CUDA 版本) URL 包含的依赖项 Mindspore 1.2.0 无 swr.{region_id}.myhuaweicloud.com/atelier/mindspore_1_2_0:mindspore_1.2.0-py_3.7-ubuntu_18.04-x86_64-20220926104106-041ba2e 例如: 华北-北京四 swr.cn-north-4.myhuaweicloud.com/atelier/mindspore_1_2_0:mindspore_1.2.0-py_3.7-ubuntu_18.04-x86_64-20220926104106-041ba2e 华东-上海一 swr.cn-east-3.myhuaweicloud.com/atelier/mindspore_1_2_0:mindspore_1.2.0-py_3.7-ubuntu_18.04-x86_64-20220926104106-041ba2e 华南-广州 swr.cn-south-1.myhuaweicloud.com/atelier/mindspore_1_2_0:mindspore_1.2.0-py_3.7-ubuntu_18.04-x86_64-20220926104106-041ba2e PyPI 程序包 Ubuntu 软件包 mindspore 1.2.0 ipykernel 6.7.0 ipython 7.34.0 jupyter-client 7.3.4 ma-cau 1.1.3 ma-cau-adapter 1.1.3 ma-cli 1.1.5 matplotlib 3.5.1 modelarts 1.4.11 moxing-framework 2.1.0.5d9c87c8 numpy 1.19.5 pandas 6.2.0 pillow 9.1.1 pip 22.1.2 psutil 5.8.0 PyYAML 5.1 scipy 1.5.2 scikit-learn 0.22.1 tornado 6.2 mindinsight 1.2.0 automake build-essential ca-certificates cmake cpp curl ffmpeg g++ gcc gfortran git git-lfs grep libjpeg-dev:amd64 libjpeg8-dev:amd64 openssh-client openssh-server nginx python3 rpm screen tar tmux unzip vim wget zip
  • 镜像二:mindspore1.7.0-py3.7-ubuntu18.04 表2 mindspore1.7.0-py3.7-ubuntu18.04镜像介绍 AI引擎框架 是否使用 GPU (CUDA 版本) URL 包含的依赖项 Mindspore 1.7.0 无 swr.{region_id}.myhuaweicloud.com/atelier/mindspore_1_7_0:mindspore_1.7.0-cpu-py_3.7-ubuntu_18.04-x86_64-20220926104017-041ba2e 例如: 华北-北京四 swr.cn-north-4.myhuaweicloud.com/atelier/mindspore_1_7_0:mindspore_1.7.0-cpu-py_3.7-ubuntu_18.04-x86_64-20220926104017-041ba2e 华东-上海一 swr.cn-east-3.myhuaweicloud.com/atelier/mindspore_1_7_0:mindspore_1.7.0-cpu-py_3.7-ubuntu_18.04-x86_64-20220926104017-041ba2e 华南-广州 swr.cn-south-1.myhuaweicloud.com/atelier/mindspore_1_7_0:mindspore_1.7.0-cpu-py_3.7-ubuntu_18.04-x86_64-20220926104017-041ba2e PyPI 程序包 Ubuntu 软件包 mindspore 1.7.0 ipykernel 6.7.0 ipython 7.34.0 jupyter-client 7.3.4 ma-cau 1.1.6 ma-cau-adapter 1.1.3 ma-cli 1.2.2 matplotlib 3.5.1 modelarts 1.4.11 moxing-framework 2.1.0.5d9c87c8 numpy 1.17.0 pandas 1.1.5 pillow 9.1.1 pip 22.1.2 psutil 5.8.0 PyYAML 5.1 scipy 1.5.2 scikit-learn 0.22.1 tornado 6.1 mindinsight 1.7.0 mindvision 0.1.0 automake build-essential ca-certificates cmake cpp curl ffmpeg g++ gcc gfortran git git-lfs grep libjpeg-dev:amd64 libjpeg8-dev:amd64 openssh-client openssh-server nginx python3 rpm screen tar tmux unzip vim wget zip
  • 镜像三:mindspore1.2.0-cuda10.1-cudnn7-ubuntu18.04 表3 mindspore1.2.0-cuda10.1-cudnn7-ubuntu18.04镜像介绍 AI引擎框架 是否使用 GPU (CUDA 版本) URL 包含的依赖项 Mindspore-gpu 1.2.0 是 (cuda 10.1) swr.{region_id}.myhuaweicloud.com/atelier/mindspore_1_2_0:mindspore_1.2.0-py_3.7-cuda_10.1-ubuntu_18.04-x86_64-20220926104106-041ba2e 例如: 华北-北京四 swr.cn-north-4.myhuaweicloud.com/atelier/mindspore_1_2_0:mindspore_1.2.0-py_3.7-cuda_10.1-ubuntu_18.04-x86_64-20220926104106-041ba2e 华东-上海一 swr.cn-east-3.myhuaweicloud.com/atelier/mindspore_1_2_0:mindspore_1.2.0-py_3.7-cuda_10.1-ubuntu_18.04-x86_64-20220926104106-041ba2e 华南-广州 swr.cn-south-1.myhuaweicloud.com/atelier/mindspore_1_2_0:mindspore_1.2.0-py_3.7-cuda_10.1-ubuntu_18.04-x86_64-20220926104106-041ba2e PyPI 程序包 Ubuntu 软件包 mindspore-gpu 1.2.0 ipykernel 6.7.0 ipython 7.34.0 jupyter-client 7.3.4 ma-cau 1.1.3 ma-cau-adapter 1.1.3 ma-cli 1.1.5 matplotlib 3.5.1 modelarts 1.4.11 moxing-framework 2.1.0.5d9c87c8 numpy 1.19.5 pandas 1.1.5 pillow 6.2.0 pip 22.1.2 psutil 5.8.0 PyYAML 5.1 scipy 1.5.2 scikit-learn 0.22.1 tornado 6.2 mindinsight 1.2.0 automake build-essential ca-certificates cmake cpp curl ffmpeg g++ gcc gfortran git git-lfs grep libcudnn7 libcudnn7-dev libjpeg-dev:amd64 libjpeg8-dev:amd64 openssh-client openssh-server nginx python3 rpm screen tar tmux unzip vim wget zip
  • 镜像一:mindspore1.7.0-cuda10.1-py3.7-ubuntu18.04 表1 mindspore1.7.0-cuda10.1-py3.7-ubuntu18.04镜像介绍 AI引擎框架 是否使用 GPU (CUDA 版本) URL 包含的依赖项 Mindspore-gpu 1.7.0 是 (cuda 10.1) swr.{region_id}.myhuaweicloud.com/atelier/mindspore_1_7_0:mindspore_1.7.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20220926104017-041ba2e 例如: 华北-北京四 swr.cn-north-4.myhuaweicloud.com/atelier/mindspore_1_7_0:mindspore_1.7.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20220926104017-041ba2e 华东-上海一 swr.cn-east-3.myhuaweicloud.com/atelier/mindspore_1_7_0:mindspore_1.7.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20220926104017-041ba2e 华南-广州 swr.cn-south-1.myhuaweicloud.com/atelier/mindspore_1_7_0:mindspore_1.7.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20220926104017-041ba2e PyPI 程序包 Ubuntu 软件包 mindspore-gpu 1.7.0 ipykernel 6.7.0 ipython 7.34.0 jupyter-client 7.3.4 ma-cau 1.1.6 ma-cau-adapter 1.1.3 ma-cli 1.2.2 matplotlib 3.5.1 modelarts 1.4.11 moxing-framework 2.1.0.5d9c87c8 numpy 1.17.0 pandas 1.1.5 pillow 9.1.1 pip 22.1.2 psutil 5.8.0 PyYAML 5.1 scipy 1.5.2 scikit-learn 0.22.1 tornado 6.1 mindinsight 1.7.0 mindvision 0.1.0 automake build-essential ca-certificates cmake cpp curl ffmpeg g++ gcc gfortran git git-lfs grep libcudnn7 libcudnn7-dev libjpeg-dev:amd64 libjpeg8-dev:amd64 openssh-client openssh-server nginx python3 rpm screen tar tmux unzip vim wget zip
  • 配置VM环境 在docker机器中,使用如下命令下载安装脚本。 wget https://notebook-custom-image-build.obs.cn-north-4.myhuaweicloud.com/script/install_on_ubuntu1804.sh 当前仅支持ubuntu系统的脚本。 在docker机器中并执行如下命令,即可完成环境配置。 bash install_on_ubuntu1804.sh source /etc/profile 安装脚本依次执行了如下任务: 安装docker。 如果挂载了GPU,则会安装nvidia-docker2,用以将GPU挂载到docker容器中。 安装ModelArts工具,包括安装modelarts-sdk和安装ma-cli。
  • 镜像二:tensorflow1.13-cuda10.0-cudnn7-ubuntu18.04 表2 tensorflow1.13-cuda10.0-cudnn7-ubuntu18.04镜像介绍 AI引擎框架 是否使用 GPU (CUDA 版本) URL 包含的依赖项 Tensorflow 1.13-gpu 是 (cuda 10.0) swr.{region_id}.myhuaweicloud.com/atelier/tensorflow_1_13:tensorflow_1.13-cuda_10.0-py_3.7-ubuntu_18.04-x86_64-20220926104358-041ba2e 例如: 华北-北京四 swr.cn-north-4.myhuaweicloud.com/atelier/tensorflow_1_13:tensorflow_1.13-cuda_10.0-py_3.7-ubuntu_18.04-x86_64-20220926104358-041ba2e 华东-上海一 swr.cn-east-3.myhuaweicloud.com/atelier/tensorflow_1_13:tensorflow_1.13-cuda_10.0-py_3.7-ubuntu_18.04-x86_64-20220926104358-041ba2e 华南-广州 swr.cn-south-1.myhuaweicloud.com/atelier/tensorflow_1_13:tensorflow_1.13-cuda_10.0-py_3.7-ubuntu_18.04-x86_64-20220926104358-041ba2e PyPI 程序包 Ubuntu 软件包 tensorflow-gpu 1.13.1 ipykernel 6.7.0 ipython 7.34.0 jupyter-client 7.3.4 ma-cau 1.1.6 ma-cau-adapter 1.1.3 ma-cli 1.2.2 matplotlib 3.5.1 modelarts 1.4.11 moxing-framework 2.0.1.rc0.ffd1c0c8 numpy 1.17.0 opencv-python 4.1.2.30 pandas 1.1.5 pillow 6.2.0 pip 22.1.2 psutil 5.8.0 PyYAML 5.1 scipy 1.2.2 scikit-learn 0.22.1 tornado 6.2 automake build-essential ca-certificates cmake cpp curl ffmpeg g++ gcc gfortran git git-lfs grep libcudnn7 libcudnn7-dev libjpeg-dev:amd64 libjpeg8-dev:amd64 openssh-client openssh-server nginx python3 rpm screen tar tmux unzip vim wget zip
  • 镜像一:tensorflow2.1-cuda10.1-cudnn7-ubuntu18.04 表1 tensorflow2.1-cuda10.1-cudnn7-ubuntu18.04镜像介绍 AI引擎框架 是否使用 GPU (CUDA 版本) URL 包含的依赖项 Tensorflow 2.1 是 (cuda 10.1) swr.{region_id}.myhuaweicloud.com/atelier/tensorflow_2_1:tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20220926144607-041ba2e 例如: 华北-北京四 swr.cn-north-4.myhuaweicloud.com/atelier/tensorflow_2_1:tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20220926144607-041ba2e 华东-上海一 swr.cn-east-3.myhuaweicloud.com/atelier/tensorflow_2_1:tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20220926144607-041ba2e 华南-广州 swr.cn-south-1.myhuaweicloud.com/atelier/tensorflow_2_1:tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20220926144607-041ba2e PyPI 程序包 Ubuntu 软件包 tensorflow 2.1.0 ipykernel 6.7.0 ipython 7.34.0 jupyter-client 7.3.4 ma-cau 1.1.6 ma-cau-adapter 1.1.3 ma-cli 1.2.2 matplotlib 3.5.1 modelarts 1.4.11 moxing-framework 2.1.0.5d9c87c8 numpy 1.19.5 opencv-python 4.1.2.30 pandas 1.1.5 pillow 9.2.0 pip 22.1.2 psutil 5.8.0 PyYAML 5.1 scipy 1.5.2 scikit-learn 0.22.1 tornado 6.2 tensorboard 2.1.1 automake build-essential ca-certificates cmake cpp curl ffmpeg g++ gcc gfortran git git-lfs grep libcudnn7 libcudnn7-dev libjpeg-dev:amd64 libjpeg8-dev:amd64 openssh-client openssh-server nginx python3 rpm screen tar tmux unzip vim wget zip
  • Notebook制作 自定义镜像 方法 制作自定义镜像有以下方式: 方式一:使用Notebook的预置镜像创建开发环境实例,在环境中进行依赖安装与配置,配置完成后,可以通过开发环境提供的镜像保存功能,将运行实例的内容以容器镜像的方式保存下来,作为自定义镜像使用。详细操作请参考将Notebook实例保存为自定义镜像。 方式二:基于ModelArts提供的基础镜像以及镜像构建模板来编写Dockerfile,在Notebook中构建出完全适合自己的镜像。然后将镜像进行注册,用以创建新的开发环境,满足自己的业务需求。详细操作请参考在Notebook中构建自定义镜像并使用。 方式三:基于ModelArts提供的基础镜像或第三方镜像,在E CS 服务器上自行编写Dockerfile构建镜像,对ModelArts基础镜像或第三方镜像进行改造,构建出符合ModelArts要求的新的自定义Docker镜像,并将镜像推送到SWR,作为自定义镜像使用。详细操作请参考在ECS上构建自定义镜像并在Notebook中使用。 父主题: Notebook中使用自定义镜像
  • Step4 注册新镜像 调试完成后,将新镜像注册到ModelArts镜像管理服务中,进而能够在ModelArts中使用该镜像。 将镜像推到SWR 推送前需要登录SWR,请参考登录SWR。登录后使用docker push命令进行推送,如下: docker push swr.cn-north-4.myhuaweicloud.com/sdk-test/pytorch_1_8:v2 完成后即可在SWR上看到该镜像。 图1 将镜像推到SWR 注册镜像 有两种方式来注册镜像。 方式一:使用命令ma-cli image register --swr-path=[OPTIONS] SWR-PATH命令来注册镜像。注册命令会返回注册好的镜像信息,包括镜像id,name等,如下图所示。该命令的更多信息可参考注册镜像。 ma-cli image register --swr-path=swr.cn-north-4.myhuaweicloud.com/sdk-test/pytorch_1_8:v2 图2 注册镜像 方式二:在ModelArts Console上注册镜像 登录ModelArts控制台,在左侧导航栏选择“镜像管理”,进入镜像管理页面。单击“注册镜像”,镜像源即为1.将镜像推到SWR中推送到SWR中的镜像。请将完整的SWR地址拷贝到这里即可,或单击可直接从SWR选择自有镜像进行注册,如图4所示。 图3 注册镜像 图4 选择自有镜像 父主题: 在ECS上构建自定义镜像并在Notebook中使用
  • 创建开发环境 镜像注册成功后,即可在ModelArts控制台的Notebook页面,创建开发环境时选择该自定义镜像。 图1 创建开发环境 打开开发环境,即可看到Dockerfile中创建的conda环境pytorch_1_8。 图2 打开开发环境 单击图中的pytorch_1_8,即可创建一个ipynb文件,导入torch,可以看到安装的pytorch 1.8已经能够使用。 图3 创建一个ipynb文件 再打开一个terminal,查看ffmpeg和gcc的版本,是Dockerfile中安装的版本。 图4 查看ffmpeg和gcc的版本
  • Step2 创建数据集并上传至OBS 进入网站http://www.cs.toronto.edu/~kriz/cifar.html,下载“CIFAR-10 binary version (suitable for C programs)”,解压后将数据上传至OBS桶的“obs://test-modelarts/mindspore-gpu/cifar-10-batches-bin/”文件夹下。OBS桶中数据集如下所示: 图1 数据集
  • X86架构(CPU/GPU)的推理基础镜像 表1 TensorFlow AI引擎版本 支持的运行环境 URI 2.1.0 CPU GPU(cuda10.1) swr.{region_id}.myhuaweicloud.com/atelier/tensorflow_2_1:tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20221121111529-d65d817 1.15.5 CPU GPU(cuda11.4) swr.{region_id}.myhuaweicloud.com/aip/tensorflow_1_15:tensorflow_1.15.5-cuda_11.4-py_3.8-ubuntu_20.04-x86_64-20220524162601-50d6a18 2.6.0 CPU GPU(cuda11.2) swr.{region_id}.myhuaweicloud.com/aip/tensorflow_2_6:tensorflow_2.6.0-cuda_11.2-py_3.7-ubuntu_18.04-x86_64-20220524162601-50d6a18 表2 Pytorch AI引擎版本 支持的运行环境 URI 1.8.0 CPU GPU(cuda10.2) swr.{region_id}.myhuaweicloud.com/atelier/pytorch_1_8:pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64-20221118143845-d65d817 1.8.2 CPU GPU(cuda11.1) swr.{region_id}.myhuaweicloud.com/aip/pytorch_1_8:pytorch_1.8.2-cuda_11.1-py_3.7-ubuntu_18.04-x86_64-20220524162601-50d6a18 表3 MindSpore AI引擎版本 支持的运行环境 URI 1.7.0 CPU swr.{region_id}.myhuaweicloud.com/atelier/mindspore_1_7_0:mindspore_1.7.0-cpu-py_3.7-ubuntu_18.04-x86_64-20220702120711-8590b76 1.7.0 GPU(cuda10.1) swr.{region_id}.myhuaweicloud.com/atelier/mindspore_1_7_0:mindspore_1.7.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20220702120711-8590b76 1.7.0 GPU(cuda11.1) swr.{region_id}.myhuaweicloud.com/atelier/mindspore_1_7_0:mindspore_1.7.0-cuda_11.1-py_3.7-ubuntu_18.04-x86_64-20220702120711-8590b76
  • ARM + Ascend 架构的推理基础镜像 表4 TensorFlow AI引擎版本 支持的运行环境 URI 1.15.0 Snt9 swr.{region_id}.myhuaweicloud.com/atelier/tensorflow_1_15_ascend:tensorflow_1.15-cann_5.1.0-py_3.7-euler_2.8.3-aarch64-d910-20220715093657-9446c6a 表5 Pytorch AI引擎版本 支持的运行环境 URI 1.8.1 Snt9 swr.{region_id}.myhuaweicloud.com/atelier/pytorch_1_8_ascend:pytorch_1.8.1-cann_5.1.0-py_3.7-euler_2.8.3-aarch64-d910-20220715093657-9446c6a 表6 MindSpore AI引擎版本 支持的运行环境 URI 1.7.0 Snt9 swr.{region_id}.myhuaweicloud.com/atelier/mindspore_1_7_0:mindspore_1.7.0-cann_5.1.0-py_3.7-euler_2.8.3-aarch64-d910-20220715093657-9446c6a
  • 指标清单 XGPU视图使用的指标清单如下: 表2 XGPU指标说明 指标名称 类型 说明 xgpu_memory_total Gauge XGPU显存总量 xgpu_memory_used Gauge XGPU显存使用量 xgpu_core_percentage_total Gauge XGPU算力总量 xgpu_core_percentage_used Gauge XGPU算力使用率 gpu_schedule_policy Gauge GPU模式分成0、1、2三种,具体说明如下: 0为显存隔离算力共享模式 1为显存算力隔离模式 2为默认模式表示当前卡还没被用于XGPU设备分配 xgpu_device_health Gauge XGPU设备的健康情况。当前虚拟化域侧并没有提供特定的接口来检查XGPU的健康情况,所以根据XGPU设备所在物理GPU设备的健康情况反推。0表示XGPU设备为健康状态,1表示为非健康状态。
  • 指标说明 图1 XGPU资源指标 表1 XGPU视图图表说明 图表名称 单位 说明 集群-XGPU设备显存使用率 百分比 集群的GPU虚拟化设备显存使用率 计算公式:集群中所有XGPU设备的显存使用量之和 / 集群显存总量 集群-XGPU设备算力使用率 百分比 集群的GPU虚拟化设备算力使用率 计算公式:集群中所有XGPU设备的算力使用量之和 / 集群算力总量 节点-XGPU设备显存使用率 百分比 每个节点的GPU虚拟化设备显存使用率 计算公式:节点上所有XGPU设备的显存使用量之和 / 节点显存总量 节点-XGPU设备算力使用率 百分比 每个节点的GPU虚拟化设备算力使用率 计算公式:节点上所有XGPU设备的算力使用量之和 / 节点算力总量 节点-XGPU设备数量 个 每个节点的GPU虚拟化设备数量 节点-XGPU设备显存分配量 字节 每个节点上的GPU虚拟化设备显存总量 GPU卡-XGPU设备显存使用率 百分比 每张GPU卡上的GPU虚拟化设备显存使用率 计算公式:显卡上所有XGPU设备的显存使用量之和 / 显卡显存总量 GPU卡-XGPU设备显存分配量 字节 每张GPU卡上的GPU虚拟化设备的显存总量 GPU卡-XGPU设备显存分配率 百分比 每张GPU卡上的GPU虚拟化设备的显存总量占这张GPU卡显存总量的比例 计算公式:显卡上所有XGPU设备能使用的显存上限之和 / 显卡显存总量 GPU卡-XGPU设备算力使用率 百分比 每张GPU卡的GPU虚拟化设备的算力使用率 计算公式:显卡上所有XGPU设备当前所使用的算力之和 / 显卡算力总量 GPU卡-XGPU设备数量 个 每张GPU卡的GPU虚拟涉笔的数量 GPU卡-调度策略 数字 0为显存隔离算力共享模式 1为显存算力隔离模式 2为默认模式表示当前卡还没被用于XGPU设备分配 GPU卡-不健康的XGPU设备数量 个 每张GPU卡的不健康的GPU虚拟化设备的数量 容器显存分配量 字节 容器所能使用的显存上限 容器算力使用率 百分比 每个容器的算力使用率 计算公式:XGPU设备上容器算力使用量 / XGPU设备算力总量 容器显存使用量 字节 每个容器的显存使用量 容器显存使用率 百分比 每个容器的显存使用率 计算公式:XGPU设备上容器显存使用量 / XGPU设备显存总量
  • 解决方案 问题场景:节点上存在不可访问的挂载点 节点存在不可访问的挂载点,通常是由于该节点或节点上的Pod使用了网络存储nfs(常见的nfs类型有obsfs、sfs等),且节点与远端nfs服务器断连,导致挂载点失效,所有访问该挂载点的进程均会出现D状态卡死。 登录节点。 节点上依次执行如下命令: - df -h - for dir in `df -h | grep -v "Mounted on" | awk "{print \\$NF}"`;do cd $dir; done && echo "ok" 若返回ok则无问题。 否则,请另起一个终端执行如下命令,查询先前命令是否存在D状态: - ps aux | grep "D " 若发现进程存在D状态,则确认为该问题,目前可以通过重启节点解决。请选择一个合适的时间重启节点后,重试升级。 重启节点会使原先运行在节点上的工作负载重新调度,请在重启节点前确认是否会对业务造成影响。
  • 从PodSecurityPolicy迁移到Pod Security Admission 如您在1.25之前版本的集群中使用了PodSecurityPolicy,且需要在1.25及以后版本集群中继续使用Pod Security Admission来替代PodSecurityPolicy的用户,请参见从PodSecurityPolicy迁移到内置的Pod Security Admission。 由于Pod Security Admission仅支持三种隔离模式,因此灵活性相比于PodSecurityPolicy较差,部分场景下需要用户自行定义验证准入Webhook来实施更精准的策略。 由于PodSecurityPolicy具有变更能力,而Pod Security Admission并不具备该能力,因此之前依赖该能力的用户需要自行定义变更准入Webhook或修改Pod中的securityContext字段。 PodSecurityPolicy允许为不同的服务账号(Service Account)绑定不同策略(Kubernetes社区不建议使用该能力)。如果您有使用该能力的诉求,在迁移至Pod Security Admission后,需要自行定义第三方Webhook。 请勿将Pod Security Admission能力应用于kube-system、kube-public和kube-node-lease等一些CCE组件部署的Namespace中,否则会导致CCE组件、插件功能异常。
  • Pod Security Admission标签 Kubernetes为Pod Security Admission定义了三种标签,如表2,您可以在某个命名空间中设置这些标签来定义需要使用的Pod安全性标准级别,但请勿在kube-system等系统命名空间修改Pod安全性标准级别,否则可能导致系统命名空间下Pod故障。 表2 Pod Security Admission标签 隔离模式(mode) 生效对象 描述 enforce Pod 违反指定策略会导致Pod无法创建。 audit 工作负载(例如Deployment、Job等) 违反指定策略会在审计日志(audit log)中添加新的审计事件,Pod可以被创建。 warn 工作负载(例如Deployment、Job等) 违反指定策略会返回用户可见的告警信息,Pod可以被创建。 Pod通常是通过创建Deployment或Job这类工作负载对象来间接创建的。在使用Pod Security Admission时,audit或warn模式的隔离都将在工作负载级别生效,而enforce模式并不会应用到工作负载,仅在Pod上生效。
  • 指标说明 节点池视图暴露的指标如下: 图1 节点池资源指标 表1 视图说明 图表名称 单位 说明 节点池CPU分配率 百分比 节点池里的所有节点的Pod CPU Request总量占所有节点CPU总量的比例 节点池CPU使用率 百分比 节点池里的所有节点CPU使用量占总量的比例 节点池内存分配率 百分比 节点池里的所有节点的Pod 内存Request总量占所有节点内存总量的比例 节点池内存使用率 百分比 节点池里的所有节点内存使用量占总量的比例 节点数量趋势 个 节点池里的节点数量
  • 指标清单 节点池视图使用的指标清单如下: 表2 指标说明 指标名称 单位 说明 kube_node_labels Gauge 节点标签,其中label_cce_cloud_com_cce_nodepool为CCE节点池名称,若无该标签值则为Default Pool。 node_cpu_seconds_total Counter 节点不同模式下花费的CPU秒 node_memory_MemAvailable_bytes Gauge 节点的可用内存量 node_memory_MemTotal_bytes Gauge 节点的内存总量 kube_pod_container_resource_requests Gauge Pod 容器的资源申请量
  • 指标清单 Pod视图使用的指标清单如下: 表4 Pod视图指标清单 指标 指标类型 说明 kube_pod_container_status_running gauge 容器当前是否在运行中的状态 kube_pod_container_info gauge Pod中的容器信息 kube_pod_status_phase gauge Pod当前的阶段 kube_pod_container_status_restarts_total counter 容器重启次数 container_cpu_usage_seconds_total counter 容器CPU累计使用时间 kube_pod_container_resource_requests gauge 容器请求的请求资源数 container_spec_cpu_quota gauge 容器的CPU配额 container_memory_working_set_bytes gauge 容器内存使用量 container_spec_memory_limit_bytes gauge 容器内存限制量 container_cpu_cfs_throttled_periods_total counter 容器限制周期间隔数 container_cpu_cfs_periods_total counter 容器经过强制限制的周期间隔数 container_network_receive_bytes_total counter 容器接收字节的累计计数 container_network_transmit_bytes_total counter 容器传输字节的累计计数 container_network_receive_packets_total counter 容器接收数据包的累计计数 container_network_transmit_packets_total counter 容器传输数据包的累计计数 container_network_receive_packets_dropped_total counter 容器接收丢失的数据包的累计计数 container_network_transmit_packets_dropped_total counter 容器传输丢失的数据包的累计计数 container_fs_reads_total counter 容器已完成磁盘读取的累计计数 container_fs_writes_total counter 容器已完成磁盘写入的累计计数 container_fs_reads_bytes_total counter 容器读取的累计字节数 container_fs_writes_bytes_total counter 容器写入的累计在节数 container_fs_usage_bytes gauge 文件系统上容器已经使用的字节数 container_fs_limit_bytes gauge 文件系统上容器限制的字节数
  • 指标说明 Pod视图暴露的指标包括Pod资源指标、Pod网络指标和Pod磁盘指标,具体说明如下: 图1 Pod资源指标 表1 Pod资源指标说明 指标名称 单位 说明 容器数 个 Pod中的容器总数 运行中容器数 个 Pod中正在运行的容器个数 Pod状态 个 处在不同状态下的Pod个数 容器重启次数 次 容器被重启的次数 CPU使用量 Cores Pod CPU使用量 CPU 有效率&使用率 百分比 有效率:使用量/请求量;使用率:使用量/总量 内存使用量 字节 内存使用量 内存 有效率&使用率 百分比 有效率:使用量/请求量;使用率:使用量/总量 CPU Throttling 百分比 CPU节流周期限制率 图2 Pod网络指标 表2 Pod网络指标说明 指标名称 单位 说明 网络接收速 字节/秒 容器每秒接收的字节数 网络发送速率 字节/秒 容器每秒发送的字节数 接收数据包速率 个/秒 容器每秒接收数据包数 发送数据包速 个/秒 容器每秒发送数据包数 丢包速率(接收) 字节/秒 容器每秒接收的数据丢包数 丢包速率(发送) 字节/秒 容器每秒发送的数据丢包数 图3 Pod磁盘指标 表3 Pod磁盘指标说明 指标名称 单位 说明 Pod容器磁盘读写IO速率(读+写) 次数/秒 Pod磁盘每秒读写IO次数 Pod磁盘读写吞吐量(读+写) 字节/秒 Pod磁盘每秒读写字节数 容器磁盘读写IO速率(读+写) 次数/秒 容器磁盘每秒读写IO次数 容器磁盘读写吞吐量(读+写) 字节/秒 容器磁盘每秒读写字节数 文件系统使用率 百分比 文件系统的使用率 文件系统使用量 字节 文件系统已经使用的字节数
  • 操作步骤 集群升级步骤包括:升级前检查、备份、配置与升级、升级后处理。 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏选择“集群升级”。 根据当前集群版本,系统将为您生成最佳升级路径,您可以在该路径中选择需要升级的版本,确认集群版本差异、节点OS版本、插件版本等信息,然后单击“前往升级”。 进行升级前检查,单击“开始检查”并确认。如集群中存在异常项或风险项,请根据页面提示的检查结果进行处理,处理完成后需重新进行升级前检查。 异常项:请查看页面提示的解决方案并处理异常后,重新进行升级前检查。 风险项:表示该结果可能会影响集群升级结果,请您查看风险说明并确认您是否处于风险影响范围。如确认无风险,可单击该风险项后的“确认”按钮,手动跳过该风险项,然后重新进行升级前检查。 待升级前检查通过后,单击“下一步”。 进行集群备份。集群升级过程中将自动进行etcd数据备份,您可手动进行Master节点备份,以加快Master节点升级失败时的回滚速度,如无需手动备份可直接单击“下一步”。 备份方式 备份对象 备份方式 备份时间 回滚时间 说明 etcd数据备份 etcd数据 升级流程中自动备份 1-5min 2h 必选备份,升级过程中自动进行,用户无需关注 CBR整机备份 Master节点磁盘,包括组件镜像、配置、日志以及etcd数据 通过页面一键备份(手动触发) 20min-2h(受当前局点云备份任务排队情况影响) 20min 该功能逐步由EVS快照备份替代 EVS快照备份 Master节点磁盘,包括组件镜像、配置、日志以及etcd数据 通过页面一键备份(手动触发) 1-5min 20min 该功能上线中 对于已上线的区域,EVS快照备份将替代CBR整机备份 配置升级参数。 插件升级配置:此处列出了您的集群中已安装的插件。在集群升级过程中系统会自动升级已选择的插件,以兼容升级后的集群版本,您可以单击插件右侧的“配置”重新定义插件参数。 插件右侧如有标记,表示当前插件不能同时兼容集群升级起始和目标版本,在集群版本升级完成后将为您升级该插件 ,该插件在集群升级过程中可能无法正常使用。 节点升级配置:您可以设置每批升级的最大节点数量。 升级时节点池之间会依次进行升级。同一个节点池内的节点分批升级,第一批升级1个节点,第二批升级2个节点,后续每批升级节点数以2的幂数增加,直到达到您设置的每批最大升级节点数。 节点优先级配置:您可以自行定义节点升级的优先级顺序,若不选择,默认情况下系统会根据您节点的情况优选后分批升级。优先级设置时需要先选择节点池,再设置节点池中节点的升级批次,并按照您设置的节点池以及节点顺序进行升级。 添加优先级:添加节点池的优先级,自行定义节点池升级的优先级顺序。 添加节点优先级:添加节点池的优先级后,可以设置该节点池内节点升级的优先级顺序,升级时系统将按照您设置的顺序依次对节点进行升级,如不设置该优先级,系统将按照默认的策略执行。 配置完成后,单击“立即升级”按钮,并确认升级操作后集群开始升级。您可以在页面下方查看版本升级的进程。 若在集群升级过程中出现升级失败的提示,请参照提示信息修复问题后重试。 升级完成后,单击“下一步”,请根据页面提示的检查项进行升级后验证。确认所有检查项均正常后,可单击“完成”按钮,并确认完成升级后检查,详情请参见升级后验证。 您可以在集群列表页面查看集群当前的Kubernetes版本,确认升级成功。
  • 注意事项 集群升级过程中会自动升级插件到目标集群兼容的版本,升级过程中请不要卸载或者重装插件。 升级之前请确认所有的插件都处于运行状态,如果插件升级失败可以在插件问题修复后,重试升级。 升级时会检查插件运行状态,部分插件(如CoreDNS)需要至少两个节点才能维持正常状态,那此时升级就至少需要两个节点。 若在集群升级过程中出现升级失败的提示,请参照提示信息修复问题后点击重试,若重试后仍未成功升级,请提交工单协助您进行修复。 更多注意事项请参见升级前须知。
  • 指标清单 APIServer视图使用的指标清单如下: 表4 APIServer视图指标清单 指标 指标类型 说明 up gauge 组件状态 apiserver_request_total counter apiserver请求数按找返回码等维度的计数 go_goroutines gauge 当前时间goroutines个数 apiserver_current_inflight_requests gauge 最后一个窗口中,正在处理的请求数量 apiserver_request_duration_seconds_bucket histogram APIServer请求延时秒数 workqueue_depth gauge 当前工作队列深度 workqueue_adds_total counter 工作队列增加总数 workqueue_queue_duration_seconds_bucket histogram 请求在工作队列中停留时间 process_resident_memory_bytes gauge 常驻内存大小 process_cpu_seconds_total counter 进程CPU总花费时间
  • 指标说明 APIServer视图暴露的指标包括请求指标、工作队列指标和资源指标,具体说明如下: 图1 请求指标 表1 请求指标说明 指标名称 单位 说明 存活数 个 组件存活实例数 QPS 请求数/秒 每秒不同响应码的请求个数 请求成功率(读) 百分比 每秒请求响应码为2xx的请求个数 处理中请求数 个数 APIServer在处理中的请求个数 请求速率(读) 请求数/秒 每秒不同响应码的读请求个数 请求错误率(读) 百分比 每秒读请求的错误请求个数 请求时延(读)(P99) 毫秒 P99读请求时延 请求速率(写) 请求数/秒 每秒不同响应码的写请求个数 请求错误率(写) 百分比 每秒写请求的错误请求个数 请求时延(写)(P99) 毫秒 P99写请求时延 图2 工作队列指标 表2 工作队列指标说明 指标名称 单位 说明 工作队列增加速率 操作次数/秒 APIServer每秒工作队列增加的次数 工作队列深度 个 工作队列深度 工作队列时延(P99) 毫秒 APIServer请求P99在工作队列中停留时间 图3 资源指标 表3 资源指标说明 指标名称 单位 说明 内存使用量 字节 APIServer内存使用量 CPU使用量 Cores APIServerCPU使用量 Go routine数 次 Go routine次数
  • 指标说明 Node视图暴露的指标如下: 图1 Node资源指标 表1 Node资源指标说明 指标名称 单位 说明 节点CPU使用率 百分比 节点CPU使用率 CPURequests水位 百分比 节点CPU Requests占节点CPU容量的百分比 CPULimits水位 百分比 节点CPU Limits占节点CPU容量的百分比 内存使用率 百分比 节点内存使用率 内存Requests水位 百分比 节点内存Requests占节点内存容量的百分比 内存Limits水位 百分比 节点内存Limits占节点内存容量的百分比 PodCPU使用率 百分比 节点上Pod的CPU使用率 内存使用量 字节 节点上Pod的内存使用量 图2 节点网络指标 表2 节点网络指标说明 指标名称 单位 说明 网络接收速率 字节/秒 节点每秒接收的字节数 网络发送速率 字节/秒 节点每秒发送的字节数 网络接收速率(Pod) 字节/秒 节点上的Pod每秒接收的字节数 网络发送速率(Pod) 字节/秒 节点上的Pod每秒发送的字节数 接收数据包速率 个/秒 节点上的Pod每秒接收的数据包个数 发送数据包速率 个/秒 节点上的Pod每秒发送的数据包个数 丢包速率(接收) 个/秒 节点上的Pod每秒接收丢失的数据包个数 丢包速率(发送) 个/秒 节点上的Pod每秒发送丢失的数据包个数 图3 节点磁盘指标 表3 节点磁盘指标说明 指标名称 单位 说明 节点磁盘读写IO速率(读+写) 次数/秒 节点磁盘每秒读写IO次数 节点磁盘读写吞吐量(读+写) 字节/秒 节点中Pod每秒读写磁盘字节数
  • 指标清单 节点视图使用的指标清单如下: 表4 节点指标清单 指标 类型 说明 kube_pod_container_resource_limits gauge 容器请求的限制资源数 kube_pod_status_phase gauge Pod当前阶段 kube_node_status_allocatable gauge 节点可分配的资源总数 kube_pod_container_resource_requests gauge 容器请求的请求资源数 node_memory_MemAvailable_bytes gauge 节点内存可用字节数 node_memory_MemTotal_bytes gauge 节点内存总字节数 node_cpu_seconds_total counter 在不同模式下节点累计CPU花费的时间 container_cpu_usage_seconds_total counter 容器CPU累计使用时间 container_memory_rss gauge RSS内存,即常驻内存集。是分配给进程使用的实际物理内存字节数,不是磁盘上缓存的虚机内存。 container_network_receive_bytes_total counter 容器网络累积接收字节数 container_network_transmit_bytes_total counter 容器网络累积传输字节数 container_network_receive_packets_total counter 容器网络收到的累计数据包数 container_network_transmit_packets_total counter 容器网络传输的累计数据包数 container_network_transmit_packets_dropped_total counter 容器网络传输时丢失的数据包数 container_fs_reads_total counter 容器磁盘读取次数 container_fs_writes_total counter 容器已完成磁盘写入的累计计数 container_fs_reads_bytes_total counter 容器磁盘读取的总字节数 container_fs_writes_bytes_total counter 容器写入的累计在节数
  • 指标清单 CoreDNS视图使用的指标清单如下: 表2 CoreDNS视图指标清单 指标 类型 说明 coredns_dns_request_count_total counter 记录所有请求查询的累计值 coredns_dns_requests_total counter DNS请求的总数 coredns_dns_request_type_count_total counter 每种类型的请求累计值 coredns_dns_request_do_count_total counter 设置了DO标志位的请求次数累计值 coredns_dns_do_requests_total counter 设置了DO标志位的请求总数 coredns_dns_request_size_bytes_bucket histogram CoreDNS请求字节数 coredns_dns_response_rcode_count_total counter 不同返回码个数的累计值 coredns_dns_responses_total counter 返回码的总数 coredns_dns_request_duration_seconds_bucket histogram CoreDNS请求时延 coredns_dns_response_size_bytes_bucket histogram CoreDNS返回字节数 coredns_cache_size gauge CoreDNS缓存大小 coredns_cache_hits_total counter CoreDNS缓存命中个数
共100000条