检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点弹性伸缩:即资源层弹性,支持根据Pod的资源调度情况,动态增加或减少计算资源(如ECS),确保集群在高负载情况下拥有足够的资源,同时在低负载时期减少资源浪费。
在节点列表中,单击异常节点名称,“前往弹性云服务器ECS详情”弹窗中单击“确定”。在异常节点页面中,右上角单击“远程登录”。 检查驱动安装目录。 执行以下命令,进入驱动安装目录,确定驱动安装目录是否存在。若驱动安装目录不存在,则请跳过该步骤,进入3排查驱动安装过程。
cce-gpu-topology-priority - name: xgpu - plugins: - name: nodelocalvolume - name: nodeemptydirvolume - name: nodeCSIscheduling
节点(弹性云服务器 ECS) 实例规格 包括vCPU和内存。 云硬盘 随包年/包月云服务器创建的云硬盘,其计费模式也为包年/包月。包括系统盘和数据盘。 弹性公网IP 通过CCE控制台创建的包年/包月云服务器仅支持绑定“按带宽计费”的弹性公网IP。
VPC下(集群外)有一个地址为192.168.10.25的ECS,其安全组规则仅允许集群节点的IP网段访问。 此时如果从容器中ping 192.168.10.25,会发现无法ping通。
子网是用来管理弹性云服务器网络平面的一个网络,可以提供IP地址管理、DNS服务,子网内的弹性云服务器IP地址都属于该子网。 默认情况下,同一个VPC的所有子网内的弹性云服务器均可以进行通信,不同VPC的弹性云服务器不能进行通信。
表1 节点默认最大实例数 内存 节点默认最大实例数 4G 20 8G 40 16G 60 32G 80 64G及以上 110 节点网卡数量说明(仅CCE Turbo集群) CCE Turbo集群ECS节点使用弹性辅助网卡,裸金属节点使用弹性网卡,节点可以创建最大Pod数量与节点可使用网卡数量相关
表1 节点默认最大实例数 内存 节点默认最大实例数 4G 20 8G 40 16G 60 32G 80 64G及以上 110 节点网卡数量说明(仅CCE Turbo集群) CCE Turbo集群ECS节点使用弹性辅助网卡,裸金属节点使用弹性网卡,节点可以创建最大Pod数量与节点可使用网卡数量相关
在云容器引擎CCE中,主要采用高性能的弹性云服务器ECS或裸金属服务器BMS作为节点来构建高可用的Kubernetes集群。 CCE提供的节点相关功能包括:购买节点、纳管已有节点到集群、登录节点、节点监控、管理节点标签、同步节点信息、重置节点、删除节点、节点关机等。
前提条件 配置 支持版本 集群版本 v1.23.8-r0、v1.25.3-r0及以上 操作系统 Huawei Cloud EulerOS 2.0操作系统 GPU类型 支持Tesla T4、Tesla V100类型的的GPU 驱动版本 GPU虚拟化功能仅支持535.216.03、470.57.02
删除控制节点云服务器组失败 Failed to delete the server group of master 重要 检查集群删除控制节点云服务器组是否成功。
K8s集群迁移方案概述 操作场景 随着容器化技术的发展,越来越多的企业使用容器代替了虚拟机完成应用的运行部署,而Kubernetes的发展让容器化的部署变得简单并且高效。
从VPC内其他资源访问Pod 在一些场景下,可能需要从同一个VPC内的其他资源(例如ECS实例)直接访问位于不同节点的Pod的原始IP地址。由于默认情况下启用了SNAT,数据包的源IP地址在经过节点时会被替换为节点的IP地址,这会阻碍从这些资源到Pod的直接访问。
Before running this example, set environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK
Before running this example, set environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK
主要存在以下问题: 资源争抢问题 TensorFlow的作业包含Parameter Server(PS)和Worker两种不同的角色,这两种角色的Pod要协同工作才能完成整个训练任务。如果只是运行一种角色Pod,整个作业将无法正常执行。
使用镜像密码(当节点类型为弹性云服务器虚拟机或物理机,且操作系统选择私有镜像时支持) 保留所选择镜像的密码。为了保证您的正常使用,请确保所选择镜像中已经设置了密码。 存储配置 配置节点云服务器上的存储资源,方便节点上的容器软件与容器应用使用。
Deployment 使用示例 本示例将展示如何通过kagent插件构建自定义agent 在已有的ECS中安装kubectl,并使用kubectl连接集群,具体操作请参见通过kubectl连接集群。 执行以下命令,创建节点访问类型Service的YAML文。
图1 弹性文件存储-共享路径 文件存储所在VPC必须与工作负载规划部署的ECS虚拟机的VPC保持一致。 创建PV。 kubectl create -f pv-sfs-example.yaml 创建PVC。
单击GPU节点名称,跳转到ECS界面,在右上角单击重启。GPU节点完成重启后,需要等待5~10分钟,等待驱动安装成功。您可以通过CCE AI套件(NVIDIA GPU)插件的状态判断驱动是否安装完成,当插件状态变为“运行中”时,则说明安装完成。