在节点列表中,单击异常节点名称,“前往弹性云服务器ECS详情”弹窗中单击“确定”。在异常节点页面中,右上角单击“远程登录”。 检查驱动安装目录。 执行以下命令,进入驱动安装目录,确定驱动安装目录是否存在。若驱动安装目录不存在,则请跳过该步骤,进入3排查驱动安装过程。
使用镜像密码(当节点类型为弹性云服务器虚拟机或物理机,且操作系统选择私有镜像时支持) 保留所选择镜像的密码。为了保证您的正常使用,请确保所选择镜像中已经设置了密码。 安装前执行脚本: 请输入脚本命令,命令中不能包含中文字符。脚本命令会进行Base64转码。
如果云原生监控插件开启“监控数据上报至AOM服务”,则将GPU Pod监控指标上传至AOM会涉及一定费用,具体请参见价格详情。
获取方法:在云服务器控制台,单击左侧栏目树中的“云硬盘 > 磁盘”,单击要对接的云硬盘名称进入详情页,在“概览信息”页签下找到“配置信息”,复制密钥ID值即可。
创建此Ingress服务,将会出现以下拦截信息: 父主题: 通过模板包部署Nginx Ingress Controller
kube-state-metrics规格调整 集群规模较大时,kube-state-metrics需要处理的数据量会显著增加,导致kube-state-metrics面临较大的负载压力,如果不及时调整其资源配置,可能会影响其性能甚至导致服务不可用。
例如上面例子中的nginx,如果服务数为2,并部署在只有1个节点的集群上,就会有一个Pod无法创建,查询Pod日志会发现是由于端口占用导致nginx无法启动。
场景三:自定义日志组(流)不存在 CCE界面暂不支持非默认日志组(流)的创建,请到云日志服务(LTS)进行重新创建。 创建完毕后,参考以下步骤进行修复: 登录CCE控制台,单击集群名称,在左侧导航栏中选择“日志中心”。
Docker Containerd OverlayFS runC Ubuntu 18.04 4.x Ubuntu 22.04 5.x EulerOS 2.9 4.x Huawei Cloud EulerOS 1.1 3.x Huawei Cloud EulerOS 2.0 5.x 弹性云服务器
而Kubernetes默认调度器最初主要是为长期运行的服务设计的,对于AI、大数据等批量和弹性调度方面还有很多的不足。
证书配置:dashboard服务端使用的证书。 使用自定义证书 您需要参考样例填写pem格式的“证书文件”和“证书私钥”。 使用默认证书 dashboard默认生成的证书不合法,将影响浏览器正常访问,建议您选择手动上传合法证书,以便通过浏览器校验,保证连接的安全性。
PodSecurityPolicy允许为不同的服务账号(Service Account)绑定不同策略(Kubernetes社区不建议使用该能力)。如果您有使用该能力的诉求,在迁移至Pod Security Admission后,需要自行定义第三方Webhook。
在“服务列表”中选择云容器引擎,在CCE主界面进入集群,选择命名空间,如果无法查看kube-system命名空间(假设访问策略只授权了default命名空间),则表示访问策略配置已生效。 父主题: 权限
容器日志(可选):容器标准输出日志将默认上报至 AOM 服务,无需独立配置。您可以手动配置日志采集路径,详情请参见通过ICAgent采集容器日志(不推荐)。
网段规划建议 在集群网络构成中介绍集群中网络地址可分为集群网络、容器网络、服务网络三块,在规划网络地址时需要从如下方面考虑: 集群所在VPC下所有子网(包括扩展网段子网)不能和服务网段冲突。 保证每个网段有足够的IP地址可用。
localtime - emptyDir: {} name: tmpfs-example-001 限制业务容器访问管理面 在节点上配置限制业务容器访问Kubernetes管理面操作时,需要谨慎评估以下事项,以避免不必要的服务中断
所以容器隧道网络适用于对性能要求不是特别高的业务场景,比如:Web应用、访问量不大的数据中台、后台服务等。
云原生监控插件:使用Prometheus提供基础资源使用指标,需将Prometheus注册为Metrics API的服务,详见通过Metrics API提供基础资源指标。 安装插件 登录CCE控制台,单击集群名称进入集群。
但对于较新版本的Nginx Ingress Controller来说(社区版本v1.0.0及以上,对应CCE插件版本2.x.x),如果在创建Ingress时没有显示指定Ingress类别为nginx,该资源将被Nginx Ingress Controller忽略,Ingress规则失效,导致服务中断
模型训练完成后,用户还可以使用KFServing创建和部署用于推理的服务器。再结合pipeline(流水线)功能可实现端到端机器学习系统的自动化敏捷构建,实现AI领域的DevOps。