检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点无法连接互联网(公网),如何排查定位? 当节点无法连接互联网时,请参照如下方法排查。 排查项一:节点是否绑定弹性IP 登录ECS控制台,查看节点对应的弹性云服务器是否已绑定弹性IP。 若弹性IP一栏有IP地址,表示已绑定弹性IP。若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性
Jenkins Agent配置 安装完Jenkins后,可能会出现以下提示,说明Jenkins使用Master进行本地构建,未配置Agent。 如果您选择单Master安装Jenkins,执行完毕Jenkins Master安装部署中的操作后已完成,可直接进行流水线构建,请参见使用
节点规格说明 您可以通过本节快速浏览CCE支持的节点规格清单及相关特性,帮助您选择合适的机型规格。 不同区域支持的节点规格(flavor)不同,且节点规格存在新增、售罄下线等情况,建议您在使用前登录CCE控制台,在创建节点界面查看您需要的节点规格是否支持。 对于CCE Turbo集群
模板格式不正确,无法删除模板实例? 问题现象 若上传的模板中包含不正确或者不兼容的资源,会导致安装模板失败,类似下图: 此时模板实例无法正常工作。如果您尝试在界面上删除,可能会出现deletion failed的报错,模板实例仍在列表中: 解决方法 您可以使用kubectl命令删除残留的模板实例
GPU虚拟化节点弹性伸缩配置 当集群中GPU虚拟化资源不足时,支持自动进行GPU节点的弹性伸缩。本文将指导您如何创建GPU虚拟化节点的弹性伸缩策略。 前提条件 已创建一个v1.27及以上版本的集群。 在集群中安装CCE AI套件(NVIDIA GPU)(2.1.8、2.7.5及以上版本
SDK概述 本文介绍了CCE服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 SDK列表 在开始使用之前,请确保您安装的是最新版本的SDK。使用过时的版本可能会导致兼容性问题或无法使用最新功能。您可以在SDK中心查询版本信息。 表1提供了各个CCE服务支持的SDK列表,您可以在
Nginx Ingress Controller高级配置 高并发业务场景参数优化 针对高并发业务场景,可通过参数配置进行优化: 通过ConfigMap对Nginx Ingress Controller整体参数进行优化。 通过InitContainers对Nginx Ingress
健康中心概述 集群健康诊断用于诊断集群的健康状态,该功能集合了容器运维专家的经验,为您提供了集群级别的健康诊断最佳实践。可对集群健康状况进行全面检查,帮助您及时发现集群故障与潜在风险,并给出应对的修复建议供您参考。 健康诊断覆盖范围 健康诊断覆盖范围如下图所示: 图1 健康诊断覆盖范围
基于ELB监控指标的弹性伸缩实践 应用现状 在使用工作负载弹性伸缩时,Kubernetes默认提供基于CPU/内存等资源使用率指标进行伸缩。但是在流量突发的场景下,基于CPU/内存使用率资源使用率数据会滞后于ELB流量指标,无法及时反映应用实际需求。因此,对于某些需要快速弹性扩缩容的业务
责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任
如何批量修改集群node节点安全组? 约束与限制 一个安全组关联的实例数量建议不超过1000个,否则可能引起安全组性能下降。更多关于安全组的限制请参考安全组限制。 操作步骤 登录VPC控制台,并在左上角选择区域和项目。 在左侧导航树选择“访问控制 > 安全组”。 在安全组界面,单击操作列的
在什么场景下设置工作负载生命周期中的“停止前处理”? 问题描述: 在什么场景下设置工作负载生命周期中的“停止前处理”? 问题解答: 服务的业务处理时间较长,在升级时,需要先等Pod中的业务处理完,才能kill该Pod,以保证业务不中断的场景。 父主题: 容器设置
为ELB Ingress配置高级转发策略 在CCE集群中创建ELB Ingress后,系统会自动在ELB上创建对应的监听器并配置转发策略,Ingress默认根据域名、路径匹配客户端请求,然后通过监听器转发至对应的后端服务器(节点或Pod)进行处理。在创建ELB Ingress时,您可以配置多样化的转发规则和转发动作
编写开机运行脚本 应用容器化时,一般需要准备开机运行的脚本,写作脚本的方式和写一般shell脚本相同。该脚本的主要目的包括: 启动应用所依赖的软件。 将需要修改的配置设置为环境变量。 开机运行脚本与应用实际需求直接相关,每个应用所写的开机脚本会有所区别。请根据实际业务需求来写该脚本
Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高 问题现象 Containerd节点上业务容器标准输出不断写入大量日志,导致/var/lib/containerd目录占用空间不断增长,同时节点上容器创删速度变慢,进一步出现磁盘使用率过高、Pod驱逐、节点异常等现象
升级操作系统 当CCE发布新版本的操作系统镜像时,已有节点无法自动升级,您可以手动进行批量升级。 注意事项 该操作会通过重置节点的方式升级操作系统,节点上已运行的工作负载业务可能会由于单实例部署、可调度资源不足等原因产生中断,请您合理评估升级风险,并挑选业务低峰期进行,或对关键业务应用设置
GPU故障处理 在Kubernetes的环境中,GPU资源的管理复杂度高、故障诊断和恢复难度大,且宕机成本高。当某个GPU资源出现故障时,CCE集群会迅速上报,并根据事件信息提供单GPU故障后自动隔离功能,此时其他正常的GPU可以继续提供服务,尽可能减少业务上的损失。本文将介绍GPU
使用Kubectl命令操作集群 kubectl kubectl是Kubernetes集群的命令行工具,您可以将kubectl安装在任意一台机器上,通过kubectl命令操作Kubernetes集群。 CCE集群的kubectl安装请参见通过kubectl连接集群。连接后您可以执行kubectl
高危操作一览 业务部署或运行过程中,用户可能会触发不同层面的高危操作,导致不同程度上的业务故障。为了能够更好地帮助用户预估及避免操作风险,本文将从集群/节点、网络与负载均衡、日志、云硬盘多个维度出发,为用户展示哪些高危操作会导致怎样的后果,以及为用户提供相应的误操作解决方案。 集群
工作负载异常:启动容器失败 问题定位 工作负载详情中,若事件中提示“启动容器失败”,请按照如下方式来初步排查原因: 登录异常工作负载所在的节点。 查看工作负载实例非正常退出的容器ID。 如果节点为docker,请执行docker命令: docker ps -a | grep $podName