华为云用户手册

  • 安全策略 路由对接的监听器使用的安全策略 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.tls-ciphers-policy tls-1-0-inherit,tls-1-0, tls-1-1, tls-1-2,tls-1-2-strict,tls-1-2-fs,tls-1-0-with-1-3, tls-1-2-fs-with-1-3, hybrid-policy-1-0 tls-1-2 允许 CCE Standard/ CCE Turbo 监听器使用的安全策略。取值:tls-1-0-inherit,tls-1-0, tls-1-1, tls-1-2,tls-1-2-strict,tls-1-2-fs,tls-1-0-with-1-3, tls-1-2-fs-with-1-3, hybrid-policy-1-0。 使用说明: 仅对HTTPS协议类型的监听器且关联LB为独享型时有效。 QUIC监听器不支持该字段。 若同时设置了security_policy_id和tls_ciphers_policy,则仅security_policy_id生效。 加密套件的优先顺序为ecc套件、rsa套件、tls1.3协议的套件(即支持ecc又支持rsa) 配置建议: 在加密套件支持的情况下,请尽量使用安全级别高的安全策略 缺省支持的安全策略为tls-1-2,客户端需配合支持安全策略类型
  • 客户端请求超时时间 等待客户端请求超时时间 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.client_timeout 1-300,单位为s 60s 允许 CCE Standard/CCE Turbo 等待客户端请求超时时间,包括两种情况: 读取整个客户端请求头的超时时长:如果客户端未在超时时长内发送完整个请求头,则请求将被中断 两个连续body体的数据包到达LB的时间间隔,超出client_timeout将会断开连接。 取值范围为1-300s,默认值为60s。 使用说明:仅协议为HTTP/HTTPS的监听器支持该字段。 配置建议: 取值范围为1-300s,默认值为60s 仅协议为HTTP/HTTPS的监听器支持该字段
  • 后端服务器响应超时时间 等待后端服务器响应超时时间 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.member_timeout 1-300,单位为s 60s 允许 CCE Standard/CCE Turbo 等待后端服务器响应超时时间。请求转发后端服务器后,在等待超时member_timeout时长没有响应,负载均衡将终止等待,并返回 HTTP504错误码。 取值:1-300s,默认为60s。 使用说明:仅支持协议为HTTP/HTTPS的监听器。 配置建议: 取值:1-300s,默认为60s 仅支持协议为HTTP/HTTPS的监听器
  • 服务器证书ID 监听器对接已有的服务器证书和SNI证书,推荐使用此配置作为HTTPS监听器的证书配置 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.tls-certificate-ids 无 无 允许 CCE Standard/CCE Turbo 监听器使用的服务器证书和SNI证书。 该字段支持填写多个证书ID,通过逗号(,)分隔。第一个证书为监听器默认服务器证书,后续的证书为SNI证书。 配置建议: 推荐使用此配置作为HTTPS监听器的证书配置 一个HTTPS监听器最多支持配置50个SNI证书,超过此值后将不生效
  • 自定义安全策略 路由对接的监听器使用的自定义安全策略的ID 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.security_policy_id 无 无 允许 CCE Standard/CCE Turbo 自定义安全策略的ID。 使用说明: 仅对HTTPS协议类型的监听器且关联LB为独享型时有效。 QUIC监听器不支持该字段。 若同时设置了security_policy_id和tls_ciphers_policy,则仅security_policy_id生效。 加密套件的优先顺序为ecc套件、rsa套件、tls1.3协议的套件 (即支持ecc又支持rsa) 请配置正确的安全策略ID
  • TLS证书 监听器使用的服务器证书信息 参数名 取值范围 默认值 是否允许修改 作用范围 spec.tls[].secrectName 无 无 允许 CCE Standard/CCE Turbo 监听器使用的服务器证书信息,此配置方式和tls-certificate-ids选其一。需要创建kubernetes.io/tls或者IngressTLS类型的secret存放监听器的证书信息 推荐您使用对接已有证书的方式配置
  • 客户端连接空闲超时时间 客户端连接空闲超时时间,在超过keepalive_timeout时长一直没有请求, 负载均衡会暂时中断当前连接,直到下一次请求时重新建立新的连接。 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.keepalive_timeout 0-4000,单位为s 60s 允许 CCE Standard/CCE Turbo 客户端连接空闲超时时间,在超过keepalive_timeout时长一直没有请求, 负载均衡会暂时中断当前连接,直到下一次请求时重新建立新的连接。 取值: HTTP/HTTPS协议,取值范围为(0-4000s)默认值为60s。 UDP监听器不支持此字段。 配置建议: 取值范围为(0-4000s)默认值为60s UDP监听器不支持此字段
  • 是否开启HTTP/2 客户端与LB之间的HTTPS请求的HTTP2功能的开启状态。 开启后,可提升客户端与LB间的访问性能,但LB与后端服务器间仍采用HTTP1.X协议 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.http2-enable true/false false 允许 CCE Standard/CCE Turbo 客户端与LB之间的HTTPS请求的HTTP2功能的开启状态。 开启后,可提升客户端与LB间的访问性能,但LB与后端服务器间仍采用HTTP1.X协议。 使用说明: 仅HTTPS协议监听器有效。 仅HTTPS协议的监听器生效
  • 对外访问端口 路由对接的负载均衡器对外暴露的访问端口 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.port 1-65535 无 允许 CCE Standard/CCE Turbo 负载均衡器对外端口: 取值范围:1~65535。 部分端口为高危端口,默认被屏蔽,如21端口。 配置建议: 同集群的路由支持对接到相同的监听器 不同集群的路由不支持对接到相同的监听器;不支持对接到手动创建的监听器,会出现端口冲突的报错
  • 组调度 将一组Pod看做一个整体进行资源分配。观察Job下的Pod已调度数量是否满足了最小运行数量,当Job的最小运行数量得到满足时,为Job下的所有Pod执行调度动作,否则,不执行。 参数名 取值范围 默认值 是否允许修改 作用范围 gang true/false true 允许 CCE Standard/CCE Turbo Gang调度策略是volcano-scheduler的核心调度算法之一,它满足了调度过程中的“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费。具体算法是,观察Job下的Pod已调度数量是否满足了最小运行数量,当Job的最小运行数量得到满足时,为Job下的所有Pod执行调度动作,否则,不执行。 配置建议: 基于容器组概念的Gang调度算法十分适合需要多进程协作的场景。AI场景往往包含复杂的流程,Data Ingestion、Data Analysts、Data Splitting、Trainer、Serving、Logging等,需要一组容器进行协同工作,就很适合基于容器组的Gang调度策略。MPI计算框架下的多线程并行计算通信场景,由于需要主从进程协同工作,也非常适合使用Gang调度策略。容器组下的容器高度相关也可能存在资源争抢,整体调度分配,能够有效解决死锁。 在集群资源不足的场景下,gang的调度策略对于集群资源的利用率的提升是非常明显的。
  • 专家模式 如果上述Volcano的典型配置无法满足您的业务场景,可以使用专家模式定制专属于您的调度策略 参数名 取值范围 默认值 是否允许修改 作用范围 expert-mode json格式 actions: "allocate, backfill" tiers: - plugins: - name: priority - name: gang enablePreemptable: false - name: conformance - plugins: - name: drf enablePreemptable: false - name: predicates - name: nodeorder - plugins: - name: cce-gpu-topology-predicate - name: cce-gpu-topology-priority - name: xgpu - plugins: - name: nodelocalvolume - name: nodeemptydirvolume - name: node CS Ischeduling - name: networkresource 允许 CCE Standard/CCE Turbo volcano-scheduler是负责Pod调度的组件,它由一系列action和plugin组成。action定义了调度各环节中需要执行的动作;plugin根据不同场景提供了action 中算法的具体实现细节。 您可以根据官方文档中对每个action和plugin的说明,定义专属于您的调度策略。 详情可参见:https://support.huaweicloud.com/usermanual-cce/cce_10_0193.html#section1 配置建议: 使用默认配置 该项配置有一定的使用门槛,需要对调度有深入了解的客户,才可以根据官方文档进行定制化修改调度策略。
  • 节点优选策略 优选节点的常用算法,通过模拟分配从各个维度为节点打分,找到最适合当前作业的节点。 参数名 取值范围 默认值 是否允许修改 作用范围 nodeorder 开启和关闭插件:true/false 打分参数: nodeaffinity.weight:非负整数。 podaffinity.weight:非负整数。 leastrequested.weight:非负整数。 balancedresource.weight:非负整数。 mostrequested.weight:非负整数。 tainttoleration.weight:非负整数。 imagelocality.weight:非负整数。 selectorspread.weight:非负整数。 volumebinding.weight:非负整数。 podtopologyspread.weight:非负整数。 开启插件:TRUE nodeaffinity.weight:1。 podaffinity.weight:1。 leastrequested.weight:1。 balancedresource.weight:1。 mostrequested.weight:0。 tainttoleration.weight:1。 imagelocality.weight:1。 selectorspread.weight:0。 volumebinding.weight:1。 podtopologyspread.weight:2。 允许 CCE Standard/CCE Turbo 打分参数: nodeaffinity.weight:节点亲和性优先调度,默认值是1。 podaffinity.weight:Pod亲和性优先调度,默认值是1。 leastrequested.weight:资源分配最少的节点优先,默认值是1。 balancedresource.weight:节点上面的不同资源分配平衡的优先,默认值是1。 mostrequested.weight:资源分配最多的节点优先,默认值是0。 tainttoleration.weight:污点容忍高的优先调度,默认值是1。 imagelocality.weight:节点上面有Pod需要镜像的优先调度,默认值是1。 selectorspread.weight:把Pod均匀调度到不同的节点上,默认值是0。 volumebinding.weight:Local PV延迟绑定调度,默认值是1。 podtopologyspread.weight:Pod拓扑调度,默认值是2。 配置建议: 建议使用默认配置,如果业务有特殊的述求,可以根据业务实际场景调整各权重值。 增大策略对应的权重值,可以使该策略在节点打分时发挥更打的影响力。 NodeOrder和Binpack对某个节点的给出的基础分值,并根据对应的权重值进行倍数放大,调整插件中某个策略的权重值后,该策略对于节点打分的整体影响力增加,其他插件对节点评分的影响力将会同步被削弱。
  • 昇腾NPU预选调度 支持昇腾NPU HCCS亲和预选调度 参数名 取值范围 默认值 是否允许修改 作用范围 cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片,4P * 2方式。每4块NPU 1980芯片之间通过HCCS互联,4块之间通过PCIe swith互联。 HCCS互联的4块NPU 1980芯片较PCIe swith互联有更大的带宽,可以针对HCCS做亲和性调度发挥HCCS的带宽优势。 配置建议: 使用NPU的集群默认开启,不使用NPU资源可以关闭
  • 公平调度 DRF调度算法(Dominant Resource Fairness)可以根据作业使用的主导资源份额进行调度,资源份额较小的作业将具有更高优先级。 参数名 取值范围 默认值 是否允许修改 作用范围 drf true/false true 允许 CCE Standard/CCE Turbo DRF调度算法的全称是Dominant Resource Fairness,是基于容器组Domaint Resource的调度算法。volcano-scheduler观察每个Job请求的主导资源,并将其作为对集群资源使用的一种度量,根据Job的主导资源,计算Job的share值,在调度的过程中,具有较低share值的Job将具有更高的调度优先级。这样能够满足更多的作业,不会因为一个胖业务,饿死大批小业务。DRF调度算法能够确保在多种类型资源共存的环境下,尽可能满足分配的公平原则。 配置建议: DRF调度算法优先考虑集群中业务的吞吐量,适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。
  • 在离线业务混部 在离线业务混部是将多种应用在一个集群内部署,通过预测分析应用特性,实现业务对集群资源的充分利用; 参数名 取值范围 默认值 是否允许修改 作用范围 colocation-enable true/false false 允许 CCE Turbo 从集群维度来看,混部是将多种应用在一个集群内部署,通过预测分析应用特性,实现业务对集群资源的充分利用;从节点维度来看,混部是将多个容器部署在同一个节点上,这些容器内的应用既包括在线类型,也包括离线类型。根据应用对资源质量需求的差异,在线应用可以归纳为延时敏感型LS(Latency Sensitive),通常对请求压力(QPS)或访问延迟(RT)等指标有明确的要求,对资源质量较为敏感;离线应用可以归纳为资源消耗型BE(Best Effort),通常是一些计算密集型的任务类应用,有较好的容错重试能力,对资源质量的要求相对较为宽松。 配置建议: 只有在HCE 2.0的OS节点支持
  • deployment并发处理数 允许同时同步的资源对象的数量。配置数量越大,管理响应越快,但 CPU(和网络)负载也越高 参数名 取值范围 默认值 是否允许修改 作用范围 concurrent-deployment-syncs 大于等于0 5 允许 CCE Standard/CCE Turbo 允许同时同步的资源对象的数量。配置数量越大,管理响应越快,但 CPU(和网络)负载也越高 配置建议: 无特殊需求建议保持默认配置 并发数量设置过小可能导致管理器处理响应慢,设置过大会对集群管控面造成压力,产生过载风险
  • 集群特性开关 集群Kube-apiserver的特性开关 参数名 取值范围 默认值 是否允许修改 作用范围 feature-gates: ServerSideApply kube-apiserver支持的FeatureGate列表,多个特性","分割 开启 允许 CCE Standard/CCE Turbo 功能启用时,系统会将资源的字段管理信息存储在metadata.managedFields字段中,以记录历史操作的主体、时间、字段等信息
  • 后端云服务器组的负载均衡算法 服务对接的后端实例会在一个后端云服务器组中,此参数支持配置后端云服务器组的负载均衡算法。 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.lb-algorithm ROUND_ROBIN LEAST_CONNECTIONS SOURCE_IP ROUND_ROBIN 允许 CCE Standard/CCE Turbo 后端云服务器组的负载均衡算法,默认值为“ROUND_ROBIN”。 取值范围: ROUND_ROBIN:加权轮询算法。 LEAST_CONNECTIONS:加权最少连接算法。 SOURCE_IP:源IP算法。 当该字段的取值为SOURCE_IP时,后端云服务器组绑定的后端云服务器的权重设置(weight字段)无效,且不支持开启会话保持。
  • 会话保持类型 支持基于源IP地址的简单会话保持,即来自同一IP地址的访问请求转发到同一台后端服务器上。 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.session-affinity-mode 不启用:不填写该参数。 开启会话保持:需增加该参数,取值“SOURCE_IP”,表示基于源IP地址。 不启用 允许 CCE Standard/CCE Turbo 支持基于源IP地址的简单会话保持,即来自同一IP地址的访问请求转发到同一台后端服务器上。 当kubernetes.io/elb.lb-algorithm设置为“SOURCE_IP”(源IP算法)时,不支持开启会话保持。
  • 启用资源配额管理 是否启用资源配额管理功能 参数名 取值范围 默认值 是否允许修改 作用范围 enable-resource-quota true/false false 允许 1.21版本以上的CCE Standard/CCE Turbo集群 通过配额管理功能,用户可以对命名空间或相关维度下的各类负载(deployment, pod等)数量以及资源(cpu, memory)上限进行控制。启用该功能后,用户创建命名空间时将自动创建ResourceQuota对象 在高并发场景下(如批量创建pod),配额管理机制可能导致部分请求因冲突而失败,除非必要不建议启用该功能;如启用,请确保请求客户端具备重试机制
  • 非修改类API请求最大并发数 最大非变更类并发请求数(主要是GET/LIST请求)。 当并发请求数超过此值时,服务器请求会被拒绝 参数名 取值范围 默认值 是否允许修改 作用范围 max-requests-inflight 大于等于0 50和200节点:400 1000节点: 1000 2000节点: 2000 系统配置,不支持修改 CCE Standard/CCE Turbo 从1.21版本开始不再支持手动配置,根据集群规格自动配置如下: 50和200节点:400 1000节点:1000 2000节点:2000 0表示无限制。 配置建议: 建议保持默认值 上调此配置存在过载风险
  • 修改类API请求最大并发数 最大变更类并发请求数(包括POST/PATCH/PUT/DELETE等请求)。 当并发请求数超过此值时,服务器请求会被拒绝。 参数名 取值范围 默认值 是否允许修改 作用范围 max-mutating-requests-inflight 大于等于0 50和200节点:200 1000节点: 500 2000节点: 1000 系统配置,不支持修改 CCE Standard/CCE Turbo 从1.21版本开始不再支持手动配置,根据集群规格自动配置如下: 50和200节点:200 1000节点:500 2000节点:1000 0表示无限制。 配置建议: 建议保持默认值 上调此配置存在过载风险
  • 开启过载防护 集群过载控制开关,开启后将根据控制节点的资源压力,动态调整请求限制,维护控制节点和集群的可靠性。 参数名 取值范围 默认值 是否允许修改 作用范围 support-overload false:不启用过载控制 true:启用过载控制 false 允许 CCE Standard/CCE Turbo 配置建议: 默认建议开启 开启过载防护功能不意味着绝对不会过载,极端场景如短时内请求量急剧冲高超出过载调整反应速度时,仍可能有过载现象出现,建议用户针对集群访问行为进行主动管控,避免此类极端场景
  • 节点类型 参数名 取值范围 默认值 是否允许修改 作用范围 type 无 无 允许 CCE Standard/CCE Turbo CCE Standard集群: 弹性云服务器-虚拟机:基于弹性云服务器部署容器服务。 弹性云服务器-物理机:基于擎天架构的服务器部署容器服务。 裸金属服务器:基于裸金属服务器部署容器服务,需要挂载本地盘或支持挂载云硬盘。 CCE Turbo集群: 弹性云服务器-虚拟机:基于弹性云服务器部署容器服务,仅支持可添加多张弹性网卡的机型。 弹性云服务器-物理机:基于擎天架构的服务器部署容器服务。
  • 升级前检查项 集群升级前,系统将自动进行全面的升级前检查,当集群不满足升级前检查条件时将无法继续升级。为了能够更好地避免升级风险,本文提供全量的升级前检查问题及解决方案,帮助您对可能存在的升级故障进行预处理。 表1 检查项列表 序号 检查项名称 检查项说明 1 节点限制检查 检查节点是否可用 检查节点操作系统是否支持升级 检查节点是否含有非预期的节点池标签 检查K8s节点名称是否与云服务器保持一致 2 升级管控检查 检查集群是否处于升级管控中。 3 插件检查 检查插件状态是否正常 检查插件是否支持目标版本 4 Helm模板检查 检查当前HelmRelease记录中是否含有目标集群版本不支持的K8s废弃API,可能导致升级后helm模板不可用。 5 Master节点SSH联通性检查 检查当前CCE是否能连接至您的Master节点。 6 安全组检查 检查Node节点安全组规则中,协议端口为ICMP:全部,源地址为Master节点安全组的规则是否被删除。 7 残留待迁移节点检查 检查节点是否需要迁移。 8 K8s废弃资源检查 检查集群是否存在对应版本已经废弃的资源。 9 兼容性风险检查 请您阅读版本兼容性差异,并确认不受影响。补丁升级不涉及版本兼容性差异。 10 节点CCE Agent版本检查 检测当前节点的CCE包管理组件cce-agent是否为最新版本。 11 节点CPU使用率检查 检查节点CPU使用情况,是否超过90%。 12 CRD检查 检查集群关键CRD "packageversions.version.cce.io"是否被删除。 检查集群关键CRD "network-attachment-definitions.k8s.cni.cncf.io"是否被删除。 13 节点磁盘检查 检查节点关键数据盘使用量是否满足升级要求 检查/tmp目录是否存在500MB可用空间 14 节点DNS检查 检查当前节点DNS配置是否能正常解析OBS地址 检查当前节点是否能访问存储升级组件包的OBS地址 15 节点关键目录文件权限检查 检查CCE使用的目录/var/paas内文件的属主和属组是否都为paas。 16 节点Kubelet检查 检查节点kubelet服务是否运行正常。 17 节点内存检查 检查节点内存使用情况,是否超过90%。 18 节点时钟同步服务器检查 检查节点时钟同步服务器ntpd或chronyd是否运行正常。 19 节点OS检查 检查节点操作系统内核版本是否为CCE支持的版本。 20 节点CPU数量检查 检查Master节点的CPU数量是否大于2核。 21 节点Python命令检查 检查Node节点中Python命令是否可用。 22 ASM网格版本检查 检查集群是否使用ASM网格服务 检查当前ASM版本是否支持目标集群版本 23 节点Ready检查 检查集群内节点是否Ready。 24 节点journald检查 检查节点上的journald状态是否正常。 25 节点干扰ContainerdSock检查 检查节点上是否存在干扰的Containerd.Sock文件。该文件影响euler操作系统下的容器运行时启动。 26 内部错误 在升级前检查流程中是否出现内部错误。 27 节点挂载点检查 检查节点上是否存在不可访问的挂载点。 28 K8s节点污点检查 检查节点上是否存在集群升级需要使用到的污点。 29 everest插件版本限制检查 检查集群当前everest插件版本是否存在兼容性限制。 30 cce-hpa-controller插件限制检查 检查到目标cce-controller-hpa插件版本是否存在兼容性限制。 31 增强型CPU管理策略检查 检查当前集群版本和要升级的目标版本是否支持增强型CPU管理策略。 32 用户节点组件健康检查 检查用户节点的容器运行时组件和网络组件等是否健康。 33 控制节点组件健康检查 检查控制节点的Kubernetes组件、容器运行时组件、网络组件等是否健康。 34 K8s组件内存资源限制检查 检查K8s组件例如etcd、kube-controller-manager等组件是否资源超出限制。 35 K8s废弃API检查 系统会扫描过去一天的审计日志,检查用户是否调用目标K8s版本已废弃的API。 说明: 由于审计日志的时间范围有限,该检查项仅作为辅助手段,集群中可能已使用即将废弃的API,但未在过去一天的审计日志中体现,请您充分排查。 36 节点NetworkManager检查 检查节点上的NetworkManager状态是否正常。 37 节点ID文件检查 检查节点的ID文件内容是否符合格式。 38 节点配置一致性检查 在升级集群版本至v1.19及以上版本时,将对您的节点上的Kubenertes组件的配置进行检查,检查您是否后台修改过配置文件。 39 节点配置文件检查 检查节点上关键组件的配置文件是否存在。 40 CoreDNS配置一致性检查 检查当前CoreDNS关键配置Corefile是否同Helm Release记录存在差异,差异的部分可能在插件升级时被覆盖,影响集群内部域名解析。 41 节点Sudo检查 检查当前节点sudo命令,sudo相关文件是否正常。 42 节点关键命令检查 检查节点升级依赖的一些关键命令是否能正常执行。 43 节点sock文件挂载检查 检查节点上的Pod是否直接挂载docker/containerd.sock文件。升级过程中Docker/Containerd将会重启,宿主机sock文件发生变化,但是容器内的sock文件不会随之变化,二者不匹配,导致您的业务无法访问Docker/Containerd。Pod重建后sock文件重新挂载,可恢复正常。 44 HTTPS类型负载均衡证书一致性检查 检查HTTPS类型负载均衡所使用的证书,是否在ELB服务侧被修改。 45 节点挂载检查 检查节点上默认挂载目录及软链接是否被手动挂载或修改。 46 节点paas用户登录权限检查 检查paas用户是否有登录权限。 47 ELB IPv4私网地址检查 检查集群内负载均衡类型的Service所关联的ELB实例是否包含IPv4私网IP。 48 检查历史升级记录是否满足升级条件 检查集群最初版本是否小于v1.11,且升级的目标版本大于v1.23。 49 检查集群管理平面网段是否与主干配置一致 检查集群管理平面网段是否与主干配置一致。 50 GPU插件检查 检查到本次升级涉及GPU插件,可能影响新建GPU节点时GPU驱动的安装。 51 节点系统参数检查 检查您节点上默认系统参数是否被修改。 52 残留packageversion检查 检查当前集群中是否存在残留的packageversion。 53 节点命令行检查 检查节点中是否存在升级所必须的命令。 54 节点交换区检查 检查集群节点上是否开启交换区。 55 nginx-ingress插件升级检查 检查nginx-ingress插件升级路径是否涉及兼容问题。 56 云原生监控插件升级检查 在集群升级过程中,云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时,存在兼容性问题,需检查该插件是否开启了grafana的开关。 57 Containerd Pod重启风险检查 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 58 GPU插件关键参数检查 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 59 GPU/NPU Pod重建风险检查 检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。 父主题: 升级前检查异常问题排查
  • 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer -nkube-system -oyaml 请检查UpdateStrategy字段值是否被修改为OnDelete,应改回RollingUpdate。 请检查NVIDIA_DRIVER_DOWNLOAD_URL字段是否与插件页面的GPU插件详情地址不一致,若不一致,请在页面上修改。 图1 插件页面编辑GPU插件
  • 从控制台获取项目ID 从控制台获取项目ID(project_id)和名称(project name)的步骤如下: 登录 交换数据空间 官网。 单击“管理控制台”,进入交换数据空间控制台界面。 鼠标移动到页面右上角账号名,然后在下拉列表中单击“我的凭证”,进入“我的凭证”页面。 如果登录的是华为云官网,而非管理控制台。在单击用户名后,选择下拉列表中的“账号中心”,然后单击“管理我的凭证”进入“我的凭证”页面。 在“API凭证”页面的项目列表中查看项目ID和名称(即“项目”)。 图1 查看项目ID
  • API概览 交换数据空间服务接口的分类与说明如表1所示。 表1 API概览 类型 说明 offer管理 包括查询offer列表、查询offer详情等接口。 订阅管理 包括订阅offer、查看审批等接口。 合约管理 提供查询合约、提交合约、终止合约等接口。 应用管理 提供应用新增、查询等接口。 资产管理 提供文件下载接口。 审计日志 查询数据资产的审计日志的接口。 实例管理 提供实例添加客租户接口。 连接器管理 提供连接器列表和连接器详情查询接口。 用户管理 提供添加连接器用户、删除连接器用户的接口。
  • 支持的授权项 策略包含系统策略和自定义策略,如果系统策略不满足授权要求,管理员可以创建自定义策略,并通过给用户组授予自定义策略来进行精细的访问控制。策略支持的操作与API相对应,授权项列表说明如下: 权限:允许或拒绝某项操作。 对应API接口:自定义策略实际调用的API接口。 授权项:自定义策略中支持的Action,在自定义策略中的Action中写入授权项,可以实现授权项对应的权限功能。 依赖的授权项:部分Action存在对其他Action的依赖,需要将依赖的Action同时写入授权项,才能实现对应的权限功能。 IAM 项目(Project)/企业项目(Enterprise Project):自定义策略的授权范围,包括IAM项目与企业项目。授权范围如果同时支持IAM项目和企业项目,表示此授权项对应的自定义策略,可以在IAM和企业管理两个服务中给用户组授权并生效。如果仅支持IAM项目,不支持企业项目,表示仅能在IAM中给用户组授权并生效,如果在企业管理中授权,则该自定义策略不生效。关于IAM项目与企业项目的区别,详情请参见:IAM和企业管理的区别。
  • 调用API获取连接器ID 连接器ID还可通过调用查询用户连接器列表API获取。 获取连接器ID的接口为GET https://{eds-endpoint}/v1/{project_id}/eds/instances/{instance_id}/connectors/user-connectors,响应体中data下的“connector_id”即为连接器ID。 eds-endpoint为EDS的终端节点,EDS目前仅部署在“华北-北京四”区域,Endpoint为“eds.cn-north-4.myhuaweicloud.com”。 project_id为项目ID,开通服务后可在控制台查询,查询方法请参考获取项目ID。 instance_id为实例ID,创建实例后可在控制台查询,查询方法请参考获取实例ID。
共100000条