华为云用户手册

华为云UCS-设置容器健康检查:检查方式

检查方式 HTTP 请求检查 HTTP 请求方式针对的是提供HTTP/HTTPS服务的容器，集群周期性地对该容器发起HTTP/HTTPS GET请求，如果HTTP/HTTPS response返回码属于200~399范围，则证明探测成功，否则探测失败。使用HTTP请求探测必须指定容器监听的端口和HTTP/HTTPS的请求路径。例如：提供HTTP服务的容器，HTTP检查路径为：/health-check；端口为：80；主机地址可不填，默认为容器实例IP，此处以172.16.0.186为例。那么集群会周期性地对容器发起如下请求：GET http://172.16.0.186:80/health-check。图1 HTTP请求检查 TCP 端口检查对于提供TCP通信服务的容器，集群周期性地对该容器建立TCP连接，如果连接成功，则证明探测成功，否则探测失败。选择TCP端口探测方式，必须指定容器监听的端口。例如：有一个nginx容器，它的服务端口是80，对该容器配置了TCP端口探测，指定探测端口为80，那么集群会周期性地对该容器的80端口发起TCP连接，如果连接成功则证明检查成功，否则检查失败。图2 TCP端口检查执行命令检查命令检查是一种强大的检查方式，该方式要求用户指定一个容器内的可执行命令，集群会周期性地在容器内执行该命令，如果命令的返回结果是0则检查成功，否则检查失败。对于上面提到的TCP端口检查和HTTP请求检查，都可以通过执行命令检查的方式来替代：对于TCP端口探测，可以使用程序对容器的端口尝试connect，如果connect成功，脚本返回0，否则返回-1。对于HTTP请求探测，可以使用脚本来对容器进行wget。 wget http://127.0.0.1:80/health-check 并检查response的返回码，如果返回码在200~399 的范围，脚本返回0，否则返回-1。如下图：图3 执行命令检查必须把要执行的程序放在容器的镜像里面，否则会因找不到程序而执行失败。如果执行的命令是一个shell脚本，由于集群在执行容器里的程序时，不在终端环境下，因此不能直接指定脚本为执行命令，需要加上脚本解析器。比如脚本是/data/scripts/health_check.sh，那么使用执行命令检查时，指定的程序应该是： sh /data/scripts/health_check.sh

华为云UCS
华为云UCS-volcano:版本记录

版本记录建议升级到跟集群配套的最新volcano版本。表4 集群版本配套关系集群版本支持的插件版本 v1.25 1.7.1、1.7.2 v1.23 1.7.1、1.7.2 v1.21 1.7.1、1.7.2 v1.19.16 1.3.7、1.3.10、1.4.5、1.7.1、1.7.2 v1.19 1.3.7、1.3.10、1.4.5 v1.17（停止维护） 1.3.7、1.3.10、1.4.5 v1.15（停止维护） 1.3.7、1.3.10、1.4.5 表5 CCE插件版本记录插件版本支持的集群版本更新特性 1.9.1 /v1.19.16.*|v1.21.*|v1.23.*|v1.25.*/ 修复networkresource插件计数pipeline pod占用subeni问题修复binpack插件对资源不足节点打分问题修复对结束状态未知的pod的资源的处理优化事件输出默认高可用部署 1.7.2 /v1.19.16.*|v1.21.*|v1.23.*|v1.25.*/ Volcano 支持 Kubernetes 1.25版本提升Volcano调度性能。 1.7.1 /v1.19.16.*|v1.21.*|v1.23.*|v1.25.*/ Volcano 支持 Kubernetes 1.25版本 1.6.5 /v1.19.*|v1.21.*|v1.23.*/ 支持作为CCE的默认调度器支持混部场景下统一调度 1.4.5 /v1.17.*|v1.19.*|v1.21.*/ volcano-scheduler的部署方式由statefulset调整为deployment，修复节点异常时Pod无法自动迁移的问题 1.4.2 /v1.15.*|v1.17.*|v1.19.*|v1.21.*/ 修复跨GPU分配失败问题适配更新后的EAS API 1.3.3 /v1.15.*|v1.17.*|v1.19.*|v1.21.*/ 修复GPU异常导致的调度器崩溃问题；修复特权Init容器准入失败问题 1.3.1 /v1.15.*|v1.17.*|v1.19.*/ 升级Volcano框架到最新版本支持Kubernetes 1.19版本添加numa-aware插件修复多队列场景下Deployment扩缩容的问题调整默认开启的算法插件 1.2.5 /v1.15.*|v1.17.*|v1.19.*/ 修复某些场景下OutOfcpu的问题修复queue设置部分capability情况下Pod无法调度问题支持volcano组件日志时间与系统时间保持一致修复队列间多抢占问题修复ioaware插件在某些极端场景下结果不符合预期的问题支持混合集群 1.2.3 /v1.15.*|v1.17.*|v1.19.*/ 修复因为精度不够引发的训练任务OOM的问题修复CCE1.15以上版本GPU调度的问题，暂不支持任务分发时的CCE版本滚动升级修复特定场景下队列状态不明的问题修复特定场景下作业挂载PVC panic的问题修复GPU作业无法配置小数的问题添加ioaware插件添加ring controller

华为云UCS
华为云UCS-volcano:保留原volcano-scheduler-configmap配置

保留原volcano-scheduler-configmap配置假如在某场景下希望插件升级后时沿用原配置，可参考以下步骤：查看原volcano-scheduler-configmap配置，并备份。示例如下： # kubectl edit cm volcano-scheduler-configmap -n kube-systemapiVersion: v1data: default-scheduler.conf: |- actions: "enqueue, allocate, backfill" tiers: - plugins: - name: priority - name: gang - name: conformance - plugins: - name: drf - name: predicates - name: nodeorder - name: binpack arguments: binpack.cpu: 100 binpack.weight: 10 binpack.resources: nvidia.com/gpu binpack.resources.nvidia.com/gpu: 10000 - plugins: - name: cce-gpu-topology-predicate - name: cce-gpu-topology-priority - name: cce-gpu - plugins: - name: nodelocalvolume - name: nodeemptydirvolume - name: node CS Ischeduling - name: networkresource 在控制台“参数配置”中填写自定义修改的内容： { "ca_cert": "", "default_scheduler_conf": { "actions": "enqueue, allocate, backfill", "tiers": [ { "plugins": [ { "name": "priority" }, { "name": "gang" }, { "name": "conformance" } ] }, { "plugins": [ { "name": "drf" }, { "name": "predicates" }, { "name": "nodeorder" }, { "name": "binpack", "arguments": { "binpack.cpu": 100, "binpack.weight": 10, "binpack.resources": "nvidia.com/gpu", "binpack.resources.nvidia.com/gpu": 10000 } } ] }, { "plugins": [ { "name": "cce-gpu-topology-predicate" }, { "name": "cce-gpu-topology-priority" }, { "name": "cce-gpu" } ] }, { "plugins": [ { "name": "nodelocalvolume" }, { "name": "nodeemptydirvolume" }, { "name": "nodeCSIscheduling" }, { "name": "networkresource" } ] } ] }, "server_cert": "", "server_key": ""} 使用该功能时会覆盖原volcano-scheduler-configmap中内容，所以升级时务必检查是否在volcano-scheduler-configmap做过修改。如果是，需要把修改内容同步到升级界面里。

华为云UCS
华为云UCS-volcano:在控制台中修改volcano-scheduler配置

在控制台中修改volcano-scheduler配置 Volcano允许用户在安装，升级，编辑时，编写Volcano调度器配置信息，并将配置内容同步到volcano-scheduler-configmap里。当前小节介绍如何使用自定义配置，以便用户让volcano-scheduler能更适合自己的场景。仅Volcano 1.7.1及以上版本支持该功能。在新版插件界面上合并了原plugins.eas_service和resource_exporter_enable等选项，以新选项default_scheduler_conf代替。您可登录CCE控制台，单击集群名称进入集群，单击左侧导航栏的“插件管理”，在右侧找到Volcano，单击“安装”或“升级”，并在“参数配置”中设置Volcano调度器配置参数。使用resource_exporter配置，示例如下： { "ca_cert": "", "default_scheduler_conf": { "actions": "allocate, backfill", "tiers": [ { "plugins": [ { "name": "priority" }, { "name": "gang" }, { "name": "conformance" } ] }, { "plugins": [ { "name": "drf" }, { "name": "predicates" }, { "name": "nodeorder" } ] }, { "plugins": [ { "name": "cce-gpu-topology-predicate" }, { "name": "cce-gpu-topology-priority" }, { "name": "cce-gpu" }, { "name": "numa-aware" # add this also enable resource_exporter } ] }, { "plugins": [ { "name": "nodelocalvolume" }, { "name": "nodeemptydirvolume" }, { "name": "nodeCSIscheduling" }, { "name": "networkresource" } ] } ] }, "server_cert": "", "server_key": ""} 开启后可以同时使用volcano-scheduler的numa-aware插件功能和resource_exporter功能。使用eas_service配置，示例如下： { "ca_cert": "", "default_scheduler_conf": { "actions": "allocate, backfill", "tiers": [ { "plugins": [ { "name": "priority" }, { "name": "gang" }, { "name": "conformance" } ] }, { "plugins": [ { "name": "drf" }, { "name": "predicates" }, { "name": "nodeorder" } ] }, { "plugins": [ { "name": "cce-gpu-topology-predicate" }, { "name": "cce-gpu-topology-priority" }, { "name": "cce-gpu" }, { "name": "eas", "custom": { "availability_zone_id": "", "driver_id": "", "endpoint": "", "flavor_id": "", "network_type": "", "network_virtual_subnet_id": "", "pool_id": "", "project_id": "", "secret_name": "eas-service-secret" } } ] }, { "plugins": [ { "name": "nodelocalvolume" }, { "name": "nodeemptydirvolume" }, { "name": "nodeCSIscheduling" }, { "name": "networkresource" } ] } ] }, "server_cert": "", "server_key": ""} 使用ief配置，示例如下： { "ca_cert": "", "default_scheduler_conf": { "actions": "allocate, backfill", "tiers": [ { "plugins": [ { "name": "priority" }, { "name": "gang" }, { "name": "conformance" } ] }, { "plugins": [ { "name": "drf" }, { "name": "predicates" }, { "name": "nodeorder" } ] }, { "plugins": [ { "name": "cce-gpu-topology-predicate" }, { "name": "cce-gpu-topology-priority" }, { "name": "cce-gpu" }, { "name": "ief", "enableBestNode": true } ] }, { "plugins": [ { "name": "nodelocalvolume" }, { "name": "nodeemptydirvolume" }, { "name": "nodeCSIscheduling" }, { "name": "networkresource" } ] } ] }, "server_cert": "", "server_key": ""}

华为云UCS
华为云UCS-volcano:Prometheus指标采集

Prometheus指标采集 volcano-scheduler通过端口8080暴露Prometheus metrics指标。您可以自建Prometheus采集器识别并通过http://{{volcano-schedulerPodIP}}:{{volcano-schedulerPodPort}}/metrics路径获取volcano-scheduler调度相关指标。 Prometheus指标暴露仅支持volcano插件1.8.5及以上版本。表3 关键指标说明指标名称指标类型描述 Labels e2e_scheduling_latency_milliseconds Histogram 端到端调度时延毫秒（调度算法+绑定） - e2e_job_scheduling_latency_milliseconds Histogram 端到端作业调度时延（毫秒） - e2e_job_scheduling_duration Gauge 端到端作业调度时长 labels=["job_name", "queue", "job_namespace"] plugin_scheduling_latency_microseconds Histogram 插件调度延迟（微秒） labels=["plugin", "OnSession"] action_scheduling_latency_microseconds Histogram 动作调度时延（微秒） labels=["action"] task_scheduling_latency_milliseconds Histogram 任务调度时延（毫秒） - schedule_attempts_total Counter 尝试调度Pod的次数。“unschedulable”表示无法调度Pod，而“error”表示内部调度器问题 labels=["result"] pod_preemption_victims Gauge 选定的抢占受害者数量 - total_preemption_attempts Counter 集群中的抢占尝试总数 - unschedule_task_count Gauge 无法调度的任务数 labels=["job_id"] unschedule_job_count Gauge 无法调度的作业数 - job_retry_counts Counter 作业的重试次数 labels=["job_id"]

华为云UCS
华为云UCS-volcano:Volcano 1.0.0版本升级说明

Volcano 1.0.0版本升级说明 Volcano 1.0.0版本与后续版本不兼容，不支持在控制台升级。如想使用新版本Volcano插件，需要先卸载1.0.0版本，然后再在控制台安装新版本。执行如下命令可以卸载Volcano。 kubectl delete crd jobs.batch.volcano.sh kubectl delete crd commands.bus.volcano.sh

华为云UCS
华为云UCS-volcano:安装插件

安装插件安装Volcano插件，本地集群暂不支持多可用区部署和配置插件实例节点亲和策略。本地集群安装Volcano插件后，创建负载只能通过yaml设置为volcano调度。登录UCS控制台，单击集群名称进入集群，单击左侧导航栏的“插件管理”，找到Volcano，单击“安装”。该插件可配置“单实例”、“高可用”或自定义规格。选择自定义时，volcano-controller和volcano-scheduler的建议值如下：小于100个节点，可使用默认配置，即CPU的申请值为500m，限制值为2000m；内存的申请值为500Mi，限制值为2000Mi。高于100个节点，每增加100个节点（10000个Pod），建议CPU的申请值增加500m，内存的申请值增加1000Mi；CPU的限制值建议比申请值多1500m，内存的限制值建议比申请值多1000Mi。申请值推荐计算公式： CPU申请值：计算“目标节点数 * 目标Pod规模”的值，并在表1中根据“集群节点数 * Pod规模”的计算值进行插值查找，向上取最接近规格的申请值及限制值。例如2000节点和2w个Pod的场景下，“目标节点数 * 目标Pod规模”等于4000w，向上取最接近的规格为700/7w（“集群节点数 * Pod规模”等于4900w），因此建议CPU申请值为4000m，限制值为5500m。内存申请值：建议每1000个节点分配2.4G内存，每1w个Pod分配1G内存，二者叠加进行计算。（该计算方法相比表1中的建议值会存在一定的误差，通过查表或计算均可）即：内存申请值 = 目标节点数/1000 * 2.4G + 目标Pod规模/1w * 1G。例如2000节点和2w个Pod的场景下，内存申请值 = 2 * 2.4G + 2 * 1G = 6.8G 表1 volcano-controller和volcano-scheduler的建议值集群节点数/Pod规模 CPU Request(m) CPU Limit(m) Memory Request(Mi) Memory Limit(Mi) 50/5k 500 2000 500 2000 100/1w 1000 2500 1500 2500 200/2w 1500 3000 2500 3500 300/3w 2000 3500 3500 4500 400/4w 2500 4000 4500 5500 500/5w 3000 4500 5500 6500 600/6w 3500 5000 6500 7500 700/7w 4000 5500 7500 8500 选择插件实例是否多可用区部署。优先模式：优先将插件的Deployment实例调度到不同可用区的节点上，如集群下节点不满足多可用区，插件实例将调度到单可用区。强制模式：插件Deployment实例强制调度到不同可用区的节点上，如集群下节点不满足多可用区，插件实例将无法全部运行。配置插件实例节点亲和策略。指定节点调度：指定插件实例部署的节点，若不指定，将根据集群默认调度策略进行随机调度。自定义亲和策略：填写期望插件部署的节点标签实现更灵活的调度策略，若不填写将根据集群默认调度策略进行随机调度。自定义亲和策略详情请参见调度策略（亲和与反亲和）配置volcano默认调度器配置参数，详情请参见表2。 colocation_enable: ''default_scheduler_conf: actions: 'allocate, backfill' tiers: - plugins: - name: 'priority' - name: 'gang' - name: 'conformance' - name: 'lifecycle' arguments: lifecycle.MaxGrade: 10 lifecycle.MaxScore: 200.0 lifecycle.SaturatedTresh: 1.0 lifecycle.WindowSize: 10 - plugins: - name: 'drf' - name: 'predicates' - name: 'nodeorder' - plugins: - name: 'cce-gpu-topology-predicate' - name: 'cce-gpu-topology-priority' - name: 'cce-gpu' - plugins: - name: 'nodelocalvolume' - name: 'nodeemptydirvolume' - name: 'nodeCSIscheduling' - name: 'networkresource' 表2 Volcano插件配置参数说明插件功能参数说明用法演示 resource_exporter_enable 收集节点numa拓扑信息参数值： true：表示可以查看当前节点的numa拓扑信息。 false：表示关闭当前节点的numa拓扑信息。 - colocation_enable 是否开启混部能力。参数值： true：表示开启混部。 false：表示不开启混部。 - binpack 将Pod调度到资源使用较高的节点以减少资源碎片 binpack.weight：binpack插件本身在所有插件打分中的权重 binpack.cpu：CPU资源在资源比重的比例，默认是1 binpack.memory：memory资源在所有资源中的比例，默认是1 binpack.resources：资源类型。 - plugins: - name: binpack arguments: binpack.weight: 10 binpack.cpu: 1 binpack.memory: 1 binpack.resources: nvidia.com/gpu, example.com/foo binpack.resources.nvidia.com/gpu: 2 binpack.resources.example.com/foo: 3 conformance 跳过关键Pod，比如在kube-system命名空间的Pod，防止这些Pod被驱逐 - - lifecycle 通过统计业务伸缩的规律，将有相近生命周期的Pod优先调度到同一节点，配合autoscaler的水平扩缩容能力，快速缩容释放资源，节约成本并提高资源利用率。 1. 统计业务负载中Pod的生命周期，将有相近生命周期的Pod调度到同一节点 2. 对配置了自动扩缩容策略的集群，通过调整节点的缩容注解，优先缩容使用率低的节点 arguments参数： lifecycle.WindowSize：为int型整数，不小于1，默认为10。记录副本数变更的次数，负载变化规律、周期性明显时可适当调低；变化不规律，副本数频繁变化需要调大。若过大会导致学习周期变长，记录事件过多。 lifecycle.MaxGrade：为int型整数，不小于3，默认为3。副本分档数，如设为3，代表分为高中低档。负载变化规律、周期性明显时可适当调低；变化不规律，需要调大。若过小会导致预测的生命周期不够准确。 lifecycle.MaxScore：为float64浮点数，不小于50.0，默认为200.0。 lifecycle插件的最大得分，等效于插件权重。 lifecycle.SaturatedTresh：为float64浮点数，小于0.5时取值为0.5；大于1时取值为1，默认为0.8。用于判断节点利用率是否过高的阈值，当超过该阈值，调度器会优先调度作业至其他节点。 - plugins: - name: priority - name: gang enablePreemptable: false - name: conformance - name: lifecycle arguments: lifecycle.MaxGrade: 10 lifecycle.MaxScore: 200.0 lifecycle.SaturatedTresh: 1.0 lifecycle.WindowSize: 10 说明：对不希望被缩容的节点，需要手动标记长周期节点，为节点添加volcano.sh/long-lifecycle-node: true的annotation。对未标记节点，lifecycle插件将根据节点上负载的生命周期自动标记。 MaxScore默认值200.0相当于其他插件权重的两倍，当lifecycle插件效果不明显或与其他插件冲突时，需要关闭其他插件，或将MaxScore调大。调度器重启后，lifecycle插件需要重新记录负载的变化状况，需要统计数个周期后才能达到最优调度效果。 gang 将一组Pod看做一个整体去分配资源 - - priority 使用用户自定义负载的优先级进行调度 - - overcommit 将集群的资源放到一定倍数后调度，提高负载入队效率。负载都是deployment的时候，建议去掉此插件或者设置扩大因子为2.0。 overcommit-factor: 扩大因子，默认是1.2 - plugins: - name: overcommit arguments: overcommit-factor: 2.0 drf 根据作业使用的主导资源份额进行调度，用的越少的优先 - - predicates 预选节点的常用算法，包括节点亲和，Pod亲和，污点容忍，node ports重复，volume limits，volume zone匹配等一系列基础算法 - - nodeorder 优选节点的常用算法 nodeaffinity.weight：节点亲和性优先调度，默认值是1 podaffinity.weight：Pod亲和性优先调度，默认值是1 leastrequested.weight：资源分配最少的的节点优先，默认值是1 balancedresource.weight：node上面的不同资源分配平衡的优先，默认值是1 mostrequested.weight：资源分配最多的的节点优先，默认值是0 tainttoleration.weight：污点容忍高的优先调度，默认值是1 imagelocality.weight：node上面有Pod需要镜像的优先调度，默认值是1 selectorspread.weight: 把Pod均匀调度到不同的节点上，默认值是0 volumebinding.weight: local pv延迟绑定调度，默认值是1 podtopologyspread.weight: Pod拓扑调度，默认值是2 - plugins: - name: nodeorder arguments: leastrequested.weight: 1 mostrequested.weight: 0 nodeaffinity.weight: 1 podaffinity.weight: 1 balancedresource.weight: 1 tainttoleration.weight: 1 imagelocality.weight: 1 volumebinding.weight: 1 podtopologyspread.weight: 2 cce-gpu-topology-predicate GPU拓扑调度预选算法 - - cce-gpu-topology-priority GPU拓扑调度优选算法 - - cce-gpu 结合UCS的GPU插件支持GPU资源分配，支持小数GPU配置说明：小数GPU配置的前提条件为UCS集群GPU节点为共享模式，检查集群是否关闭GPU共享，请参见集群配置管理中的enable-gpu-share参数。 - - numaaware numa拓扑调度 weight: 插件的权重 - networkresource 支持预选过滤ENI需求节点，参数由CCE传递，不需要手动配置 NetworkType: 网络类型（eni或者vpc-router类型） - nodelocalvolume 支持预选过滤不符合local volume需求节点 - - nodeemptydirvolume 支持预选过滤不符合emptydir需求节点 - - nodeCSIscheduling 支持预选过滤everest组件异常节点 - - 单击“安装”。

华为云UCS
华为云UCS-volcano:插件简介

插件简介 Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力，通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户。(目前Volcano项目已经在Github开源) Volcano针对计算型应用提供了作业调度、作业管理、队列管理等多项功能，主要特性包括：丰富的计算框架支持：通过CRD提供了批量计算任务的通用API，通过提供丰富的插件及作业生命周期高级管理，支持TensorFlow，MPI，Spark等计算框架容器化运行在Kubernetes上。高级调度：面向批量计算、高性能计算场景提供丰富的高级调度能力，包括成组调度，优先级抢占、装箱、资源预留、任务拓扑关系等。队列管理：支持分队列调度，提供队列优先级、多级队列等复杂任务调度能力。项目开源地址：https://github.com/volcano-sh/volcano

华为云UCS
华为云UCS-更新流量策略:YAML更新流量策略

YAML更新流量策略以检查4分钟内forecast服务实例的访问异常情况为例，连续出现5次访问异常的实例将被隔离10分钟，被隔离的实例不超过30%，在第1次隔离期满后，异常实例将重新接收流量，如果仍然不能正常工作，则会被重新隔离，第2次将被隔离20分钟，以此类推。用户可根据实际需求对参数进行更新。登录UCS控制台，在左侧导航栏中单击“服务网格”。单击服务网格名称，进入详情页。在左侧导航栏，单击“流量治理”下的“流量策略”，进入流量策略列表。选择想要更新的流量策略，单击右侧操作列下的“编辑YAML”，进入“更新流量策略”页面。 YAML设置如下（根据实际需求调整配置参数）： apiVersion: networking.istio.io/v1beta1kind: DestinationRulemetadata: name: forecast namespace: weatherspec: host: forecast trafficPolicy: connectionPool: tcp: maxConnections: 80 connectTimeout: 25ms http: http2MaxRequests: 800 maxRequestsPerConnection: 10 outlierDetection: consecutive5xxErrors: 5 interval: 4m baseEjectionTime: 10m maxEjectionPercent: 30

华为云UCS
华为云UCS-服务网关概述

服务网关概述服务网关是网格的流量入口。网格外部的客户端通过服务网关访问网格内的服务。服务网关描述了外部访问端口、协议和证书等配置。同时，通过在服务网关上配置路由规则可以对网关入口流量进行管理，对于不同的访问协议可以配置不同的路由。图1 服务网关目前默认是基于Kubernetes Gateway API模型实现网关能力，如需要使用原Istio API （如 Gateway 和 VirtualService）能力请参考如何使用Istio API配置网关路由规则。父主题：服务网关

华为云UCS 服务网关
华为云UCS-基于条件的分流:YAML编辑基于条件的分流

YAML编辑基于条件的分流当前数据选择YAML，在编辑栏进行编辑。YAML设置示例如下（根据实际需求调整配置参数）： apiVersion: v1kind: VirtualServicemetadata: name: ratings-routespec: hosts: - ratings.prod.svc.cluster.local http: - match: - headers: end-user: exact: jason uri: prefix: "/ratings/v2/" route: - destination: host: ratings.prod.svc.cluster.local

华为云UCS 更新灰度发布
华为云UCS-管理CronFederatedHPA策略:编辑CronFederatedHPA策略

编辑CronFederatedHPA策略登录UCS控制台，在左侧导航栏中选择“容器舰队”。单击已开通集群联邦的容器舰队名称，进入容器舰队详情页面。在左侧导航栏选择“负载伸缩”，选择“定时伸缩策略”，在需要编辑的策略所在行右侧单击“编辑”，在策略详情页面可以删除或添加策略规则。如需删除策略规则，在规则后单击“删除”即可。如需添加规则，单击策略配置下的“添加规则”，在弹窗内填写相关参数，然后单击“确定”。详细的参数说明请参见表3。修改完成后，单击“确定”。

华为云UCS CronFederatedHPA策略
华为云UCS-为集群添加标签与污点:管理集群标签/污点

管理集群标签/污点登录UCS控制台。单击目标集群所在的容器舰队名称，在左侧导航栏选择“容器集群”，找到目标集群，在右上角单击进入“标签与污点管理”。图1 标签与污点管理单击按钮，设置节点标签/污点。如需执行多项操作，可多次添加，最多支持10条操作。图2 添加标签/污点选择“添加”或“删除”操作。选择操作对象为“K8S标签”或“污点（Taints）”。填写需要增加标签/污点的“键”和“值”。如选择操作对象为“污点（Taints）”，需选择污点效果，关于污点效果说明请参见污点（Taints）说明。单击“确定”，对所选节点执行标签/污点操作。

华为云UCS
华为云UCS-注销本地集群:在控制台注销本地集群

在控制台注销本地集群仅在控制台进行注销操作，不会删除集群。进入 UCS 界面，左侧导航栏选择“容器舰队”。找到待注销的本地集群：已加入容器舰队的本地集群，先进入对应的容器舰队控制台，然后再左侧导航栏选择容器集群。未加入容器舰队的本地集群，单击容器舰队列表最上面的“未加入舰队的集群”即可。单击本地集群右上角的注销按钮，会弹出注销确认框。确认待注销的集群名称等信息，并勾选“我已阅读并知晓上述信息”，单击“确定”即可在控制台注销本地集群。

华为云UCS
华为云UCS-注销本地集群:本地资源清理

本地资源清理该操作可能导致与该集群有绑定关系的资源（比如指定调度集群的负载等）无法正常使用，请谨慎操作，避免对运行中的业务造成影响。在控制台注销并没有真正删除本地集群，您需要手动进入集群内完成删除过程。复制注销之后控制台返回的卸载命令。进入本地集群中的节点内，执行卸载命令。 ./ucs-ctl delete cluster cluster_name cluster_name请替换为集群名称。

华为云UCS
华为云UCS-路由（Ingress）:添加方式

添加方式登录UCS控制台，在左侧导航栏中选择“容器舰队”。在“容器舰队”页签下找到已开通集群联邦的舰队，单击名称进入详情页。在左侧导航栏中选择“服务与路由”，选择“路由”页签。选择需要创建路由的命名空间，并单击右上角“创建路由”。如需新建命名空间，请参见创建命名空间。图1 选择命名空间设置路由配置参数。图2 创建路由 Ingress名称：新增路由的名称，用户可自定义。命名空间：路由所在命名空间。对接nginx：Ingress Controller分为ELB型和Nginx型。UCS支持上述两种Ingress Controller类型，其中ELB Ingress Controller基于弹性负载均衡服务（ELB）实现流量转发；而Nginx Ingress Controller使用Kubernetes社区维护的模板与镜像，通过Nginx组件完成流量转发。 ELB Ingress：不开启“对接nginx”。 Nginx Ingress：单击开启“对接nginx”。在创建Nginx Ingress前应为对应集群安装Nginx Ingress Controller插件，安装插件的具体操作请参见：为CCE集群安装插件请参见通过控制台创建Nginx Ingress。为本地集群安装插件请参见使用L7负载均衡Ingress-nginx。为其他类型集群安装插件请参见开源社区文档Nginx Ingress Controller。监听器配置：选择对外协议，支持HTTP和HTTPS。若对外协议选择HTTPS，请选择IngressTLS类型的服务器证书。若无符合条件的证书，可单击“创建IngressTLS类型的密钥证书”，参考密钥（Secret）创建一个指定类型的密钥证书。 SNI（Server Name Indication）：SNI是TLS的扩展协议，在该协议下允许同一个IP地址和端口号下对外提供多个基于TLS的访问域名，且不同的域名可以使用不同的安全证书。转发策略配置：请求的访问地址与转发规则匹配时（转发规则由域名、URL组成，例如：10.117.117.117:80/helloworld），此请求将被转发到对应的目标Service处理。您可添加多条转发策略。域名：可选项，输入实际访问的域名地址。请确保所填写的域名已注册并备案，一旦配置了域名规则后，必须使用域名访问。 URL：需要注册的访问路径，例如：/healthz。该访问路径需与后端应用暴露的URL一致，否则将返回404错误。目标服务名称：选择服务名称，需要先创建NodePort服务，具体可参考节点访问（NodePort）。目标服务访问端口：选择目标服务后，对应的容器端口将自动获取。部署集群：选择需要部署的集群。图3 添加部署集群 CCE集群：对外端口：开放在负载均衡服务地址的端口，可任意指定。负载均衡器：仅支持集群所在VPC下的负载均衡实例。如果没有可选的负载均衡器实例，请单击“创建负载均衡器”，创建完成后单击刷新按钮。创建Nginx Ingress时，您无需手动选择负载均衡器，在插件安装阶段已经完成负载均衡器的关联。其他云图4 添加部署集群 Ingress Class：支持选择集群内已创建的Ingress Class，或手动输入规划的Ingress Class名称。注解：支持key/value对格式，请您根据自身业务以及厂家要求进行标签配置。如需创建内部负载均衡器，您需要根据集群的云服务商添加相应的注解，请参见内部负载均衡器。单击“确认”。创建成功后可在“路由（Ingress）”页签的列表中查看。获取访问地址。单击左侧导航栏“服务与路由”，选择“路由”页签。单击所添加的Ingress名称进入“路由详情”界面，查看对应的负载均衡器及监听器端口配置。您可以通过负载均衡器的弹性IP地址 + 监听器端口 + URL的形式访问后端负载，例如10.117.117.117:8088/helloworld。

华为云UCS 服务与路由
华为云UCS-路由（Ingress）:相关操作

相关操作通过UCS控制台，您还可以执行表1中的操作。表1 相关操作操作说明 YAML创建单击右上角“YAML创建”，可使用已有的YAML创建路由。查看详情选择路由所在的命名空间。（可选）根据路由名称进行搜索。单击路由名称即可查看路由详情，包括基本信息以及各集群的部署信息。在路由详情页的部署集群栏中单击“查看YAML”，可查看各个集群中部署的路由实例YAML，并支持下载。编辑YAML 单击路由名称后的“编辑YAML”，可查看并编辑当前路由的YAML文件。更新单击路由名称后的“更新”。根据路由参数更改信息。单击“确认”提交已修改的信息。删除单击路由名称后的“删除”，并单击“是”进行确认。批量删除勾选需要删除的路由。单击左上角的“批量删除”。单击“是”进行确认。

华为云UCS 服务与路由
华为云UCS-节点访问（NodePort）:创建工作负载后设置

创建工作负载后设置登录UCS控制台，在左侧导航栏中选择“容器舰队”。在“容器舰队”页签下找到已开通集群联邦的舰队，单击名称进入详情页。在左侧导航栏中选择“服务与路由”，选择“服务”页签。选择服务所在命名空间，并单击右上角“创建服务”。如需新建命名空间，请参见创建命名空间。设置访问参数。图1 创建服务 Service名称：自定义服务名称，可与工作负载名称保持一致。访问类型：选择“节点访问 NodePort”。服务亲和：集群级别：集群下所有节点的IP+访问端口均可以访问到此服务关联的负载，服务访问会因路由跳转导致一定性能损失，且无法获取到客户端源IP。节点级别：只有通过负载所在节点的IP+访问端口才可以访问此服务关联的负载，服务访问没有因路由跳转导致的性能损失，且可以获取到客户端源IP。端口配置：协议：TCP或UDP，请根据业务的协议类型选择。服务端口：容器端口映射到集群虚拟IP上的端口，用虚拟IP访问应用时使用，端口范围为1-65535，可任意指定。容器端口：容器镜像中应用程序实际监听的端口，需用户确定。例如：nginx程序实际监听的端口为80。节点端口：容器端口映射到节点私有IP上的端口，用私有IP访问应用时使用，端口范围为30000-32767，建议选择“自动生成”。自动生成：系统会自动分配端口号。指定端口：指定固定的节点端口，默认取值范围为30000-32767。若指定端口时，请确保同个集群内的端口唯一性。命名空间：服务所在命名空间。选择器：服务通过选择器与负载（标签）关联。单击“引用负载标签”，可选择已有的工作负载。负载类型：选择需要关联的负载类型。工作负载：选择一个已有的工作负载。如工作负载列表未显示，请单击刷新。标签：选择工作负载后自动获取对应的标签，不可修改。图2 引用负载标签单击“确认”。创建成功后可在“服务”页签的列表中查看。获取访问地址。单击左侧导航栏“服务与路由”，选择“服务”页签。单击所添加的Service名称进入“服务详情”界面，获取部署集群的访问地址。如果集群下节点有绑定弹性IP，则可以通过集群下关联实例所在节点弹性IP地址 + 节点端口的形式访问后端负载。

华为云UCS 服务（Service）
华为云UCS-节点访问（NodePort）:创建工作负载时设置

创建工作负载时设置创建Deployment、StatefulSet、DaemonSet等不同类型的工作负载时添加Service的方法一致。参考创建无状态负载、创建有状态负载或创建守护进程集，在服务配置步骤，单击，进行工作负载服务配置。 Service名称：自定义服务名称，取值范围为1-50字符。访问类型：选择“节点访问 NodePort”。服务亲和：集群级别：集群下所有节点的IP+访问端口均可以访问到此服务关联的负载，服务访问会因路由跳转导致一定性能损失，且无法获取到客户端源IP。节点级别：只有通过负载所在节点的IP+访问端口才可以访问此服务关联的负载，服务访问没有因路由跳转导致的性能损失，且可以获取到客户端源IP。端口配置：协议：TCP或UDP，请根据业务的协议类型选择。服务端口：容器端口映射到集群虚拟IP上的端口，用虚拟IP访问应用时使用，端口范围为1-65535，可任意指定。容器端口：容器镜像中应用程序实际监听的端口，需用户确定。例如：nginx程序实际监听的端口为80。节点端口：容器端口映射到节点私有IP上的端口，用私有IP访问应用时使用，端口范围为30000-32767，建议选择“自动生成”。自动生成：系统会自动分配端口号。指定端口：指定固定的节点端口，默认取值范围为30000-32767。若指定端口时，请确保同个集群内的端口唯一性。设置完成后，单击“确认”。单击“下一步：调度与差异化”，进行集群调度与差异化配置。设置完成后，单击“创建工作负载”完成创建。获取访问地址。单击左侧导航栏“服务与路由”，选择“服务”页签。单击所添加的Service名称进入“服务详情”界面，获取部署集群的访问地址。如果集群下节点有绑定弹性IP，则可以通过集群下关联实例所在节点弹性IP地址 + 节点端口的形式访问后端负载。

华为云UCS 服务（Service）
华为云UCS-节点访问（NodePort）:相关操作

相关操作通过UCS控制台，您还可以执行表1中的操作。表1 相关操作操作说明 YAML创建单击右上角“YAML创建”，可使用已有的YAML创建服务。查看详情选择服务所在的命名空间。（可选）根据服务名称进行搜索。单击服务名称即可查看服务详情，包括基本信息以及各集群的部署信息。在服务详情页的部署集群栏中单击“查看YAML”，可查看各个集群中部署的服务实例YAML，并支持下载。编辑YAML 单击服务名称后的“编辑YAML”，可查看并编辑当前服务的YAML文件。更新单击服务名称后的“更新”。根据访问参数更改信息。单击“确认”提交已修改的信息。删除单击服务名称后的“删除”，并单击“是”进行确认。批量删除勾选需要删除的服务。单击左上角的“批量删除”。单击“是”进行确认。

华为云UCS 服务（Service）
华为云UCS-设置容器规格:使用示例

使用示例以集群包含一个资源为4Core 8GB的节点为例，已经部署一个包含两个实例的工作负载到该集群上，并设置两个实例（实例1，实例2）的资源为{CPU申请，CPU限制，内存申请，内存限制}={1Core，2Core，2GB，2GB}。那么节点上CPU和内存的资源使用情况如下：节点CPU可分配量=4Core-（实例1申请的1Core+实例2申请的1Core）=2Core 节点内存可分配量=8GB-（实例1申请的2GB+实例2申请的2GB）=4GB 因此节点还剩余2Core 4GB的资源可供下一个新增的实例使用。

华为云UCS
华为云UCS-设置容器规格:配置说明

配置说明 CPU配额：表1 CPU配额说明参数说明 CPU申请容器使用的最小CPU需求，作为容器调度时资源分配的判断依赖。只有当节点上可分配CPU总量 ≥ 容器CPU申请数时，才允许将容器调度到该节点。 CPU限制容器能使用的CPU最大值。建议配置方法：节点的实际可用分配CPU量 ≥ 当前实例所有容器CPU限制值之和 ≥ 当前实例所有容器CPU申请值之和，节点的实际可用分配CPU量请在“集群管理”中对应集群的“节点管理”页面下查看。内存配额：表2 内存配额说明参数说明内存申请容器使用的最小内存需求，作为容器调度时资源分配的判断依赖。只有当节点上可分配内存总量 ≥ 容器内存申请数时，才允许将容器调度到该节点。内存限制容器能使用的内存最大值。当内存使用率超出设置的内存限制值时，该实例可能会被重启进而影响工作负载的正常使用。建议配置方法：节点的实际可用分配内存量 ≥ 当前节点所有容器内存限制值之和 ≥ 当前节点所有容器内存申请值之和，节点的实际可用分配内存量请在“集群管理”中对应集群的“节点管理”页面下查看。可分配资源：可分配量按照实例请求值(request)计算，表示实例在该节点上可请求的资源上限，不代表节点实际可用资源。计算公式为：可分配CPU = CPU总量 - 所有实例的CPU请求值 - 其他资源CPU预留值可分配内存 = 内存总量 - 所有实例的内存请求值 - 其他资源内存预留值

华为云UCS
华为云UCS-kubectl配置指南:获取AK/SK

获取AK/SK AK(Access Key ID)：访问密钥ID。与私有访问密钥关联的唯一标识符；访问密钥ID和私有访问密钥一起使用，对请求进行加密签名。 SK(Secret Access Key)：与访问密钥ID结合使用的密钥，对请求进行加密签名，可标识发送方，并防止请求被修改。登录管理控制台。单击用户名，在下拉列表中单击“我的凭证”。在“我的凭证”页面，单击“访问密钥”页签。单击“新增访问密钥”，输入验证码。单击“确定”，生成并下载访问密钥。为防止访问密钥泄露，建议您将其保存到安全的位置。

华为云UCS 使用kubectl连接网格控制面
华为云UCS-kubectl配置指南:非安全环境配置kubectl

非安全环境配置kubectl 参照上述操作，安装并设置kubectl。编辑KubeConfig文件，删除敏感信息参数。 Linux系统，KubeConfig文件默认位于$HOME/.kube/config。表2 待删除敏感信息参数 Command Flag Environment Value Description --domain-name DOMAIN_NAME 租户名 --user-name USER_NAME 子用户名 --password PASSWORD 用户密码 --ak AC CES S_KEY_ID Access Key --sk SECRET_ACCESS_KEY Secret Key --cache CREDENTIAL_CACHE 是否开启缓存Token 更多参数说明请参见asm-iam-authenticator使用参考。配置删除参数相应的环境变量来使用kubectl，以CREDENTIAL_CACHE为例，其他环境变量如ACCESS_KEY_ID和SECRET_ACCESS_KEY可参考CREDENTIAL_CACHE进行配置。 export CREDENTIAL_CACHE=false 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。 kubectl get serviceentry -n xxx 执行上述命令后，提示如下类似信息：

华为云UCS 使用kubectl连接网格控制面
华为云UCS-kubectl配置指南:获取网格实例Endpoint

获取网格实例Endpoint 登录华为云UCS控制台，左侧菜单栏选择“服务网格”。 F12打开浏览器console切换到“网络”标签页，单击服务网格列表页右上角小刷新按钮，找到meshes接口，单击“预览”标签页，找到对应网格的返回体，找到status.meshEndpoint.vpcEndpointServiceName字段后复制。登录 VPC终端节点 VPCEP，左侧菜单栏选择“终端节点”，找到终端节点服务名称为步骤2获取到的对应的终端节点，单击进入获取到节点IP。 ASM在您创建网格时选择的枢纽VPC创建终端节点，并将该终端节点连接到网格控制面apiserver，来打通访问网格控制面的网络。更多信息请参考1.2-操作步骤中VPC解释。

华为云UCS 使用kubectl连接网格控制面
华为云UCS-kubectl配置指南:安装并设置kubectl

安装并设置kubectl 以下操作以Linux环境为例，更多详情信息请参见安装和配置kubectl。 1、以下步骤需要在UCS网格接入集群纳管的节点上操作。 2、以下步骤2执行asm-iam-authenticator generate-kubeconfig命名后会更新节点默认配置的config内容，建议执行以下命令备份config文件。 cp $HOME/.kube/config $HOME/.kube/config.backup 将下载kubectl中下载的kubectl赋予可执行权限，并放到PATH目录下。 chmod +x ./kubectl mv ./kubectl $PATH 其中，$PATH为PATH路径（如/usr/local/bin），请替换为实际的值。您还可以通过如下命令查看kubectl的版本，如下所示。 kubectl version --client=true Client Version: version.Info{Major:"1", Minor:"25", GitVersion:"v1.25.3", GitCommit:"434bfd82814af038ad94d62ebe59b133fcb50506", GitTreeState:"clean", BuildDate:"2022-10-12T10:57:26Z", GoVersion:"go1.19.2", Compiler:"gc", Platform:"linux/amd64"}Kustomize Version: v4.5.7 配置 IAM 认证信息并持久化到本地。将下载asm-iam-authenticator中下载的asm-iam-authenticator赋予可执行权限，并放到PATH目录下。 chmod +x ./asm-iam-authenticator mv ./asm-iam-authenticator $PATH 初始化asm-iam-authenticator配置。初始化asm-iam-authenticator提供了AK/SK和用户名/密码两种方式，请选择其中一种执行。使用AK/SK的方式配置IAM认证信息 asm-iam-authenticator generate-kubeconfig --iam-endpoint=https://$iam_endpoint --mesh-endpoint=https://$mesh_endpoint --mesh-region=$mesh_region --ak=xxxxxxx --sk=xxxxxx 其中， iam_endpoint为IAM服务的Endpoint，请参见地区和终端节点 mesh_endpoint为网格实例的Endpoint，获取方法请参见获取网格实例Endpoint； mesh_region为网格所在区域； ak、sk的获取方法请参见获取AK/SK，ak为文件中Access Key部分，sk为文件中Secret Key部分。例如，iam_endpoint为https://iam.cn-north-4.myhuaweicloud.com，mesh_endpoint为https://xx.xx.xx.xx:5443, mesh_region为cn-north-4, ak的值为my-ak，sk的值为ABCDEFAK.. ，则命令如下所示： asm-iam-authenticator generate-kubeconfig --iam-endpoint=https://iam.cn-north-4.myhuaweicloud.com --mesh-endpoint=https://xx.xx.xx.xx:5443 --mesh-region=cn-north-4 --ak=my-ak --sk=ABCDEFAK.. 执行上述命令后，显示如下类似信息： Switched to context "asm-context-cn-north-4-my-ak" 其中，asm-context-cn-north-4-my-ak为context名，可通过kubectl config get-contexts命令查看。使用用户名/密码的方式配置IAM认证信息 asm-iam-authenticator generate-kubeconfig --iam-endpoint=https://$iam_endpoint --mesh-endpoint=https://$mesh_endpoint --mesh-region=$mesh_region --domain-name=xxxxxxx --user-name=xxxxxx --password='xxxxxx' 其中，iam_endpoint为IAM服务的Endpoint，请参见地区和终端节点， mesh_endpoint为网格实例的Endpoint，获取方法请参见获取网格实例Endpoint； mesh_region为网格所在区域； domain-name为租户名，user-name为子用户名，password为子用户密码，请根据替换为实际的值。若无子用户，user-name与domain-name配置一致即可，也可以不添加user-name参数。 IAM的Endpoint请参见地区和终端节点，请注意需要使用与网格实例地区相同的Endpoint。在非安全的环境中使用kubectl，建议您完成此步骤后，使用环境变量的方式重新配置认证信息，具体参考非安全环境配置kubectl。配置完成后，即可通过kubectl命令操作网格实例的相关资源。例如，查看北京四的namespace资源。 kubectl get serviceentry -n xxx 执行上述命令后，提示如下类似信息：当通过API访问公有云系统时，需要使用访问用户名密码或者密钥（AK/SK）进行身份认证并对请求进行加密，确保请求的机密性、完整性和请求双方身份的正确性。请妥善保存$HOME/.kube/config配置文件，确保访问密钥不被非法使用。当开启cache缓存token提高访问性能时，token会以文件的方式保存在$HOME/.asm/cache的子目录下，请及时清理。当发现访问密钥被非法使用（包括丢失、泄露等情况），可以自行删除或者通知管理员重置访问密钥，重新配置。删除的访问密钥将无法恢复。

华为云UCS 使用kubectl连接网格控制面
华为云UCS-kubectl配置指南:下载asm-iam-authenticator

下载asm-iam-authenticator 在ASM官网下载asm-iam-authenticator二进制，最新版本为v1.0.0，下载地址如表1所示。表1 下载地址操作系统下载地址查看帮助 Linux AMD 64位 asm-iam-authenticator_linux-amd64 asm-iam-authenticator_linux-amd64_sha256 asm-iam-authenticator使用参考

华为云UCS 使用kubectl连接网格控制面
华为云UCS-k8sexternalips:不符合策略实例的资源定义

不符合策略实例的资源定义 externalIPs中的IP不为允许列表中的IP，不符合策略实例。 apiVersion: v1kind: Servicemetadata: name: disallowed-external-ipspec: selector: app: MyApp ports: - name: http protocol: TCP port: 80 targetPort: 8080 externalIPs: - 1.1.1.1

华为云UCS
华为云UCS-k8sexternalips:策略实例示例

策略实例示例服务的externalIP仅允许allowedIPs中定义的IP。 apiVersion: constraints.gatekeeper.sh/v1beta1kind: K8sExternalIPsmetadata: name: external-ipsspec: match: kinds: - apiGroups: [""] kinds: ["Service"] parameters: allowedIPs: - "203.0.113.0"

华为云UCS
华为云UCS-k8sexternalips:符合策略实例的资源定义

符合策略实例的资源定义 externalIPs中的IP为允许列表中的IP，符合策略实例。 apiVersion: v1kind: Servicemetadata: name: allowed-external-ipspec: selector: app: MyApp ports: - name: http protocol: TCP port: 80 targetPort: 8080 externalIPs: - 203.0.113.0

华为云UCS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！