云服务器内容精选

  • Binpack功能介绍 Binpack调度算法的目标是尽量把已有的节点填满(即尽量不往空白节点分配)。具体实现上,Binpack调度算法为满足调度条件的节点打分,节点的资源利用率越高得分越高。Binpack算法能够尽可能填满节点,将应用负载靠拢在部分节点,这非常有利于集群节点的自动扩缩容功能。 Binpack为调度器的多个调度插件之一,与其他插件共同为节点打分,用户可以自定义该插件整体权重和各资源维度打分权重,用以提高或降低Binpack在整体调度中的影响力。调度器在计算Binpack策略得分时,会考虑Pod请求的各种资源,如:CPU、Memory和GPU等扩展资源,并根据各种资源所配置的权重做平均。
  • Binpack算法原理 Binpack在对一个节点打分时,会根据Binpack插件自身权重和各资源设置的权重值综合打分。首先,对Pod请求资源中的每类资源依次打分,以CPU为例,CPU资源在待调度节点的得分信息如下: CPU.weight * (request + used) / allocatable 即CPU权重值越高,得分越高,节点资源使用量越满,得分越高。Memory、GPU等资源原理类似。其中: CPU.weight为用户设置的CPU权重 request为当前pod请求的CPU资源量 used为当前节点已经分配使用的CPU量 allocatable为当前节点CPU可用总量 通过Binpack策略的节点总得分如下: binpack.weight * (CPU.score + Memory.score + GPU.score) / (CPU.weight+ Memory.weight+ GPU.weight) * 100 即binpack插件的权重值越大,得分越高,某类资源的权重越大,该资源在打分时的占比越大。其中: binpack.weight为用户设置的装箱调度策略权重 CPU.score为CPU资源得分,CPU.weight为CPU权重 Memory.score为Memory资源得分,Memory.weight为Memory权重 GPU.score为GPU资源得分,GPU.weight为GPU权重 图1 Binpack策略示例
  • 配置Volcano节点池软亲和调度策略 在节点池上配置用于亲和调度的标签。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 单击节点池名称后的“更新”,在弹出的“更新节点池”页面中配置参数,在“K8s标签”中配置对应的标签。 示例如下: 单击左侧导航栏的“插件中心”,在右侧找到Volcano调度器,单击“安装”或“编辑”,并在“参数配置”中设置Volcano调度器配置参数。 { "ca_cert": "", "default_scheduler_conf": { "actions": "allocate, backfill, preempt", "tiers": [ { "plugins": [ { "name": "priority" }, { "name": "gang" }, { "name": "conformance" } ] }, { "plugins": [ { "name": "drf" }, { "name": "predicates" }, { "name": "nodeorder" } ] }, { "plugins": [ { "name": "cce-gpu-topology-predicate" }, { "name": "cce-gpu-topology-priority" }, { "name": "cce-gpu" }, { // 开启节点池亲和性调度 "name": "nodepoolaffinity", // 节点池亲和性调度权重及标签设置 "arguments": { "nodepoolaffinity.weight": 10000, "nodepoolaffinity.label": "nodepool1=nodepool1" } } ] }, { "plugins": [ { "name": "nodelocalvolume" }, { "name": "nodeemptydirvolume" }, { "name": "nodeCSIscheduling" }, { "name": "networkresource" } ] } ] }, "server_cert": "", "server_key": "" } 完成以上配置后,单击“确定”。
  • 调度优先级介绍 节点池软亲和调度,是通过节点池上的标签(Label)进行软亲和,具体是通过给每一个节点进行打分的机制来排序筛选最优节点。 原则:尽可能把Pod调度到带有相关标签的节点上。 打分公式如下: score = weight * MaxNodeScore * haveLabel 参数说明: weight:节点池软亲和plugin的权重。 MaxNodeScore:节点最大得分,值为100。 haveLabel:节点上是否存在插件中配置的label,如果有,值为1,如果节点上没有,值为0。
  • 如何使节点CPU、内存的真实负载趋于均衡 工作负载运行过程中,真实消耗的CPU和内存存在大的波动,通过工作负载request资源无法准确评估的场景中,希望调度器可以结合集群内节点CPU、内存的负载情况,将Pod优先调度到负载较低的节点,实现节点负载均衡,避免出现因单个节点负载过高而导致的应用程序或节点故障。 配置案例1 开启负载感知调度策略,使用默认权重值5。插件详情与配置方法请参见负载感知调度。 关闭装箱调度策略(binpack)。插件详情与配置方法请参见装箱调度(Binpack)。 配置建议如下: 优先确保各节点CPU资源负载趋于均衡:建议提高负载感知调度的CPU权重为5, 内存权重保持为1。 优先确保各节点的内存资源负载趋于均衡:建议提高负载感知调度的内存权重为5,CPU权重保持为1。 真实负载阈值生效方式与CPU真实负载阈值和内存真实负载阈值联合生效: 硬约束场景: 节点CPU真实利用率超过CPU真实负载阈值后,该节点不允许调度新的工作负载。 节点内存真实利用率超过内存真实负载阈值后,该节点不允许调度新的工作负载。 软约束场景: 节点CPU真实利用率超过CPU真实负载阈值后,尽可能不向该节点调度新的工作负载。 节点内存真实利用率超过内存真实负载阈值后,尽可能不向该节点调度新的工作负载。 希望集群内各节点的负载趋于均衡,同时希望尽可能提升集群资源利用率的场景:可以设置真实负载阈值生效方式为软约束,CPU真实负载阈值和内存真实负载阈值使用默认值80。 希望优先确保工作负载的稳定性,降低热点节点CPU、内存压力的场景:可以设置真实负载阈值生效方式为硬约束,CPU真实负载阈值和内存真实负载阈值在60~80之间设置。 配置案例2 随着集群状态,工作负载流量与请求的动态变化,节点的利用率也在实时变化,集群有可能会再次出现负载极端不均衡的情况,在业务Pod允许被驱逐重新调度的场景中,通过负载感知和热点打散重调度结合使用,可以获得集群最佳的负载均衡效果。关于热点打散重调度能力的使用请参见重调度(Descheduler)。 开启负载感知调度策略,使用默认权重值5。插件详情与配置方法请参见负载感知调度。 开启重调度能力,完成负载感知重调度策略配置。插件详情与配置方法请参见重调度(Descheduler)。 关闭装箱调度策略(binpack)。插件详情与配置方法请参见装箱调度(Binpack)。 配置建议如下: 负载感知重调度策略配置推荐 高负载节点驱逐pod的阈值信息targetThreshold:cpu为75、memory为70。 低负载节点承接pod的阈值信息thresholds:cpu为30、memory为30。 负载感知调度的真实负载阈值应介于重调度高负载节点与低负载节点阈值之间 CPU真实负载阈值 65 内存真实负载阈值 60
  • 如何减少节点资源碎片,提高集群资源利用率 集群中存在大作业(request资源量较大)和小作业(request资源量较少)混合提交并运行,希望小作业可以优先填满集群各节点的资源碎片,将空闲的节点资源优先预留给大作业运行,避免大作业由于节点资源不足长时间无法调度。 开启装箱策略(binpack),使用默认权重值10。插件详情与配置方法请参见装箱调度(Binpack)。 配置建议如下: 优先减少集群中的CPU资源碎片:建议提高binpack策略中的CPU权重为5,Memory权重保持为1。 优先减少集群中的Memory资源碎片:建议提高binpack策略中的Memory权重为5,CPU权重保持为1。 优先减少集群中的GPU资源碎片:建议自定义资源类型(GPU),并设置GPU资源权重为10,CPU权重保持为1,Memory权重保持为1。
  • 节点优选调度策略介绍 Volcano插件支持的节点调度策略如下: 调度策略 参数 说明 使用指导 装箱调度(binpack) binpack.weight 装箱策略,开启后默认值是 10 装箱调度(Binpack) 兼容kube-scheduler节点排序策略(nodeorder) nodeaffinity.weight 节点亲和性优先调度,默认值是2。 默认开启 podaffinity.weight Pod亲和性优先调度,默认值是2。 leastrequested.weight 资源分配最少的节点优先,默认值是1。 balancedresource.weight 节点上面的不同资源分配平衡的优先,默认值是1。 mostrequested.weight 资源分配最多的节点优先,默认值是0。 tainttoleration.weight 污点容忍高的优先调度,默认值是3。 imagelocality.weight 节点上面有Pod需要镜像的优先调度,默认值是1。 selectorspread.weight 把Pod均匀调度到不同的节点上,默认值是0。 podtopologyspread.weight Pod拓扑调度,默认值是2。 numa亲和性调度(numa-aware) weight numa亲和性调度,开启后默认值是 1。 NUMA亲和性调度 负载感知调度(usage) weight 负载感知调度,开启后默认值是 5 负载感知调度 节点池亲和性调度(nodepoolaffinity) nodepoolaffinity.weight 节点池亲和调度,开启后默认是 10000 节点池亲和性调度