检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
NPU虚拟化具有以下优势: 资源高效利用:单台服务器的NPU可被划分为多个vNPU,供不同用户按需申请,降低算力使用成本。 资源强隔离:基于容器化技术,确保不同用户的vNPU资源完全隔离,避免计算干扰或数据泄露。 统一管理:不同规格资源的分配和回收处理过程统一,方便多租户管理。
集群诊断 云容器引擎CCE服务提供一键集群诊断能力,包括集群诊断、节点诊断、工作负载诊断、核心插件诊断和外部依赖诊断,可以辅助您定位集群中出现的问题。本文介绍如何在集群中使用集群诊断功能。 前提条件 已获取资源权限。 集群版本高于v1.17。 集群处于“运行中”状态。
约束与限制 调度大量工作负载的场景下,Volcano会打印较多的日志,建议搭配日志服务使用,否则可能导致日志过多占满所在节点磁盘。
查看节点对应的弹性云服务器是否已绑定弹性IP或者配置NAT网关。 如图1,若弹性IP一栏有IP地址,表示已绑定弹性IP;若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP 排查项二:节点是否配置网络ACL 登录VPC控制台。
集群管理(IAM)权限:云服务层面的权限,用于管理CCE集群与周边资源(如VPC、ELB、ECS等)的操作。
您可以方便地使用CCE 云原生日志采集插件采集应用日志并上报LTS,从而更好地利用LTS日志服务提供给您的各种日志统计分析等功能。具体操作,请参见通过云原生日志采集插件采集容器日志。 支持收集容器日志到应用运维管理服务AOM 1.0(由于AOM 1.0即将下线,不推荐使用)。
例如,缓存服务经常受限于内存大小,而且可以将不常用的数据转移到比内存慢的存储中,对总体性能的影响并不大。另有些应用程序需要以文件形式注入的只读数据,比如配置数据或密钥。 Kubernetes中的临时卷(Ephemeral Volume),就是为此类场景设计的。
选择GPU节点驱动版本 使用GPU加速型云服务器时,需要安装正确的Nvidia基础设施软件,才可以使用GPU实现计算加速功能。在使用GPU前,您需要根据GPU型号,选择兼容配套软件包并安装。 本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。
集群弹性伸缩配置 弹性扩容配置 CCE集群弹性引擎将综合判断整集群的资源情况,当微服务负载高(CPU/内存使用率过高)时水平扩容,增加Pod的数量以降低负载。 节点扩容条件 负载无法调度时自动扩容:集群中存在负载实例无法调度时,尝试自动扩容已开启弹性伸缩的节点池。
nginx_ingress_controller_header_duration_seconds 基础指标 从上游服务器接收第一个报头所花费的时间 nginx_ingress_controller_ingress_upstream_latency_seconds 基础指标 上游服务时延
创建集群外部访问的Ingress时,可使用ELB对接ClusterIP服务,直接将Pod作为ELB监听器的后端服务器,外部流量可以不经过节点端口转发而直接访问集群中的Pod。
kubectl get ingress 回显如下,表示Ingress服务创建成功。
在线作业:一般运行时间长,服务流量呈周期性,资源存在潮汐现象,但对服务SLA要求较高,如广告业务、电商业务等。 离线作业:往往运行时间短,计算需求大,可容忍较高的时延,如AI/大数据业务。
华为云AOM云服务基于Prometheus监控生态,提供了托管式的Prometheus实例 for CCE,适合需要对容器服务集群及其上面运行的应用进行一体化监控场景。
kubectl get ingress 回显如下,表示Ingress服务创建成功。
您需要获取数据库的配置文件,如下“服务器地址”、“数据库名称”、“数据库登录用户名”和“数据库登录密码”将通过环境变量方式注入。
页面跳转至弹性云服务器详情页中,单击右上角的“关机”,在弹出的关机窗口中单击“确定”,即可完成关机操作。 图1 弹性云服务器详情页 父主题: 管理节点
符合标准文件协议:用户可以将文件系统挂载给服务器,像使用本地文件目录一样。 数据共享:多台服务器可挂载相同的文件系统,数据可以共享操作和访问。 私有网络:数据访问必须在数据中心内部网络中。 容量与性能:单文件系统容量较高(PB级),性能极佳(IO读写时延ms级)。
低成本 只按照实际用量收取云服务器费用。
若您需要对除CCE之外的其它服务授权,IAM支持服务的所有策略请参见系统权限。