AI推理与在线服务:提供低延迟、按需分配的算力支持,保障推理任务的实时性与服务可用性。 资源隔离环境:通过vNPU管理实现资源粒度划分,满足多用户场景下的算力隔离与配额控制。 训练任务监控与资源优化:通过指标采集与可视化分析,实现训练任务性能监控与资源调优。
方法2:通过虚拟私有云服务的查询子网列表接口查询。 链接请参见查询子网列表。
方法2:通过虚拟私有云服务的查询子网列表接口查询。 链接请参见查询子网列表。
Helm v2与Helm v3的差异及适配方案 随着Helm v2 发布最终版本Helm 2.17.0,Helm v3 现在已是 Helm 开发者社区支持的唯一标准。为便于管理,建议用户尽快将模板切换至Helm v3格式。 当前社区从Helm v2演进到Helm v3,主要有以下变化
登录CCE控制台,进入集群,在左侧选择“节点管理”,单击节点后的“同步云服务器”。 登录目标节点。 使用lsblk命令查看节点块设备信息。 这里存在两种情况,根据容器存储Rootfs而不同。
关于节点关机后的费用说明,请参见弹性云服务器关机后还会计费吗。 唤醒按需计费集群:集群唤醒后,费用恢复正常。 集群休眠 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要休眠的集群,查看集群的更多操作,并单击“休眠集群”。
选择左侧导航栏的“服务”,在右侧选择“路由”页签,单击对应路由“更多 > 更新”选项。 当路由监听器配置与ELB不一致时,将提供同步选项。单击“刷新”,即可自动同步存在差异的监听器配置。 父主题: ELB Ingress管理
Endpoint Web服务入口点的URL,可以从终端节点(Endpoint)中获取。 uri 资源路径,也即API访问路径。从具体接口的URI模块获取,请参见Kubernetes API。 获取集群所在区域的Token,获取方式请参见获取Token。 获取集群ID。
社区经过思考之后,定义了一套标准的Metrics API,通过聚合API对外提供服务。 metrics.k8s.io: 主要提供Pod和Node的CPU和Memory相关的监控指标。
须知: 在CCE Turbo集群中,如果使用独享型ELB对接到工作负载,则最大实例数不能超过ELB的后端服务器组配额(默认为500),否则将会导致多余的实例无法添加到ELB后端。 冷却时间 请输入冷却时间值,单位为分钟。
登录CCE节点(弹性云服务器)并删除cpu_manager_state文件。
按需节点转包年/包月 按需计费节点绑定的资源(云硬盘、弹性公网IP)可能不支持同步变更计费模式,详情请参见弹性云服务器ECS按需转包年/包月说明。 按需节点池中的节点转成包年/包月时,请在节点列表中找到目标节点并单击“更多>开启节点缩容保护”,然后再进行转包年/包月操作。
容器镜像服务支持使用Docker 1.11.2及以上版本上传镜像。 安装Docker、构建镜像建议使用root用户进行操作,请提前获取待安装docker机器的root用户密码。 以root用户登录待安装Docker的机器。
GPU虚拟化服务的隔离功能不支持以UVM的方式申请显存,即调用CUDA API cudaMallocManaged(),更多信息,请参见NVIDIA官方文档。请使用其他方式申请显存,例如调用cudaMalloc()等。
展示所有集群升级前检查项详情),EvsSnapshot(使用EVS快照备份集群), LabelForSkippedNode(支持为集群升级过程中跳过的节点打标签), UpgradeStrategy(集群升级策略) Value: Support 支持,Disable 关闭,Default 使用CCE服务默认规则判断
支持的操作系统 Snt3(ascend-snt3) EulerOS 2.5 x86、CentOS 7.6 x86、EulerOS 2.9 x86、EulerOS 2.8 arm 说明: Snt3 ARM机型最高支持至EulerOS 2.8 arm,且该操作系统已EOS,具体请参见镜像停止服务与支持计划
GPU弹性伸缩 GPU故障处理 当GPU资源出现故障时,CCE集群会及时上报事件,并根据事件信息提供单GPU故障隔离功能,确保其他正常GPU继续提供服务,最大限度降低业务影响。
OpenKruise是CCE基于开源软件进行适配并集成的精选开源插件,CCE将提供全面的技术支持服务。然而,CCE不承担因开源软件缺陷导致的业务损失责任,也不承担赔偿或额外的服务,强烈建议用户定期升级软件以修复潜在问题。 安装步骤 登录CCE控制台,单击集群名称进入集群。
通过ICAgent采集容器日志(不推荐) CCE支持收集工作负载的日志上报至AOM 1.0,在创建节点时会默认安装ICAgent组件(在集群kube-system命名空间下名为icagent的DaemonSet),ICAgent负责收集工作负载的日志并上报到AOM 1.0,您可以在
该方式通过BoundServiceAccountTokenVolume特性实现,能够提升服务账号(ServiceAccount)Token的安全性,Kubernetes 1.21及以上版本的集群中会默认开启。