使用Prometheus监控CCE集群指标 AOM基于Prometheus监控生态,提供了托管式的CCE类型Prometheus实例 ,适合需要对容器服务集群及其上面运行的应用进行一体化监控场景。
告警管理使用说明 告警是指AOM自身或外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。
当前仅default类型、CCE类型、云服务类型、ECS类型、通用实例类型的Prometheus实例支持。 存储时长 AOM支持在Prometheus实例的“存储时长”中配置Prometheus实例的指标存储时长。
在右上角的搜索框中输入关键字,单击后在下面任务列表显示匹配对象。 隐藏/显示任务列表的列信息 单击,根据需要勾选/取消勾选对应列,可在任务列表中显示/隐藏该列。 刷新任务列表 单击,可刷新任务列表。 父主题: 运维管理
主机监控 主机包括弹性云服务器(ECS)、裸金属服务器(BMS)。
前提条件 CCE服务已拥有CCE集群,已安装MongoDB。 服务已接入可观测Prometheus监控并接入CCE集群,具体请参见Prometheus实例 for CCE。 已将mongodb_exporter镜像上传到SWR,具体操作请参见使用容器引擎客户端上传镜像。
只要监控对象满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警中心 > 告警列表”,在告警列表中查看该告警。只要某个主机满足已设的通知策略,系统就会以邮件、短信或企业微信等方式发送告警通知给指定人员。 单击指标列表右上角的,将图表添加至仪表盘。
监控概述 管理Prometheus实例 管理Prometheus实例指标数据 使用Prometheus监控CCE集群指标 配置多账号聚合实现指标统一监控 配置CCE集群监控采集指标规则 配置预聚合规则提升指标查询效率 配置数据多写实现监控指标转储到自建Prometheus 配置指标存储时长
单击左侧,选择“应用服务 > 应用运维管理 AOM”,进入AOM服务页面。 在弹出的对话框中单击“免费开通”,即可免费开通AOM。 AOM提供基础版和按需版两种计费方式,AOM默认为您开通基础版,可单击“切换版本”进行切换操作。
该机制以服务为粒度,提供有限的服务相关角色用于授权。由于华为云各服务之间存在业务依赖关系,因此给用户授予角色时,可能需要一并授予依赖的其他角色,才能正确完成业务。角色并不能满足用户对精细化授权的要求,无法完全达到企业对权限最小化的安全管控要求。
查看Prometheus实例指标上报量 通过Prometheus监控服务将指标数据上报到AOM后,即可查看Prometheus实例上报的基础指标和自定义指标数量,方便用户分析资源使用情况。 前提条件 服务已接入可观测Prometheus监控。
通过AOM监控主机 主机包括弹性云服务器(ECS)、裸金属服务器(BMS)。
“日志采集开关”关闭后,ICAgent将停止采集日志数据,且云日志服务LTS控制台的“ICAgent采集开关”也将同步关闭,请谨慎操作。 图1 日志采集开关 父主题: 日志配置
前提条件 CCE服务已拥有CCE集群,已安装Redis。 服务已接入可观测Prometheus监控并接入CCE集群,具体请参见Prometheus实例 for CCE。 已将redis_exporter镜像上传到SWR,具体操作请参见使用容器引擎客户端上传镜像。
表2 资源使用限制 分类 对象 使用限制 仪表盘 仪表盘 1个区域中最多可创建50个仪表盘。 仪表盘中的图表 1个仪表盘中最多可添加20个图表。 仪表盘中图表可选资源、阈值规则、组件或主机的个数 1个曲线图中最多可添加100个资源,且资源可跨集群选择。
表2 资源使用限制 分类 对象 使用限制 仪表盘 仪表盘 1个区域中最多可创建50个仪表盘。 仪表盘中的图表 1个仪表盘中最多可添加20个图表。 仪表盘中图表可选资源、阈值规则、组件或主机的个数 1个曲线图中最多可添加100个资源,且资源可跨集群选择。
AOM已对接消息通知服务(Simple Message Notification,简称SMN),通过在SMN界面设置通知策略,当阈值规则的状态(正常、超限阈值、数据不足)发生变化时,会以邮件或短信等方式通知,以便您在第一时间发现异常并进行处理。
权限和授权项说明 如果您需要对您所拥有的AOM进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),如果华为账号所具备的权限功能已经能满足您的要求,您可以跳过本章节,不影响您使用AOM服务的其它功能。
监控云容器引擎 CCE的指标 云容器引擎 CCE是一个企业级的集群托管服务,基于云服务器快速构建高可靠的容器集群,帮助您轻松创建和管理多样化的容器工作负载。
Endpoint为指定承载REST服务端点的服务器域名或IP,不同服务不同区域的Endpoint不同,您可以从地区和终端节点中获取。 project_id 为项目的ID,可在我的凭证中的项目列表里查看。