在“Prometheus 运行环境”面板单击“弹性云服务器 ECS”卡片。 在“弹性云服务器 ECS”弹框中的“安装步骤”页签,按照页面提示进行安装。
使用Prometheus监控CCE集群指标 AOM基于Prometheus监控生态,提供了托管式的CCE类型Prometheus实例 ,适合需要对容器服务集群及其上面运行的应用进行一体化监控场景。
告警管理使用说明 告警是指AOM自身或外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。
配置服务场景任务。 任务类型选择“服务场景”。 在服务场景的下拉列表中,选择服务场景。不同服务场景的具体操作,参见服务场景。 图6 配置服务场景 配置作业管理任务。 任务类型选择“作业管理”。 在下拉列表中,分别选择作业名和执行方案。
在“Prometheus 云服务”下单击“函数工作流 FunctionGraph”卡片,在弹框中设置接入云服务的相关信息。 表1 接入云服务 参数名称 说明 示例 选择Prometheus for 云服务实例 将云服务指标接入Prometheus for 云服务实例。
前提条件 CCE服务已拥有CCE集群,已安装MongoDB。 服务已接入可观测Prometheus监控并接入CCE集群,具体请参见Prometheus实例 for CCE。 已将mongodb_exporter镜像上传到SWR,具体操作请参见使用容器引擎客户端上传镜像。
主机监控 主机包括弹性云服务器(ECS)、裸金属服务器(BMS)。
Prometheus监控 Prometheus监控概述 管理Prometheus实例 管理Prometheus实例指标数据 使用Prometheus监控CCE集群指标 配置多账号聚合实现指标统一监控 配置CCE集群监控采集指标规则 配置预聚合规则提升指标查询效率 配置数据多写实现监控指标转储到自建
服务使用限制 在使用AOM时,当AMS-Access服务出现断电、或者异常重启的时候,部分主机、组件、容器等资源会出现一个采集周期的指标数据断点,该数据断点对于用户来讲监控页面上能看到一个断点,没有其他影响。
服务使用限制 在使用AOM时,当AMS-Access服务出现断电、或者异常重启的时候,部分主机、组件、容器等资源会出现一个采集周期的指标数据断点,该数据断点对于用户来讲监控页面上能看到一个断点,没有其他影响。
该机制以服务为粒度,提供有限的服务相关角色用于授权。由于华为云各服务之间存在业务依赖关系,因此给用户授予角色时,可能需要一并授予依赖的其他角色,才能正确完成业务。角色并不能满足用户对精细化授权的要求,无法完全达到企业对权限最小化的安全管控要求。
单击左侧,选择“应用服务 > 应用运维管理 AOM”,进入AOM服务页面。 在弹出的对话框中单击“免费开通”,即可免费开通AOM。 AOM提供基础版和按需版两种计费方式,AOM默认为您开通基础版,可单击“切换版本”进行切换操作。
前提条件 CCE服务已拥有CCE集群,已安装Redis。 服务已接入可观测Prometheus监控并接入CCE集群,具体请参见Prometheus实例 for CCE。 已将redis_exporter镜像上传到SWR,具体操作请参见使用容器引擎客户端上传镜像。
查看Prometheus实例指标上报量 通过Prometheus监控服务将指标数据上报到AOM后,即可查看Prometheus实例上报的基础指标和自定义指标数量,方便用户分析资源使用情况。 前提条件 服务已接入可观测Prometheus监控。
通过AOM监控主机 主机包括弹性云服务器(ECS)、裸金属服务器(BMS)。
“日志采集开关”关闭后,ICAgent将停止采集日志数据,且云日志服务LTS控制台的“ICAgent采集开关”也将同步关闭,请谨慎操作。 图1 日志采集开关 父主题: 日志配置
AOM已对接消息通知服务(Simple Message Notification,简称SMN),通过在SMN界面设置通知策略,当阈值规则的状态(正常、超限阈值、数据不足)发生变化时,会以邮件或短信等方式通知,以便您在第一时间发现异常并进行处理。
华为云:无论在任何云服务类别下,华为云都会承担基础设施的安全责任,包括安全性、合规性。该基础设施由华为云提供的物理数据中心(计算、存储、网络等)、虚拟化平台及云服务组成。
权限和授权项说明 如果您需要对您所拥有的AOM进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),如果华为账号所具备的权限功能已经能满足您的要求,您可以跳过本章节,不影响您使用AOM服务的其它功能。
账号冻结或受限:云服务资源因欠费冻结或受限时,若处于保留期,用户可通过续费或充值来解冻该资源,恢复云服务正常使用,详细说明请参见:资源冻结。 账号恢复正常后,定时任务可恢复正常执行。 父主题: 运维管理(即将下线)