开通应用运维管理 AOM

开通AOM前请先注册华为帐号并完成实名认证

开通AOM时,因为不同区域是互相隔离的,对于不同的区域(例如:华北-北京一、华南-广州等),您需分别进行开通操作。有两种开通方式,可根据需要选择方式一和方式二。

方式一:

1、登录AOM华为云官网

2、在AOM产品简介下方单击“AOM2.0”,即可进入AOM 2.0服务页面。

3、在弹出的“云服务授权”页面中仔细阅读授权声明和隐私声明后,勾选“我已阅读并同意授权声明和隐私声明”。

4、单击“免费开通服务并授权”,即可免费开通AOM 2.0服务。

5、在页面上方的菜单栏单击任意一个服务名称,如“应用资源管理”,可进入该服务的操作界面。

方式二:

1、登录华为云管理控制台

2、在左上角单击,在下拉列表中选择操作区域。

3、单击左侧,选择“管理与监管 > 应用运维管理 AOM”,进入AOM服务页面。

4、在左侧导航栏单击“体验新版”,进入AOM 2.0服务页面。

5、在弹出的“云服务授权”页面中仔细阅读授权声明和隐私声明后,勾选“我已阅读并同意授权声明和隐私声明”。

6、单击“免费开通服务并授权”,即可免费开通AOM 2.0服务。

7、在页面上方的菜单栏单击任意一个服务名称,如“应用资源管理”,可进入该服务的操作界面。


通过应用运维管理 AOM 快速管理应用

在“总览”页面的应用视角下,如何通过AOM快速管理应用,包括应用创建到发现、监控等操作。

  • 步骤一:创建应用

    通过CMDB创建应用和资源关系树,在应用所在主机安装采集器。

    通过CMDB创建应用和资源关系树,在应用所在主机安装采集器。

  • 步骤二:进程发现

    为应用配置进程发现规则,采集器会主动上报运维数据。

    为应用配置进程发现规则,采集器会主动上报运维数据。

  • 步骤三:配置告警

    创建指标告警规则,应用异常时发送通知。

    创建指标告警规则,应用异常时发送通知。

  • 步骤四:配置告警行动规则

    配置告警处理策略,如应用异常时自动重启。

    配置告警处理策略,如应用异常时自动重启。

通过应用运维管理 AOM 快速管理容器

在“总览”页面的容器视角下,如何通过AOM快速管理容器,包括容器监控、配置告警规则等操作。

  • 步骤一:监控工作负载

    AOM兼容Kubernetes模型,无需配置CMDB自动采集上报容器工作负载相关信息。通过工作负载监控您可以及时了解工作负载的资源使用、状态和告警等信息,以便快速响应处理告警或事件信息,保证工作负载顺畅运行。

    AOM兼容Kubernetes模型,无需配置CMDB自动采集上报容器工作负载相关信息。通过工作负载监控您可以及时了解工作负载的资源使用、状态和告警等信息,以便快速响应处理告警或事件信息,保证工作负载顺畅运行。

  • 步骤三:配置告警行动规则

    通过创建告警行动规则关联SMN主题与消息模板,当资源或指标数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。

    通过创建告警行动规则关联SMN主题与消息模板,当资源或指标数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。

应用运维管理 AOM应用场景

  • 应用与资源配置管理

    当应用模型层级复杂,需要通过应用快速找到依赖的云资源,以应用为基础,配置统一监控大盘、阈值告警、告警降噪策略、权限管理和变更管理等

    优势:

    应用模型灵活

    支持应用/子应用(可选)/组件/环境,最多6级模型关系

    容器挂载配置

    用户只需要在工作负载中添加应用、组件和环境名称,容器可自动挂载CMDB树

    基于CMDB的可观测分析

    AOM支持将指标、日志和性能数据关联至CMDB应用上,用户可统一对应用与资源运维分析

    应用进程发现

    发现规则支持通过环境变量或进程启动命令行提取CMDB信息,采集器在采集指标、日志时同步完成CMDB树创建

    当应用模型层级复杂,需要通过应用快速找到依赖的云资源,以应用为基础,配置统一监控大盘、阈值告警、告警降噪策略、权限管理和变更管理等

    优势:

    应用模型灵活

    支持应用/子应用(可选)/组件/环境,最多6级模型关系

    容器挂载配置

    用户只需要在工作负载中添加应用、组件和环境名称,容器可自动挂载CMDB树

    基于CMDB的可观测分析

    AOM支持将指标、日志和性能数据关联至CMDB应用上,用户可统一对应用与资源运维分析

    应用进程发现

    发现规则支持通过环境变量或进程启动命令行提取CMDB信息,采集器在采集指标、日志时同步完成CMDB树创建

  • 立体化监控

    通过融合APM、LTS和CES,打造立体化监控平台。业务指标可通过APM事务或ELB负载均衡日志提取,应用指标通过APM应用性能或Prometheus获取,资源指标直接集成云监控。同时用户也可将不同维度指标关联到CMDB树上,按应用模型统一管理

    优势

    全方位监控

    覆盖基础设施、云数据库、云中间件、应用等多个维度监控。提供一站式运维能力

    故障关联分析

    通过应用、组件、环境等多维度关联和分析上百种运维指标和告警数据,以便您迅速定位故障原因

    数据开放

    兼容PromQL查询语法,支持开源Grafana对接指标

    通过融合APM、LTS和CES,打造立体化监控平台。业务指标可通过APM事务或ELB负载均衡日志提取,应用指标通过APM应用性能或Prometheus获取,资源指标直接集成云监控。同时用户也可将不同维度指标关联到CMDB树上,按应用模型统一管理

    优势

    全方位监控

    覆盖基础设施、云数据库、云中间件、应用等多个维度监控。提供一站式运维能力

    故障关联分析

    通过应用、组件、环境等多维度关联和分析上百种运维指标和告警数据,以便您迅速定位故障原因

    数据开放

    兼容PromQL查询语法,支持开源Grafana对接指标

应用运维管理 AOM常见问题解答

应用运维管理 AOM常见问题解答

应用运维管理 AOM帮你您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行

应用运维管理 AOM帮你您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行

  • AOM有哪些使用限制?

    AOM使用限制有三类:

    操作系统使用限制

    AOM支持多个操作系统,在购买主机时您需选择AOM支持的操作系统,否则无法使用AOM对主机进行监控。

    资源使用限制

    在使用AOM时,您需注意相关使用限制。

    服务使用限制

    在使用AOM时,当AMS-Access服务出现断电、或者异常重启的时候,部分主机、组件、容器等资源会出现一个采集周期的指标数据断点,该数据断点对于用户来讲监控页面上能看到一个断点,没有其他影响。如果对断点有要求,可以在“监控”->“指标浏览”页面中查看指标曲线时,将插值方式设置为0或者average,系统会自动补点。

  • AOM与APM有何区别?

    AOM与APM同属于立体化运维解决方案体系,共享采集器。AOM提供了应用级故障分析、告警管理、日志采集与分析等能力,能够有效预防问题的产生及快速帮助应用运维人员定位故障,降低运维成本。APM提供了用户体验管理、分布式性能追踪、事务分析等能力,可以帮助运维人员快速解决应用在分布式架构下的问题定位和性能瓶颈等难题,为用户体验保驾护航。AOM提供基础运维能力,APM是对AOM运维能力的补充。AOM界面集成了APM,可通过AOM界面统一运维;APM也有独立的控制台入口,可以单独使用APM。

    图1 立体化运维解决方案

  • 如何区分告警和事件?

    告警和事件的相同点

    在AOM中告警和事件都是指AOM自身,或AOS、ServiceStage、CCE等外部服务在某种状态发生变化后上报给AOM的信息。

    告警和事件的区别

    告警是AOM自身,或AOS、ServiceStage、CCE等外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。

    事件是告诉您AOM自身,或AOS、ServiceStage、CCE等外部服务发生了某种变化,但不一定会引起业务异常,事件一般用来表达一些重要信息。您不用对事件进行处理。

  • 时间范围和统计周期的关系

    AOM约束单个指标单次查询最大返回1440个数据点,因此统计周期与时间范围的关系如下所示:

    最大可查询时间范围=统计周期×1440

    当您选中的查询时间范围小于等于最大可查询时间范围时,所有满足以上条件的统计周期可以被选择。例如,查询1小时的指标时,可选的统计周期为1分钟和5分钟。

  • AOM展示的日志是否为实时日志?

    AOM展示的日志为近实时日志,日志存在秒级时延。

    日志从采集上报到处理需要一定的时间,日志量较小时日志会存在10秒左右的时延,日志量特别大时时延会久些。