功能架构说明:

托管&运行态:AOM可无缝对接多个上层运维服务,支持快速从应用管理与运维平台(ServiceStage)、函数工作流(FunctionGraph)和微服务引擎(Cloud Service Engine,CSE)等上层运维服务采集指标数据并实时、可视化呈现。

可观测性分析:基于四层指标体系(基础设施层指标、中间件层指标、应用层指标和业务层指标),通过事务监控、容器监控、普罗监控等功能,提供异常检测、历史数据分析、性能分析、关联性和场景化分析等可观测性分析能力。

运维自动化:提供批量磁盘清理、作业编排、脚本执行等功能,将日常运维操作服务化、标准化、自动化。

应用资源管理:通过应用管理、资源搜索等功能,将所有资源对象与应用统一管理,为AOM上层运维场景服务提供准确、及时、一致的资源配置数据。

采集管理:统一管理插件,并为AOM提供指令下发功能,如脚本下发和执行。

开放:支持原生PromQL数据上报,也可通过API等方式上报数据,并也可通过grafana查看数据,通过kafka转储数据。

应用运维管理 AOM的优势

  • 运维中心

    集中管理云监控、云日志、性能、Prometheus等多维度可观测性数据源,提供统一监控与分析。

    集中管理云监控、云日志、性能、Prometheus等多维度可观测性数据源,提供统一监控与分析。

  • 双视角

    应用视角基于CMDB为复杂应用提供可观测性分析能力,容器视角实现Kubernetes云原生用户短、平、快容器洞察。

    应用视角基于CMDB为复杂应用提供可观测性分析能力,容器视角实现Kubernetes云原生用户短、平、快容器洞察。

  • 自动化运维

    支持定时、周期和告警触发系统变更,提供批量主机下发脚本作业、批量定时开关机等运维操作。

    支持定时、周期和告警触发系统变更,提供批量主机下发脚本作业、批量定时开关机等运维操作。

  • 告警降噪

    提供分组、抑制和静默等告警降噪策略,在发送告警通知前按告警降噪规则对告警进行处理,从容应对海量告警风暴。

    提供分组、抑制和静默等告警降噪策略,在发送告警通知前按告警降噪规则对告警进行处理,从容应对海量告警风暴。

应用运维管理 AOM基本功能

  • 应用资源管理

    作为应用运维管理 AOM的应用资源管理中心,将所有资源对象与应用统一管理,为AOM监控中心、自动化运维子服务和LTS、APM等上层运维服务提供准确、及时、一致的资源配置数据。

    作为应用运维管理 AOM的应用资源管理中心,将所有资源对象与应用统一管理,为AOM监控中心、自动化运维子服务和LTS、APM等上层运维服务提供准确、及时、一致的资源配置数据。

  • 监控中心

    作为应用运维管理 AOM的一站式监控平台,提供从资源数据发现、资源数据展示到数据异常告警的全方位、可视化监控服务,可应用于ECS、RDS、CCE等云产品的可观测性分析。

    作为应用运维管理 AOM的一站式监控平台,提供从资源数据发现、资源数据展示到数据异常告警的全方位、可视化监控服务,可应用于ECS、RDS、CCE等云产品的可观测性分析。

  • 自动化运维

    作为应用运维管理 AOM的自动化运维平台,提供从运维任务创建、触发到审批的端到端自动化运维服务,可应用于ECS、RDS、CCE等云产品的运维管理。

    作为应用运维管理 AOM的自动化运维平台,提供从运维任务创建、触发到审批的端到端自动化运维服务,可应用于ECS、RDS、CCE等云产品的运维管理。

  • 采集管理

    作为应用运维管理 AOM的采集管理平台,完成统一插件生命周期管理,并为AOM提供指令下发功能,如脚本下发和执行。UniAgent自身不提供数据采集能力,运维数据由不同的插件分工采集。

    作为应用运维管理 AOM的采集管理平台,完成统一插件生命周期管理,并为AOM提供指令下发功能,如脚本下发和执行。UniAgent自身不提供数据采集能力,运维数据由不同的插件分工采集。

应用运维管理 AOM应用场景

  • 应用与资源配置管理

    当应用模型层级复杂,需要通过应用快速找到依赖的云资源,以应用为基础,配置统一监控大盘、阈值告警、告警降噪策略、权限管理和变更管理等

    优势:

    应用模型灵活

    支持应用/子应用(可选)/组件/环境,最多6级模型关系

    容器挂载配置

    用户只需要在工作负载中添加应用、组件和环境名称,容器可自动挂载CMDB树

    基于CMDB的可观测分析

    AOM支持将指标、日志和性能数据关联至CMDB应用上,用户可统一对应用与资源运维分析

    应用进程发现

    发现规则支持通过环境变量或进程启动命令行提取CMDB信息,采集器在采集指标、日志时同步完成CMDB树创建

    当应用模型层级复杂,需要通过应用快速找到依赖的云资源,以应用为基础,配置统一监控大盘、阈值告警、告警降噪策略、权限管理和变更管理等

    优势:

    应用模型灵活

    支持应用/子应用(可选)/组件/环境,最多6级模型关系

    容器挂载配置

    用户只需要在工作负载中添加应用、组件和环境名称,容器可自动挂载CMDB树

    基于CMDB的可观测分析

    AOM支持将指标、日志和性能数据关联至CMDB应用上,用户可统一对应用与资源运维分析

    应用进程发现

    发现规则支持通过环境变量或进程启动命令行提取CMDB信息,采集器在采集指标、日志时同步完成CMDB树创建

  • 立体化监控

    通过融合APM、LTS和CES,打造立体化监控平台。业务指标可通过APM事务或ELB负载均衡日志提取,应用指标通过APM应用性能或Prometheus获取,资源指标直接集成云监控。同时用户也可将不同维度指标关联到CMDB树上,按应用模型统一管理

    优势

    全方位监控

    覆盖基础设施、云数据库、云中间件、应用等多个维度监控。提供一站式运维能力

    故障关联分析

    通过应用、组件、环境等多维度关联和分析上百种运维指标和告警数据,以便您迅速定位故障原因

    数据开放

    兼容PromQL查询语法,支持开源Grafana对接指标

    通过融合APM、LTS和CES,打造立体化监控平台。业务指标可通过APM事务或ELB负载均衡日志提取,应用指标通过APM应用性能或Prometheus获取,资源指标直接集成云监控。同时用户也可将不同维度指标关联到CMDB树上,按应用模型统一管理

    优势

    全方位监控

    覆盖基础设施、云数据库、云中间件、应用等多个维度监控。提供一站式运维能力

    故障关联分析

    通过应用、组件、环境等多维度关联和分析上百种运维指标和告警数据,以便您迅速定位故障原因

    数据开放

    兼容PromQL查询语法,支持开源Grafana对接指标

应用运维管理 AOM常见问题解答

应用运维管理 AOM常见问题解答

应用运维管理 AOM帮你您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行

应用运维管理 AOM帮你您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行

  • AOM有哪些使用限制?

    AOM使用限制有三类:

    操作系统使用限制

    AOM支持多个操作系统,在购买主机时您需选择AOM支持的操作系统,否则无法使用AOM对主机进行监控。

    资源使用限制

    在使用AOM时,您需注意相关使用限制。

    服务使用限制

    在使用AOM时,当AMS-Access服务出现断电、或者异常重启的时候,部分主机、组件、容器等资源会出现一个采集周期的指标数据断点,该数据断点对于用户来讲监控页面上能看到一个断点,没有其他影响。如果对断点有要求,可以在“监控”->“指标浏览”页面中查看指标曲线时,将插值方式设置为0或者average,系统会自动补点。

  • AOM与APM有何区别?

    AOM与APM同属于立体化运维解决方案体系,共享采集器。AOM提供了应用级故障分析、告警管理、日志采集与分析等能力,能够有效预防问题的产生及快速帮助应用运维人员定位故障,降低运维成本。APM提供了用户体验管理、分布式性能追踪、事务分析等能力,可以帮助运维人员快速解决应用在分布式架构下的问题定位和性能瓶颈等难题,为用户体验保驾护航。AOM提供基础运维能力,APM是对AOM运维能力的补充。AOM界面集成了APM,可通过AOM界面统一运维;APM也有独立的控制台入口,可以单独使用APM。

    图1 立体化运维解决方案

  • 如何区分告警和事件?

    告警和事件的相同点

    在AOM中告警和事件都是指AOM自身,或AOS、ServiceStage、CCE等外部服务在某种状态发生变化后上报给AOM的信息。

    告警和事件的区别

    告警是AOM自身,或AOS、ServiceStage、CCE等外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。

    事件是告诉您AOM自身,或AOS、ServiceStage、CCE等外部服务发生了某种变化,但不一定会引起业务异常,事件一般用来表达一些重要信息。您不用对事件进行处理。

  • 时间范围和统计周期的关系

    AOM约束单个指标单次查询最大返回1440个数据点,因此统计周期与时间范围的关系如下所示:

    最大可查询时间范围=统计周期×1440

    当您选中的查询时间范围小于等于最大可查询时间范围时,所有满足以上条件的统计周期可以被选择。例如,查询1小时的指标时,可选的统计周期为1分钟和5分钟。

  • AOM展示的日志是否为实时日志?

    AOM展示的日志为近实时日志,日志存在秒级时延。

    日志从采集上报到处理需要一定的时间,日志量较小时日志会存在10秒左右的时延,日志量特别大时时延会久些。