开通云审计服务记录AOM相关的操作事件 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪、问题回溯和问题定位等常见应用场景。
高危命令说明 高危命令指影响系统或服务的正常运行,或造成系统特殊文件被恶意删除或修改命令。自动化运维服务涉及的高危命令请参见表1。
什么是应用运维管理 运维遇到挑战 随着容器技术的普及,越来越多的企业通过微服务框架开发应用,业务实现更多使用云上服务,运维也转向云上的运维服务。对于云上应用的运维也提出了新的挑战。 图1 运维现有问题 运维人员技能要求高,配置繁杂,同时需要维护多套系统。
进入/opt/oss/servicemgr/ICAgent/bin/manual/目录,停止并重新启动icagent。 bash mstop.sh bash mstart.sh 查看该环境变量是否正确传递到应用中。
日志管理使用说明 AOM支持容器服务日志和虚机(这里的虚机指操作系统为Linux的弹性云服务器或裸金属服务器)日志采集,即采集您自定义的日志文件并展现在AOM界面中,以供您检索。 使用该功能前首先要配置日志采集路径,详情请参考配置日志采集路径。
通过AOM查看故障传播链 故障传播链图谱基于服务的调用链和平均RT、错误率等分析关键指标数据,找出异常调用在调用链追踪链路trace中的传播关系,并展示服务及其关联服务的关键指标数据,可以更有效地定位根因。 查看故障传播链图谱 登录AOM 2.0控制台。
通过AOM监控集群 集群监控的对象为通过CCE部署的集群。
请求示例 更新Prometheus实例名称和指标存储时长。
服务实际使用的与申请的CPU核数量比率。 0~100 百分比(%) 句柄数(aom_process_handle_count) 该指标用于统计测量对象使用的句柄数。
告警源:触发告警或事件的服务名称。可以设置为AOM 、LTS、CCE等服务名称。例如设置为:告警源+等于+AOM。 标签:告警标识属性,由标签名和标签值构成,支持用户自定义。例如设置为:标签+aom_monitor_level+等于+infrastructure。
≥0 个/秒(Count/s) 上行Bps(aom_node_network_transmit_bytes) 该指标用于统计测试对象的出方向网络流速。
kube_deployment_status_observed_generation Deployment控制器观察到的代数。 kube_deployment_status_replicas Deployment当前的副本数。
告警和事件的区别 告警是AOM自身,或ServiceStage、CCE等外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。
目标存储路径 可通过${var_name}方式引用全局变量的字符串参数。 文件来源 回填所选的文件包版本中的文件来源,参见表1。 平台 文件包运行的平台,目前仅支持Linux。 脚本类型 操作类型选择“安装”,脚本类型为“安装脚本”。
告警和事件的区别 告警是AOM自身,或ServiceStage、CCE等外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。
AOM作为应用运维环境的多层次一站式运维监控平台,可以实现对云主机、 存储、网络、WEB容器、docker、kubernetes等应用运行环境的深入监控并进行集中统一的可视化管理,能够有效预防问题的产生及快速帮助应用运维人员定位故障,降低运维成本。
基础指标:Flink指标 介绍通过Flink服务上报到AOM的指标的类别、名称、含义等信息。 表1 Flink服务监控指标 分类 指标 指标含义 单位 CPU flink_jobmanager_Status_JVM_CPU_Load JobManager中JVM的CPU负载。
工具市场 提供不同的原子服务场景,并且可以对各原子服务场景卡片进行上下架管理。 父主题: 运维管理
基础指标:CCI2.0指标 介绍通过CCI2.0服务上报到AOM的指标的类别、名称、含义等信息。 表1 CCI2.0服务监控指标 指标类别 指标名称 指标含义 CPU container_cpu_system_seconds_total 容器系统CPU总时长。
≥0 个 servicecomb_service_center_db_instance_total 微服务实例数 微服务实例数。