华为云用户手册

  • 更多操作 告警行动规则创建完成后,您还可以执行表2中的相关操作。 表2 相关操作 操作 说明 编辑告警行动规则 单击“操作”列的“编辑”。 删除告警行动规则 删除单条规则:单击对应规则“操作”列的“删除”,随后在提示页面单击“确定”即可删除。 删除单条或多条规则:勾选对应规则前的复选框,单击“批量删除”,随后在提示页面单击“确定”即可删除。 说明: 删除告警行动规则前需要先删除该行动规则绑定的告警规则。 搜索告警行动规则 在右上角的搜索框中输入规则名称关键字,单击后显示匹配对象。
  • 添加自定义标签字段 添加自定义标签字功能目前仅在华东-上海一开放。 通过添加自定义标签,用户可以在日志页面上查看到自定义标签,如果将aom日志接入lts后,可以通过该自定义标签关键字进行日志搜索。 编辑yaml:通过在工作负载的yaml中spec:template:metadata:annotations:下增加以下字段来实现 kubernetes. AOM .log.relabel: '{"key1":"value1", "key2":"value2"} 自定义标签限制如下: 最多可设置16组“key:value”字段。 key或value的参数值最多不超过64个字符。 自定义标签不区分大小写,且不能与默认的标签重复。例如,默认标签为“po”,则自定义标签不能为“PO”、“Po”或“pO”。 默认标签如下: "podName", "appName", "containerName", "clusterId","clusterName", "serverlessPkg", "serverlessFunc", "projectId", "serviceID","nameSpace", "pid", "hostId", "hostName", "hostIP", "hostIPv6" 父主题: 容器日志采集配置
  • 标准输出配置 通过添加指定采集容器标准输出标签,用户可以指定采集pod下的对应容器名的标准输出日志。用户在pod的yaml中spec:template:metadata:annotations:字段增加以下字段来实现指定要采集的容器名称。 kubernetes.AOM.log.stdout: '["container_name0", "container_name1"]' 规则如下: 如果没有kubernetes.AOM.log.stdout:字段,默认采集该pod下全部容器的标准输出日志,兼容原有场景。 如果存在该字段,值为空,即kubernetes.AOM.log.stdout: '[]'则不采集该pod下容器的标准输出日志。 示例: spec: replicas: 1 selector: matchLabels: app: als729 version: v1 template: metadata: creationTimestamp: null labels: app: als729 version: v1 annotations: kubernetes.AOM.log.relabel: '{"key1":"value1","key2":"value2","key3":"value3","key4":"value4","key5":"value5","key6":"value6","key7":"value7","key8":"value8","key9":"value9","key10":"value10","key11":"value11","key12":"value12","key13":"value13","key14":"value14","key15":"value16"}' kubernetes.AOM.log.stdout: '["container-0","container_name1"]' 父主题: 容器日志采集配置
  • 数据订阅格式说明 AOM格式的指标JSON格式代码片断 package metrictype MetricDatas struct { Metrics []Metrics `json:"metrics"` ProjectId string `json:"project_id"`}type Metrics struct { Metric Metric `json:"metric"` Values []Value `json:"values"` CollectTime int64 `json:"collect_time"`}type Metric struct { Namespace string `json:"namespace"` Dimensions []Dimension `json:"dimensions"`}type Value struct { Value interface{} `json:"value"` Type string `json:"type"` Unit string `json:"unit"` StatisticValues string `json:"statisticvalues"` MetricName string `json:"metric_name"`}type Dimension struct { Name string `json:"name"` Value string `json:"value"`} kafka消息示例 key:,value:{"metrics":[{"metric":{"namespace":"PAAS.NODE","dimensions":[{"name":"nodeName","value":"test-vss-cop-master-1"},{"name":"nodeIP","value":"1.1.1.1"},{"name":"hostID","value":"75d97111-4734-4c6c-ae9e-f6111111111"},{"name":"nameSpace","value":"default"},{"name":"clusterId","value":"46a7bc0d-1d8b-11ea-9b04-333333333333333"},{"name":"clusterName","value":"test-vss-111"},{"name":"diskDevice","value":"vda"},{"name":"master","value":"true"}]},"values":[{"value":0,"type":"","unit":"Kilobytes/Second","statisticvalues":"","metric_name":"diskReadRate"},{"value":30.267,"type":"","unit":"Kilobytes/Second","statisticvalues":"","metric_name":"diskWriteRate"}],"collect_time":1597821030037}],"project_id":"111111111111111111111"} 告警数据格式说明 示例: { "events": [{ "id": "4346299651651991683", "starts_at": 1597822250194, "ends_at": 0, "arrives_at": 1597822250194, "timeout": 300000, "resource_group_id": "312313123112222222222232131312131", "metadata": { "kind": "Pod", "event_severity": "Major", "resource_type": "service", "clusterId": "6add4ef5-1358-11ea-a5bf-111111111", "event_type": "alarm", "clusterName": "cce-ief-4516140c-96ca-4a5f-8d85-1111111", "namespace": "PAAS.NODE", "name": "test15769793809553052-f5557bd7f-qnfkm", "event_name": "调度失败##FailedScheduling", "resource_id": "clusterName=cce-ief-4516140c-96ca-4a5f-8d85-111111;clusterID=6add4ef5-1358-11ea-a5bf-11111111111;kind=Pod;namespace=30d5758f166947c6b164af604a654b09;name=test15769793809553052-f5557bd7f-qnfkm;uid=589fc746-245d-11ea-a465-fa163e5fc15d", "nameSpace": "30d5758f166947c6b164af604a654b09", "resource_provider": "CCE", "nodeID": "589fc746-245d-11ea-a465-fa163e5fc15d" }, "annotations": { "alarm_probableCause_zh_cn": "FailedScheduling", "alarm_probableCause_en_us": "FailedScheduling", "message": "0/110 nodes are available: 1 node(s) had taints that the pod didn't tolerate, 109 node(s) didn't match node selector." }, "attach_rule": { } }], "project_id": "312313123112222222222232131312131"} 参数说明: 表4 告警参数 参数 参数类型 描述 events Array ofobjects,详见 表5。 事件或者告警详情。 project_id String 租户从 IAM 申请到的projectid,一般为32位字符串。 表5 EventModel 参数 参数类型 描述 id String 事件或者告警id,系统自动生成。 starts_at Long 事件或者告警产生的时间, CS T毫秒级时间戳。 ends_at Long 事件或者告警清除的时间,CST毫秒级时间戳,为0时表示未删除。 arrives_at Long 事件或者告警到达AOM的时间,CST毫秒级时间戳。 timeout Long 告警自动清除时间。毫秒数,例如一分钟则填写为60000。默认清除时间为3天。 resource_group_id String 资源组预留字段,当前默认和projectid的值一样。 metadata Object 事件或者告警的详细信息,为键值对形式。必须字段为: event_name:事件或者告警名称,类型为String; event_severity:事件级别枚举值。类型为String,四种类型 "Critical", "Major", "Minor", "Info"; event_type:事件类别枚举值。类型为String,event为普通告警,alarm为告警事件; resource_provider:事件对应云服务名称。类型为String; resource_type:事件对应资源类型。类型为String; resource_id:事件对应资源信息。类型为String。 annotations Object 事件或者告警附加字段,可以为空。 attach_rule Object 事件或者告警预留字段,为空。
  • 安装方式说明 ICAgent有两种安装方式,您可以按照您的场景进行选择。您需要注意的是,下述两种安装方式,都不适用于容器节点(通过ServiceStage、CCE创建的集群容器节点)。容器节点不需要手动安装ICAgent,只需要在创建集群或部署应用时进行操作。 安装方式见表2: 表2 安装方式 方式 适用场景 首次安装 当满足以下条件时,您需要按照该方式安装: 该服务器上未安装过ICAgent。 继承安装 当满足以下条件时,您需要按照该方式安装: 您有多个服务器需要安装ICAgent,其中一个服务器已经通过首次安装方式装好了ICAgent,且所有服务器在同一VPC下,可以采用该安装方式。当所有服务器不在同一VPC下,需要给所有服务器绑定EIP后再采用该安装方式。
  • 继承批量安装 当您已有服务器安装过ICAgent,且该服务器“/opt/ICAgent/”路径下ICAgent安装包ICProbeAgent.zip存在,通过该方式可对多个远端服务器进行一键式继承批量安装。 批量安装的ECS需和已安装成功的节点保持网络互通,scp、ssh命令可用。 如果已安装的服务器使用了委托方式安装,其它批量安装的节点也需要设置委托。 批量安装脚本依赖python版本,建议在python3.x版本的机器上执行此操作。 iplist.cfg文件中每一行应以回车作为结尾。
  • 更多应用发现规则操作 应用发现规则添加完成后,您还可以执行表2中的操作。 表2 相关操作 操作 说明 查看规则详情 在“名称”列单击规则的名称。 启、停规则 单击“操作”列的“启用”。 单击“操作”列的“停用”。停用后,AOM将不采集进程的指标数据。 删除规则 删除一个发现规则:在“操作”列选择“删除”。 删除一个或多个发现规则:选中一个或多个发现规则前的复选框,单击页面上方的“删除”。 说明: 内置发现规则不支持删除操作。 修改规则 在“操作”列选择“修改”。 说明: 内置发现规则不支持修改操作。
  • 什么是映射 AOM中的日志实际上是以一个日志流的形式在LTS中存在(如图1中的AOM日志流所示),AOM可以查询已配置采集路径的原始日志,但当前AOM的日志流无法在LTS控制台查看。您可以通过在AOM控制台添加接入规则来创建映射,映射创建后,即可通过LTS查看和分析AOM日志。 图1 未创建映射 创建日志流A并创建接入规则后,即已创建AOM至LTS的映射,最新的AOM日志将上报至日志流A,AOM可以查看映射前后所有的日志数据,日志流A不会复制或移动原AOM日志流中的历史数据,如图2所示。 图2 已创建映射
  • 内置发现规则 AOM提供了Sys_Rule和Default_Rule两个内置的发现规则,内置的发现规则会在所有主机上执行,包括后续新增的主机。其中Sys_Rule优先级大于Default_Rule,即优先在主机上执行Sys_Rule,如果满足Sys_Rule,则不执行Default_Rule,如果不满足Sys_Rule,则执行Default_Rule。规则内容如下: Sys_Rule(不能停用) 使用Sys_Rule规则的场景下,组件名和应用名配对使用,必须同时设置组件名和应用名信息,取值优先级如下: 应用名称取值优先级: 取进程的启动命令中“Dapm_application”字段的值。 如果1为空,则取环境变量“JAVA_TOOL_OPTIONS”中“Dapm_application”字段的值。 如果2为空,则取环境变量“PAAS_MONITORING_GROUP”的值。 如果3为空,则取进程的启动命令中“DAOM.APPN”字段的值。 组件名称取值优先级: 取进程的启动命令中“DAOM.PROCN”字段的值,如果为空则取“Dapm_tier”字段的值。 如果1为空,则取环境变量“JAVA_TOOL_OPTIONS”中“Dapm_tier”字段的值。 如果2为空,则取环境变量“PAAS_APP_NAME”的值。 如下示例所示,则组件名为atps-demo,应用名为atpd-test。 PAAS_MONITORING_GROUP=atpd-testPAAS_APP_NAME=atps-demoJAVA_TOOL_OPTIONS=-javaagent:/opt/oss/servicemgr/ICAgent/pinpoint/pinpoint-bootstrap.jar -Dapm_application=atpd-test -Dapm_tier=atps-demo Default_Rule(可停用) 如果进程的“COMMAND”列的值为“java”,则组件名依次按照优先级从命令行中的jar包名、命令行中主类名、命令行中第一个非-开头的关键字获取,应用名使用默认值unknownapplicationname。 如果进程的“COMMAND”列的值为“python”,则组件名取命令行中第一个py/pyc脚本名,应用名使用默认值unknownapplicationname。 如果进程的“COMMAND”列的值为“node”,则组件名取命令行中第一个js脚本名,应用名使用默认值unknownapplicationname。
  • 过滤规则 ICAgent会在目标主机上进行周期性探测,类似ps -e -o pid,comm,lstart,cmd | grep -v defunct命令的效果,查出目标主机的所有进程。然后将每一个进程分别与过滤规则(过滤规则详见表1)进行匹配。如果进程满足过滤规则,则进程会被过滤掉,不会被AOM发现;如果进程不满足过滤规则,则进程不会被过滤,会被AOM发现。 探测结果类似如下回显信息: PID COMMAND STARTED CMD 1 systemd Tue Oct 2 21:12:06 2018 /usr/lib/systemd/systemd --switched-root --system --deserialize 20 2 kthreadd Tue Oct 2 21:12:06 2018 [kthreadd] 3 ksoftirqd/0 Tue Oct 2 21:12:06 2018 (ksoftirqd/0) 1140 tuned Tue Oct 2 21:12:27 2018 /usr/bin/python -Es /usr/sbin/tuned -l -P 1144 sshd Tue Oct 2 21:12:27 2018 /usr/sbin/sshd -D 1148 agetty Tue Oct 2 21:12:27 2018 /sbin/agetty --keep-baud 115200 38400 9600 hvc0 vt220 1154 docker-containe Tue Oct 2 21:12:29 2018 docker-containerd -l unix:///var/run/docker/libcontainerd/docker-containerd.sock --shim docker-containerd-shim --start-timeout 2m --state-dir /var/run/docker/libcontainerd/containerd --runtime docker-runc --metrics-interval=0 表1 过滤规则 过滤规则 举例 如果进程的“COMMAND”列的值为“docker-containe”、“vi”、“vim”、“pause”、“sshd”、“ps”、“sleep”、“grep”、“tailf”、“tail”或“systemd-udevd”,且为非容器内的进程,则该类进程会被过滤掉,不会被AOM发现。 例如,上面信息中“PID”为“1154”的进程,因为其“COMMAND”列的值为“docker-containe”,所以该进程不会被AOM发现。 如果进程的“CMD”列的值以“[”开头,且以“]”结尾,则该类进程会被过滤掉,不会被AOM发现。 例如,上面信息中“PID”为“2”的进程,因为其“CMD”列的值为“[kthreadd]”,所以该进程不会被AOM发现。 如果进程的“CMD”列的值以“(”开头,且以“)”结尾,则该类进程会被过滤掉,不会被AOM发现。 例如,上面信息中“PID”为“3”的进程,因为其“CMD”列的值为“(ksoftirqd/0)”,所以该进程不会被AOM发现。 如果进程的“CMD”列的值以“/sbin/”开头,则该类进程会被过滤掉,不会被AOM发现。 例如,上面信息中“PID”为“1148”的进程,因为其“CMD”列的值以“/sbin/”开头,所以该进程不会被AOM发现。
  • 安装方式说明 ICAgent有两种安装方式,您可以按照您的场景进行选择。您需要注意的是,下述两种安装方式,都不适用于容器节点(通过ServiceStage、CCE创建的集群容器节点)。容器节点不需要手动安装ICAgent,只需要在创建集群或部署应用时进行操作。 安装方式见表1: 表1 安装方式 方式 适用场景 首次安装 当满足以下条件时,您需要按照该方式安装: 该服务器上未安装过ICAgent。 继承安装 当满足以下条件时,您需要按照该方式安装: 您有多个服务器需要安装ICAgent,其中一个服务器绑定了EIP,而剩余的没有绑定EIP。其中一个服务器已经通过首次安装方式装好了ICAgent,对于没有绑定EIP的服务器,您可以采用该安装方式。 请参考继承安装。
  • 配置步骤 在CCE中添加日志策略 在CCE中创建工作负载时,添加容器后,展开“容器日志”页签。 单击“添加日志策略”,设置自定义日志参数,配置日志策略,以nginx为例,不同工作负载根据实际情况配置。 图1 添加日志策略 存储类型有“主机路径”和“容器路径”两种类型可供选择: 主机路径:可将主机上的路径挂载到指定的容器路径。日志策略配置参数如下: 表1 添加日志策略-主机路径 参数 参数说明 存储类型 设置为“主机路径”。将主机上的路径挂载到指定的容器路径。 添加容器挂载 *主机路径 容器内日志文件所在路径挂载到主机上的位置,如:/var/paas/sys/log/nginx 挂载路径 输入数据逻辑卷挂载到容器上的路径,如:/tmp 须知: 请不要挂载在系统目录下,如“/”、“/var/run”等,会导致容器异常。建议挂载在空目录下,若目录不为空,请确保目录下无影响容器启动的文件,否则文件会被替换,导致容器启动异常,工作负载创建失败。 挂载高危目录的情况下 ,建议使用低权限账号启动,否则可能会造成宿主机高危文件被破坏。 AOM只采集最近修改过的前20个日志文件,且默认采集两级子目录。 AOM只采集挂载路径下的“.log”、“.trace”、“.out”文本日志文件。 主机扩展路径 会在原先的“卷目录/子目录”中增加一个三级目录。使用户更方便获取单个Pod输出的文件。 None:不配置拓展路径。 PodUID:Pod的ID。 PodName:Pod的名称。 PodUID/ContainerName:Pod的ID/容器名称。 PodName/ContainerName:Pod名称/容器名称。 采集路径 设置采集路径可以更精确的指定采集内容,当前支持以下设置方式: 不设置则默认采集当前路径下.log .trace .out文件。 设置**表示递归采集5层目录下的.log .trace .out文件。 设置*表示模糊匹配。 例子: 采集路径为/tmp/**/test*.log 表示采集/tmp目录及其1-5层子目录下的全部以test开头的.log文件。 注意: 使用采集路径功能请确认您的采集器ICAgent版本为5.12.22或以上版本。 日志转储 此处日志转储是指日志的本地绕接。 设置:AOM每分钟扫描一次日志文件,当某个日志文件超过50MB时,会立即对其转储(转储时会在该日志文件所在的目录下生成一个新的zip文件。对于一个日志文件,AOM只保留最近生成的20个zip文件,当zip文件超过20个时,时间较早的zip文件会被删除),转储完成后AOM会将该日志文件清空。 不设置:若您在下拉列表框中选择“不设置”,则AOM不会对日志文件进行转储。 说明: AOM的日志绕接能力是使用copytruncate方式实现的,如果选择了设置,请务必保证您写日志文件的方式是append(追加模式),否则可能出现文件空洞问题。 当前主流的日志组件例如Log4j、Logback等均已经具备日志文件的绕接能力,如果您的日志文件已经实现了绕接能力,则无需设置。否则可能出现冲突。 建议您的业务自己实现绕接,可以更灵活的控制绕接文件的大小和个数。 容器路径:日志仅输出到容器路径,无需挂载主机路径。日志策略配置参数如下: 此功能需要采集器ICAgent版本升级到5.10.79或以上版本。 表2 添加日志策略-容器路径 参数 参数说明 存储类型 设置为“容器路径”。 日志仅输出到容器路径,无需挂载主机路径。此功能需要采集器ICAgent版本升级到5.10.79或以上版本。 添加容器挂载 挂载路径 输入数据逻辑卷挂载到容器上的路径,如:/tmp 须知: 请不要挂载在系统目录下,如“/”、“/var/run”等,会导致容器异常。建议挂载在空目录下,若目录不为空,请确保目录下无影响容器启动的文件,否则文件会被替换,导致容器启动异常,工作负载创建失败。 挂载高危目录的情况下 ,建议使用低权限账号启动,否则可能会造成宿主机高危文件被破坏。 AOM只采集最近修改过的前20个日志文件,且默认采集两级子目录。 AOM只采集挂载路径下的“.log”、“.trace”、“.out”文本日志文件。 采集路径 设置采集路径可以更精确的指定采集内容,当前支持以下设置方式: 不设置则默认采集当前路径下.log .trace .out文件。 设置**表示递归采集5层目录下的.log .trace .out文件。 设置*表示模糊匹配。 例子: 采集路径为/tmp/**/test*.log 表示采集/tmp目录及其1-5层子目录下的全部以test开头的.log文件。 注意: 使用采集路径功能请确认您的采集器ICAgent版本为5.12.22或以上版本。 日志转储 此处日志转储是指日志的本地绕接。 设置:AOM每分钟扫描一次日志文件,当某个日志文件超过50MB时,会立即对其转储(转储时会在该日志文件所在的目录下生成一个新的zip文件。对于一个日志文件,AOM只保留最近生成的20个zip文件,当zip文件超过20个时,时间较早的zip文件会被删除),转储完成后AOM会将该日志文件清空。 不设置:若您在下拉列表框中选择“不设置”,则AOM不会对日志文件进行转储。 说明: AOM的日志绕接能力是使用copytruncate方式实现的,如果选择了设置,请务必保证您写日志文件的方式是append(追加模式),否则可能出现文件空洞问题。 当前主流的日志组件例如Log4j、Logback等均已经具备日志文件的绕接能力,如果您的日志文件已经实现了绕接能力,则无需设置。否则可能出现冲突。 建议您的业务自己实现绕接,可以更灵活的控制绕接文件的大小和个数。 在ServiceStage中添加日志策略 在CCI中添加日志策略 在创建负载时,选择镜像后,单击“高级设置”,展开“日志采集”页签。 添加日志策略。 单击“添加日志存储”,参考表3进行配置。 图2 在CCI中添加日志策略 表3 参数说明 参数 参数说明 容器内日志路径 日志存储挂载到容器内的挂载路径,需要保证服务的日志输出路径与该路径一致,这样日志才能写入到日志存储卷中。 须知: 日志存储卷挂载后,会覆盖掉日志路径下已有的内容。请保证日志路径为一个独立的路径,否则原来的内容不可见。 AOM只采集最近修改过的前20个日志文件,且不采集子目录。 AOM只采集日志路径下的“.log”、“.trace”、“.out”文本日志文件。 日志存储空间 日志的存储空间大小。 AOM对日志卷中的日志按50MB进行防爆处理,AOM只保留最近生成的20个zip文件,当zip文件超过20个时,时间较早的zip文件会被删除。
  • 健康状态类图表(包括阈值状态、主机状态、组件状态图表) 支持阈值、主机、组件状态的展示。可将关注的一个或多个阈值规则、主机或组件的状态信息分别置于同一图表中进行监控。 阈值状态图表:实时监控阈值规则的状态。 图3 阈值状态图表 添加阈值状态图表前请先创建阈值规则,否则将无法添加阈值状态图表。 主机状态图表:实时监控主机的状态。 图4 主机状态图表 组件状态图表:实时监控组件的状态。 图5 组件状态图表
  • 更多仪表盘操作 仪表盘创建完成后,您还可以执行表1中的操作。 表1 相关操作 操作对象 操作 说明 仪表盘 另存为 保存仪表盘后,通过页面右侧的“更多”下拉列表框,可另存、重命名或删除仪表盘。 重命名 删除 导出监控报告 单击“导出监控报告”,可将仪表盘中的曲线图以CSV格式导出,以便进行本地存储及进一步分析。 设置全屏模式在线时长 选择待操作的仪表盘,在“仪表盘”页面右上角单击。 在弹出的对话框中设置全屏模式在线时长。 图8 设置在线时长 说明: 自定义在线时长:默认在线时长为1小时,您可在文本框中输入1~24小时。 例如,在文本框中输入2,则2小时后自动退出到登录界面。 保持在线:表示不限制,即全屏界面永远不会自动退出到登录界面,可持续在全屏模式下进行监控。 轮播周期:开启仪表盘轮播才需设置对应的“轮播周期”和“仪表盘”信息。取值范围:10~120秒,默认轮播周期为10秒。 单击“确认”,进入仪表盘全屏模式。 设置插值方式 单击“插值方式”,将指标数据按照所设置的插值方式进行聚合。当指标图表出现断点时,AOM默认使用null(即空值)表示断点。当您需要使用指标图表做汇报或展示时,出现断点的指标图表不太美观,您可通过切换插值为0或null的方式,对缺失的指标数据进行断点插值,进而规避掉断点。 插值方式您可以选择null、0。 null:默认设置,断点处使用空值表示。如下图所示: 图9 插值方式为null 0 :断点处使用0表示。如下图所示: 图10 插值方式为0 图表 添加 单击“添加指标图表”,可在仪表盘中添加曲线图、数字图、阈值状态图表、主机状态图表、组件状态图表。 编辑 通过图表右上角的“操作”下拉列表框,可对图表进行编辑、复制、删除、放大(仅可放大曲线图)等操作。其中“时间选择”按钮仅在曲线图中存在,通过该按钮您可以设置临时的时间范围和统计周期,方便您查看某一时间范围的资源数据。 图11 图表操作 说明: 当主机、组件等资源被删除后,在仪表盘中针对这些资源创建的图表不会自动删除,为提高系统性能,您需要手动删除不需要的图表。 复制 删除 放大 时间选择 刷新 调整大小 将鼠标指针移至图表右下角,当鼠标指针变为时按住鼠标左键并进行拖动。 调整位置 在图表上方或下方的空白区域按住鼠标左键拖动至目标位置。
  • 资源TopN图表 资源TopN图表的统计单位为集群,统计对象为集群下的资源(这里的资源指主机、组件和实例)。资源TopN图表可视化地展示了集群中资源占用最高的N个资源,支持资源Top5、Top15数据的汇报展示,其中默认展示资源Top5,放大图表后展示资源Top15。 当资源数量很多时,您想快速了解资源占用最高的资源,可在仪表盘中添加TopN图表,您只需要选择资源类型和指标,例如主机的CPU使用率,那么AOM将自动将TopN的主机挑选出来展示,如果不超过N个资源,则按照实际资源展示。如下图所示,展示了主机CPU使用率Top5: 图6 资源TopN图表 默认展示资源Top5图表,通过单击“显示Top15”、在图表任意处双击或在“操作”列选择“放大”,均可查看资源Top15图表。 如果您需监控所有集群下的所有资源的Top5数据,可在“监控概览”界面查看,也可将“监控概览”界面的资源Top5数据添加到仪表盘。 资源TopN图表的标题支持您自定义,标题默认命名为资源类型(集群名称)。
  • 监控IoTDA服务 单击IoTDA服务名称,可在右侧区域查看当前用户IOTDA服务下全部实例及全部实例的资源空间。 监控IoTDA服务某一实例: 单击任一实例名称,然后单击“仪表盘”页签,可查看当前实例下需要重点关注的关键资源或指标。 单击任一实例名称,然后单击“指标”页签,可查看当前实例下IOTDA上报的全量指标数据曲线。 单击任一实例名称,然后单击“资源空间”页签,可查看当前实例下的资源空间。
  • 注意事项 AOM日志采集路径配置的虚拟机列表,只展示操作系统为Linux的弹性云服务器或裸金属服务器。 若日志采集路径配置的是目录,则默认采集目录下的日志(只采集*.log、*.trace和*.out类型的文本日志文件);若配置的为具体某个文件,则直接采集该文件。指定文件必须为文本类型文件,不支持其他类型(例如二进制日志文件)的日志文件。 请确保配置的路径是日志目录或文件的绝对路径,且该路径是实际存在的。例如,/opt/yilu/work/xig或/opt/yilu/work/xig/debug_cpu.log。 ICAgent不支持采集下级目录的日志文件。例如,/opt/yilu/work/xig的下级目录为/opt/yilu/work/xig/debug,则ICAgent不采集/opt/yilu/work/xig/debug中的日志文件。 一个虚机最多可配置20条日志采集路径。 若配置的日志文件的最后修改时间和当前时间的时间差已超过12小时,则不会采集。 同一资源集下的所有ECS主机,无法同时使用AOM和LTS的日志采集功能,只能匹配系统中最新的日志采集配置。例如,当前在AOM中配置了ECS主机的日志采集路径,则之前在该资源集下,LTS中所有ECS主机的采集配置都失效。 配置虚机日志的采集路径时,不建议和容器服务日志映射到虚拟机上的日志目录相同,若相同则采集到的日志内容会互相覆盖掉,采集的日志可能会变成容器日志。
  • 注意事项 您最多可创建1000条阈值规则,如果阈值规则数量已达上限1000条时,请删除不需要的阈值规则后重新创建。 设置通知策略 阈值规则的状态(正常、超限阈值、数据不足)发生变化时,如需使用邮件或短信等方式发送通知,请参考下面操作在 SMN 界面设置通知策略。如不需接收邮件或短信通知,请跳过下面操作。具体操作如下: 创建一个主题,操作详见创建主题。 设置主题策略,操作详见设置主题策略。 设置主题策略时,“可发布消息的服务”必须选择“ APM ”,否则会导致通知发送失败。 为主题添加相关的订阅者,即通知的接收人(例如:邮件或短信),操作详见订阅主题。
  • 概述 该功能对华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州、西南-贵阳一、中国-香港、华南-深圳、华南-广州-友好用户环境、华北-乌兰察布一、亚太-曼谷和亚太-新加坡区域生效。 通过告警规则可对服务设置事件条件或者对资源的指标设置阈值条件。当服务的资源数据满足事件条件时产生事件类告警。当资源的指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。 告警规则分为阈值规则和事件类告警规则两种。通常情况下,通过阈值规则,实时监控环境中主机、组件等资源使用情况。当资源使用告警过多,告警通知过于频繁时,通过事件类告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。 系统支持创建的阈值规则和事件类告警规则总计不能超过1000条,即创建的告警规则数量不能超过1000条。如果系统中的告警规则数量已达到上限,请删除不需要的告警规则后重新创建。 父主题: 告警规则(新版)
  • 应用监控卡片 图2 应用监控 此卡片主要展示应用监控的指标数据。 应用、组件、容器和实例的运行状态。 选择一个应用,可呈现该应用的如下信息: 近30分钟网络流量数据的趋势图,趋势图每1分钟一个点,趋势图每一个点的值表示1分钟内所选应用的接收Bps、发送Bps。趋势图上方的值为最新时间点所选应用的接收Bps、发送Bps。 近30分钟CPU及内存使用率数据的趋势图,趋势图的每一个点分别表示1分钟内所选应用的CPU使用率以及内存使用率。趋势图上方的值为最新时间点所选应用的CPU使用率和内存使用率。
  • 更多监控概览界面操作 您还可以执行表1中的操作。 表1 相关操作 操作 说明 将卡片移至收藏夹 如果不需要关注某个卡片时,可单击卡片右上角的并选择“移至收藏夹”。卡片移至收藏夹后将在“监控概览”界面隐藏。若后续又需使用时,您可从收藏夹中快速获取。 将卡片添加到仪表盘 可单击卡片右上角的并选择“添加至仪表盘”。 放大指标图表 单击指标图表右上角的。 蓝色字体下钻 单击界面中的“主机”“应用”、“组件”等蓝色字体可下钻到具体详情页面,查看更详细的数据。
  • 基础设施监控卡片 图1 基础设施监控 此卡片主要展示基础设施的指标数据。可通过选择集群,呈现某一个集群或者所有集群中的信息。如图选择所有集群,即该基础设施监控卡片呈现所有集群的如下信息: 主机运行状态,CPU、物理内存的使用量。 近30分钟网络流量数据的趋势图,趋势图每1分钟一个点,趋势图每一个点的值表示1分钟内所有集群的接收Bps之和、发送Bps之和。趋势图上方的值为最新时间点所有集群的接收Bps之和、发送Bps之和。 近30分钟CPU及内存使用率数据的趋势图,趋势图的每一个点分别表示1分钟内所有集群的CPU使用率的平均值以及所有集群的内存使用率的平均值。趋势图上方的值为最新时间点所有集群的CPU使用率的平均值和所有集群的内存使用率的平均值。
  • 组件监控(CPU&内存)卡片 图4 组件监控(CPU&内存)卡片 此卡片主要展示了4种信息: 统计最新时间前1分钟内的组件的CPU使用率、内存使用率在TOP5的组件信息。 最近1小时内的所选组件的CPU使用率、内存使用率的趋势图,趋势图的每一个点分别表示1分钟内组件CPU&内存使用率的值。 趋势图上方的值为所选组件下监控的最新时间点CPU&内存使用率的值。 在卡片左下角通过勾选“隐藏系统组件”可隐藏系统组件。
  • 容器实例监控(CPU&内存)卡片 图6 容器实例监控(CPU&内存) 此卡片主要展示了4种信息: 统计最新时间前1分钟内的容器实例的CPU使用率、内存使用率在TOP5的实例信息。 最近1小时内的所选容器实例的CPU使用率、内存使用率的趋势图,趋势图的每一个点分别表示1分钟内容器实例CPU&内存使用率的值。 趋势图上方的值为所选容器实例下监控的最新时间点CPU&内存使用率的值。 在卡片左下角通过勾选“隐藏系统实例”可隐藏系统实例。
  • 更多事件类告警规则操作 事件类告警规则创建完成后,您还可以执行表2中的操作。 表2 相关操作 操作 说明 修改事件类告警规则 单击“操作”列的“修改”。 删除事件类告警规则 删除一个事件类告警规则:单击“操作”列的“删除”。 删除一个或多个事件类告警规则:选中一个或多个事件类告警规则前的复选框,在规则列表上方单击“删除”。 迁移事件类告警规则 选中一个或多个事件类告警规则前的复选框,在规则列表上方单击“一键迁移至2.0”,可将选中的事件类告警规则批量迁移至AOM 2.0。 须知: 迁移操作无法恢复,请谨慎操作。 启、停事件类告警规则 单击“操作”列的“启用”或“停用”。 搜索事件类告警规则 支持规则名称、描述和指标名称搜索,可在右上角的搜索框中输入关键字,单击后显示匹配对象。
  • 更多静态阈值模板操作 静态阈值模板创建完成后,您还可以执行表1中的操作。 表1 相关操作 操作 说明 使用静态阈值模板创建一条批量阈值规则 单击“操作”列的“创建规则”,操作详见使用模板创建阈值规则。 修改静态阈值模板 单击“操作”列的“编辑”。 删除静态阈值模板 删除一个静态阈值模板:单击“操作”列的“删除”。 删除一个或多个静态阈值模板:选中一个或多个静态阈值模板前的复选框,单击页面上方的“删除”。 搜索静态阈值模板 在右上角的搜索框中输入模板名称关键字,单击后显示匹配对象。
  • 概述 本功能当前在华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州、西南-贵阳一、中国-香港、华南-深圳、华南-广州-友好用户环境、华北-乌兰察布一、亚太-曼谷和亚太-新加坡区域开放,如有需求可以通过提交工单,联系工程师为您开放此功能。 AOM提供告警降噪功能,您可以在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。 告警降噪功能分为分组、去重、抑制、静默四部分。 去重为内置策略,服务后台会自动检验告警内容是否一致实现去重的效果,用户无需手动创建规则。 图1 告警降噪流程图 分组、抑制、静默需手动创建规则,创建方式见下方文档说明。 此模块只作用于 消息通知 部分,所有触发的告警和事件都可在告警、事件页面查看。 告警降噪中所有的规则条件均取自告警结构体中的"metadata"字段,可采用系统默认字段,也可根据需要自定义字段。 { "starts_at" : 1579420868000, "ends_at" : 1579420868000, "timeout" : 60000, "resource_group_id" : "5680587ab6*******755c543c1f", "metadata" : { "event_name" : "test", "event_severity" : "Major", "event_type" : "alarm", "resource_provider" : "ecs", "resource_type" : "vm", "resource_id" : "ecs123" , "key1" : "value1" // 创建告警规则时配置的告警标签 }, "annotations" : { "alarm_probableCause_zh_cn" : "可能原因", "alarm_fix_suggestion_zh_cn" : "修复建议" }} 父主题: 告警降噪
  • 云审计 服务支持的AOM操作列表 AOM为运维人员提供一站式立体运维平台,实时监控应用、资源运行状态,通过数十种指标、告警与日志关联分析,快速锁定问题根源,保障业务顺畅运行。 AOM作为应用运维环境的多层次一站式运维监控平台,可以实现对云主机、 存储、网络、WEB容器、docker、kubernetes等应用运行环境的深入监控并进行集中统一的可视化管理,能够有效预防问题的产生及快速帮助应用运维人员定位故障,降低运维成本。同时,AOM开放统一API,支撑对接自研监控系统或者报表系统。AOM并非传统监控,它通过应用的角度看业务,满足企业对业务的高效和快速迭代的需求,可帮助企业实现 IT 对业务的有效支撑,保护、优化IT资产投资,使企业更好的达到其战略目标并实现IT资产价值的最大化。通过云审计服务,您可以记录与AOM服务相关的操作事件,便于日后的查询、审计和回溯。 资源类型为pe的事件,其实际执行服务为AOM,但操作入口位于云容器引擎(CCE)或应用管理与运维平台(ServiceStage)。 表1 云审计服务支持的AOM操作列表 操作名称 资源类型 事件名称 创建仪表盘 ams addDashboard 修改仪表盘 ams update-view-action 删除仪表盘 ams deleteDashboard 创建阈值 ams addThreshold 修改阈值 ams updateThreshold 删除阈值 ams deleteThreshold 删除订阅规则 apminventory deleteSubscribeRule 修改订阅规则名称 apminventory updateSubscribeName 创建订阅规则 apminventory createSubscribeRule 开启按需版 OpenOrCloseProService openProBillingService 关闭按需版 OpenOrCloseProService closeProBillingService 删除一条阈值规则 threshold_rules_v2 deleteOneAlarmById 批量删除阈值规则 threshold_rules_v2 deleteAlarmRules 修改阈值规则 threshold_rules_v2 updateAlarm 创建阈值规则 threshold_rules_v2 addAlarmForDT 修改事件类告警规则 event2alarm_rule updateEvent2AlarmRule 创建事件类告警规则 event2alarm_rule addEvent2AlarmRule 删除事件类告警规则 event2alarm_rule deleteEvent2AlarmRule 安装采集器 icmgr icagentInstall 升级采集器 icmgr icagentUpgrade 升级探针 icmgr pinPointUpgrade 卸载采集器 icmgr IcagentUninstall 指标和日志采集开关 icmgr metricAndLogSwitches 创建接入码 icmgr icmgrAddAccessCode 删除接入码 icmgr icmgrDelAccessCode 下发配置事件 icmgr webIcAgentEvent 清除告警 pushEvents clearEvents 创建告警行动规则 actionRule addActionRule 修改告警行动规则 actionRule updateActionRule 删除告警行动规则 actionRule delActionRule 创建消息模板 notificationTemplate addNotificationTemplate 修改消息模板 notificationTemplate updateTemplate 删除消息模板 notificationTemplate delTemplate 创建分组规则 groupRule addGroupRule 修改分组规则 groupRule updateGroupRule 删除分组规则 groupRule delGroupRule 创建抑制规则 inhibitRule addInhibitRule 修改抑制规则 inhibitRule updateInhibitRule 删除抑制规则 inhibitRule delInhibitRule 创建静默规则 muteRule addMuteRule 修改静默规则 muteRule updateMuteRule 删除静默规则 muteRule delMuteRule 创建或修改应用发现规则 apminventory addOrUpdateAppRules 删除应用发现规则 apminventory deleteAppRules 修改应用/主机/组件的别名/标签 apminventory updateInventoryTag 创建策略组 pe createPolicyGroup 删除策略组 pe deletePolicyGroup 更新策略组 pe updatePolicyGroup 启用策略组 pe enablePolicyGroup 停用策略组 pe disablePolicyGroup 创建策略 pe createPolicy 删除策略 pe deletePolicy 更新策略 pe updatePolicy 启用策略 pe enablePolicy 停用策略 pe disablePolicy 更新老化周期 als updateLogStorgeSetting 父主题: 云审计服务支持的关键操作
  • 管理接入规则 您可以在“接入LTS”界面对已添加的接入规则进行搜索、查看、编辑和删除。 搜索 单击搜索框,选择搜索维度,如选择“工作负载”,然后继续选择该维度下的可选项。如未选择搜索维度,直接输入搜索关键字,则默认按照接入规则名称搜索。 图1 选择搜索维度 查看 在规则列表中可查看已创建的接入规则的集群名称、命名空间等信息。单击搜索框右上方的,自定义列表项的展示。单击“接入日志组”列的日志组名称,可以跳转到LTS控制台的日志组详情。 编辑 单击“操作”列的“编辑”,可以编辑该接入规则。修改接入规则的影响请参见修改映射。 删除 单击“操作”列的“删除”,可以删除该接入规则。勾选多个规则名称前的复选框,单击“批量删除”,可批量删除接入规则。 删除接入规则或删除映射日志流不可恢复,请您谨慎操作。删除接入规则的影响请参见删除映射。
  • 步骤2:购买ECS 登录管理控制台,查看是否有弹性云服务器。 有Linux弹性云服务器,执行3。 有Windows弹性云服务器,参考购买并通过Windows系统连接TaurusDB标准版实例。 无弹性云服务器,执行2。 购买弹性云服务器时,选择Linux操作系统,例如CentOS。 由于需要在ECS下载MySQL客户端,因此需要为ECS绑定弹性公网IP(EIP),并且选择与TaurusDB标准版实例相同的区域、VPC和安全组,便于TaurusDB标准版和ECS网络互通。 购买Linux弹性云服务器请参考《弹性云服务器快速入门》中“购买弹性云服务器”章节。 在ECS实例基本信息页,查看ECS实例的区域和VPC。 图4 ECS基本信息 在TaurusDB标准版实例概览页面,在网络信息区域查看TaurusDB标准版实例的区域和VPC。 图5 查看TaurusDB标准版实例的VPC 确认ECS实例与TaurusDB标准版实例是否处于同一区域、同一VPC内。 是,执行步骤3:测试连通性并安装MySQL客户端。 如果不在同一区域,请重新购买实例。不同区域的云服务之间内网互不相通,无法访问实例。请就近选择靠近您业务的区域,可减少网络时延,提高访问速度。 如果不在同一VPC,可以修改ECS的VPC,请参见切换虚拟私有云。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全