云服务器内容精选

  • 如何自动获取验签? 检查对应的服务环境,是否已部署了对应的镜像包。 Docker镜像包的完整坐标(图中packagePath),需包含SWR地址,也即swr.cn-north-4.myhuaweicloud.com。不完整的Docker镜像包坐标无法获取相关Sha256验签信息。此处packagePath是Nuwa平台返回的。 已确定部署了相关的docker镜像,但是CloudTest不展示相关镜像包的验签,可简单触发一次空部署,等待10分钟重新执行一次CloudTest相关任务。 父主题: 运维中心部署服务
  • 处理方法 检查是否禁用了root 。 执行cat /etc/ssh/sshd_config | grep PermitRootLogin,查看是否有两个PermitRootLogin。 是:需要注释或删掉一个,如下图所示,并且修改成yes,然后重启服务systemctl restart sshd。 否:修改为yes,然后重启systemctl restart sshd。 检查root公钥是否写入。 cat /root/.ssh/authorized_keys和VMS特权账号规划里的SSH公钥对比,有一个存在即可。
  • 问题描述 在CES数据管理中创建采集指标模板或者自定义采集指标报错。可能的报错如下: Policy doesn't allow [ces:metricData:list] to be performed., code=ces.0050} #AppStage平台没有CES权限,需要申请CES FullAccess或者CES ReadOnlyAccess权限 You are not authorized with rms:resources:list #AppStage平台没有RMS权限,需要申请RMS FullAccess或者RMS ReadOnlyAccess权限。
  • 演练服务 表3 演练服务基本概念 基本概念 说明 BCM 业务连续性管理(Business Continuity Management,BCM),是识别业务潜在威胁,分析威胁一旦发生对业务运营可能带来的影响,通过有效应对措施保护关键利益关系人的利益、信誉、品牌和价值创造活动,建设业务恢复能力的管理过程。 演练 通过向系统的指定位置注入指定故障,观察实验结果,以验证和提高系统可用性的过程。 IMP 应急预案( Incident Management Plan,IMP),是为应对可能发生的突发事件,保护人员安全、降低财产损失、加强应急沟通拟制的应对程序和计划,防止损失扩大。 BCP 业务连续性计划(Business Continuity Plan,BCP),保证关键产品关键活动在预定可接受水平上的业务连续。在业务影响分析 、风险评估和恢复策略选择的基础上,拟制应对方案和计划。 故障场景 是对现实情况中故障的模拟,通过向被测系统注入故障,实现测试、优化系统稳定性的目的。 故障模式 是演练服务中的混沌工程工具根据系统可能发生故障的直接或根本原因,模拟出各种故障场景的能力。 稳态指标 是根据系统稳态的假说,分析给出一组代表系统健康度的指标及度量阈值,这组指标就被称为稳态指标。 演练监控 为了判断系统是否稳定运行以及故障注入是否执行成功,可提前配置系统稳态指标,在演练过程中实时监测,感知系统状态变化。
  • 部署服务 表1 部署服务基本概念 基本概念 说明 资源 资源是具备一定功能和作用的实例,是部署服务的管理对象,如WiseCloud::MicloudService::NuwaContainer实例、WiseCloud::Cache::DCS实例等。 组件 组件是一个具有相同资源的集合,组件具备以下特点: 可以在组件中声明资源以及资源之间的依赖关系。 同一个资源只能属于一个组件。 组件下的所有资源上下文一致。 环境 环境是一个具有相同组件的集合,环境具有以下特点: 部署服务代码中的environment-id是“环境”的唯一索引。 不同环境下的组件和资源可以同名,同一环境下的资源和组件名称需要保证唯一。 一个组件只能属于一个环境,一个环境下会有多个组件。 环境变更的本质是环境下组件的变更。 流水线 流水线是将多个组件的变更组合起来的流程描述,描述各个组件变更的方式和次序。 变更工单 变更工单是实施现网变更的授权许可,业务需要发起现网变更时,通常会由研发人员提交变更电子流,并附上对应的变更文档。该电子流被审批通过后,会在变更工单管理中,创建一条对应的变更工单,运维可使用变更工单实施变更。 变更计划 变更计划是部署服务发起具体变更动作前的风险影响评估过程。通过风险影响评估过程可以得到,本次变更可能导致的资源动作和属性差异变化,以及可能的风险项。 变更风险项 变更风险项是某个资源的具体变更的风险认定。其描述了认定为风险变更的属性变化,以及能够审批允许的审批人列表。 变更策略 变更策略是由资源提供方或是部署服务平台方按照资源类型预先定义的,在变更计划中被用于产生风险项的管控要素。它是变更管控的重要一环,识别了何种资源操作以及怎样的属性变化是高风险的,并同时指定产生的风险项应当由具备哪些岗位或角色的审批人来审批允许。 变更配置 变更配置与监控服务(ServiceInsight)配合使用,通过配置变更巡检任务,在变更时会对相应的变更项进行巡检。 变更电子流 变更电子流是用于无人值守变更的高度自动化的变更方式,是在部署服务基础上,尽可能将所有的运维手工选择操作前移到提交电子流之前。 Terraform Terraform是HashiCorp公司开发的基础设施即代码(Infrastructure-as-Code,IaC)软件,它能自动化的进行资源编排,用于安全高效地预览、配置和管理云基础架构和资源,并提供自定义解决方案,目前已被多家主流公有云厂家支持和集成。
  • 监控服务 表2 监控服务基本概念 基本概念 说明 监控 是采集、汇总和分析IT基础设施、服务组件以及程序应用的运行指标,以了解其当前状态和运行状况,判断是否安全可靠的过程,是保证业务持续稳定运行的重要手段。 告警 告警是监控系统的响应组件,它根据指标值的变化按照既定的策略执行响应操作,其主要目的是引起人们对系统当前状态的关注。告警定义包含基于指标的条件或阈值以及当指标值达到或超出定义条件时要执行的操作。 告警通知 告警的通知在所有的告警处理的链路结束以后才会发生。告警处理模块会根据上报告警的上下文获取告警的值班配置,值班配置由业务预置。 告警屏蔽 为您提供短时间的屏蔽功能,可以通过设置告警屏蔽的规则,告警将在屏蔽的时间内不再触发任何通知,规则结束后,将会被再次唤醒,屏蔽期间告警被清除后,将不再触发任何通知,减少您的处理频度。 告警过滤 告警过滤是直接在接入的阶段就将告警屏蔽,告警仍然会进入Bypass的数据库但不会再向下发送给告警处理模块。 告警收敛 多个维度的告警,通过特定的条件将它们变为一条告警,只需要配置自定义的收敛规则,就可以将重复告警收敛到一起,还有默认的规则帮助你维护告警。 告警标记 告警标记的作用是为一段时间内的告警打上标签,例如现网变更或者现网演练时,由于要模拟大量异常请求和其他操作会造成大量无用告警上报,标记的作用就是为这一段时间的告警打上标签与正常告警进行区分。 告警定义 对于繁琐复杂的告警上报字段感到困惑,使用统一定义,将会自动下发到业务对应的agent,更加人性化的界面设计,使告警上报更加统一、准确。 告警修复 设置特定的命中条件,告警在发送通知之前会执行预置的修复脚本,进行修复操作,自动帮你修复简单的告警。 语音值班配置 当告警生成时,配置对应的责任人,通过短信、电话等多种形式,快速将异常情况通知到责任人。 日志 日志是指设备、系统或服务程序在运作时都会产生的事件记录,每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。一般系统会有各种各样的日志文件,如应用程序日志,安全日志、系统日志、Scheduler服务日志、FTP日志、WWW日志、DNS服务器日志等。 日志项目 日志项目是一个包含多个日志服务配置的整体,可以看作是一个微服务实例。 同一个微服务实例下的日志服务配置应当包含在一个日志项目中。 不同微服务实例使用完全相同的日志服务配置时,也可以共用同一个日志项目。 日志空间 日志空间是日志服务为微服务的日志分配的使用空间。 业务须在日志接入页面填写日志相关信息并提交申请日志空间,日志空间支持定义空间内日志的结构化格式信息,此时要求所有使用此空间的日志都满足该日志格式。 日志采集配置 日志采集配置是日志服务采集端在采集微服务实例中日志时所需的配置,一种日志对应一项采集配置。 日志采集配置须归属于一个日志项目,并使用一个已分配好的日志空间。 日志采集配置之间可以共用日志空间,此时需要关注日志空间的日志格式要求,未定义日志格式的空间可不用关注。 巡检 巡检是指定期对IT系统进行全面的检查和评估,以确保系统的稳定性和可用性。通过系统巡检,SRE可以及时发现潜在的问题和故障,提前采取措施进行解决和预防,从而减少系统故障的发生和缩短故障恢复时间。同时,系统巡检还可以帮助SRE团队了解系统的运行状况和性能表现,为优化系统的配置和改进运维流程提供依据。 事件 事件是指IT基础设施、服务组件以及程序应用等运行过程中发生的问题。事件可通过监控系统自动生成、客户报障生成或SRE主动巡检生成等。监控系统生成事件首先要采集和分析运行数据,然后根据预定规则判断是否需要生成事件。 HCW HW Cloud Watch,监控系统,可以提供监控、告警功能。 HCW Agent 监控系统的采集框架,需要在每台主机上部署,部署路径为/opt/huawei/HCW_Agent。 EAP 事件自动化平台(Event & Action Platform,EAP),通过集成各系统动作,解决复杂运维场景的操作编排功能。 流程 可以通过EAP平台所提供的各种动作组合来编排解决具体运维场景的流程。 动作 各服务的操作(例如部署任务、执行作业、确认告警等)封装。 标签 对某一类特定群体或对象的某项特征进行的抽象分类和概括,其值(标签值)具备可分类性。 标签树 标签树负责标签的管理,包括标签的创建,删除,修改。系统标签由系统管理员统一进行管理,业务自定义标签由业务人员进行管理。 逻辑主体 逻辑主体是业务实体的抽象。 在AIOPS的实时场景,逻辑主体基于物理表(Druid、ClickHouse、influxDB)创建。逻辑主体和物理表之间存在映射关系,逻辑主体的字段名称和物理表可以不一样,这也是为了实现业务属性和物理表之间的解耦。 一个逻辑主体可以映射多种物理实体,当底层数据物理表变更(Druid表发生变更,或者需要从ClickHouse原始数据计算指标),上层的指标逻辑定义可以不用发生变化。 指标 指标是指在被观测系统中观察和收集的资源使用或行为的测量值,可能是原始采集的数据,也可能是后期经过各种计算和统计方法得到的数值。 令牌 令牌是使用数据源的鉴权方式,只有通过对应业务的token的鉴权,才能使用对应的数据源。 视图 指标本身包含了业务计算规则,只有结合数据源才能真正被查询。视图,就是指标 + 物理表的结合,也是监控大盘上直接可被查询的对象。视图可以包含一个或多个指标,例如折线图只需要单指标的视图,但是表格就需要多指标的视图。 查询视图(Query View)。直接作用于物理表的查询视图,大多用在druid实时监控场景。 长期存储视图(Long Term View)。基于查询视图,可以创建长期存储视图。如果觉得某个查询视图值得被长期持久化,就可以使用该能力。长期存储视图会自动创建三个聚合任务,分别是5分钟粒度、小时粒度、天粒度。 持久化视图(Persistent View)。基于查询视图,可以创建持久化视图。部分视图需要出日报,就可以使用该能力。该视图会自动创建一个汇聚任务。 异常检测视图(Anomaly Detect View)。基于查询视图,可以创建异常检测视图,用来为异常检测任务提供数据。 插件 可在机器上执行并采集各项参数的二进制文件或者脚本。
  • 责任矩阵 共同责任 双方商定并确认具体业务需求、范围及目标。 双方商定并确认项目管理计划,对项目周期、实施标准、风险管控、项目质量、项目验收标准等达成共识。 双方就演练方案、验收标准进行商定,确认方案内容并评审。 完成合同签订。 华为责任 华为需明确此次项目的负责人,因特殊情况导致华为人员变更,需要提前3个工作日知会用户,直至项目最终验收完成。 华为得到用户授权后,授权数据仅限用于专业服务中涉及的服务内容,不得超出限定范围。 客户责任 提供详细准确的需求和场景。 提供业务系统相关的信息,包括但不限于应用架构、部署架构、资源信息。 提供因演练场景需要必要的授权,配合华为云演练过程中工作开展。 审核并确认华为提供的交付件。 责任分工矩阵表 以下为职责描述案例,可酌情修改。 R=责任方/Responsibility S=协助方/Support 序号 流程 工作内容 华为 用户 1 混沌演练规划 组建团队。 需求评估。 信息收集。 演练启动会。 演练范围授权。 R S 2 混沌演练准备 确定演练计划,各场景演练目标。 演练涉及范围,演练时间窗和演练日期。 历史故障分析。 调研故障场景。 输出演练方案。 S R 3 混沌演练执行 演练方案实施。 故障注入。 记录演练风险、告警、发生时间等。 评估客户业务韧性、故障影响、恢复能力以及可恢复性等。 输出故障演练结果。 R S 4 混沌演练复盘 演练方案与执行结论分析。 评估演练是否达到预期。 输出演练方案、改进点与后续方案。 R S
  • 服务概述 云原生时代业务和技术的复杂性不断攀升,表现为业务迭代速度越来越快、应用系统架构愈发复杂、跨团队协作越来越频繁,导致风险及成本越来越高,这极大制约了业务的稳定性和可用性,混沌工程的出现,就是赋予业务在面对失控条件时具备较强的可观测性和故障恢复能力。 运维内容实施支持服务的混沌演练实施支持服务,是基于华为云COC混沌演练平台,承载华为云混沌工程的最佳实践,为用户提供一站式自动化混沌演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程,使能用户对云上应用进行主动风险识别、风险管理和消减,提升业务韧性。
  • 服务范围 服务覆盖范围 运维内容实施支持服务的混沌演练实施支持服务覆盖范围如下: 运维内容实施支持服务的混沌演练实施支持服务基于COC混沌演练平台提供一站式的自动化演练能力,覆盖端到端的演练流程。 针对云主机、云原生、华为云中间件服务、Java应用等场景提供混沌演练。 在线识别和管理云应用的故障模式、应急预案,对风险进行闭环消减。 服务不覆盖范围 运维内容实施支持服务的混沌演练实施支持服务不覆盖范围如下: 不提供应用系统的设计和运维工作,包括不限于客户应用开发、测试、部署、迁移等。 不提供第三方软件的安装、补丁更新、测试、故障诊断、优化等日常运维服务。 不提供IDC和硬件设备维护,如网络设备、服务器、存储等硬件巡检、更换、诊断等。 服务区域 中国
  • 使用流程 参考图1可帮助您快速上手运维中心的主流程和核心功能。 图1 运维中心使用流程 应用部署 您可以使用部署服务,完成应用部署。 准备软件包:将开发完成的应用软件包通过流水线发布至部署服务,或者将已有的应用软件包上传至部署服务。 准备环境:应用部署前需要先准备环境。 更新环境:通过更新环境操作完成应用部署。 应用运维 您可以使用监控服务,对您的应用进行运维管理。 日志:监控服务提供兼具开箱即用和自助的日志接入能力,支持存算分离,提高日志检索效率;提供虚机、容器统一的日志采集Agent;通过采集侧清晰和汇聚指标提取等能力降低日志成本,提高日志的可靠性。 监控:监控服务支持实时监控应用及资源,采集各项指标及事件等数据以分析应用健康状态,提供全面、清晰、多维度数据可视化能力。 告警:监控服务提供静态阈值和异常检测生成告警的能力,提供告警抑制、告警收敛、告警自动化分析和恢复能力。 资源管理 管理容器:您可以使用弹性资源服务对应用部署使用到的容器资源进行管理。 管理虚拟机:您可以使用主机管理服务对应用部署使用到的虚拟机资源进行管理。 故障演练 您可以使用演练服务,对业务故障进行演练。 创建并发布故障场景:故障演练首先需要创建并发布故障场景。 创建并完善演练方案:通过创建演练方案,并为演练方案创建故障场景,完善方案设计。 编辑演练执行计划:将服务级演练方案下需要演练的故障场景按季度进行分配。 创建并执行演练任务:演练执行计划配置完成后,可以对计划执行快速演练。
  • 演练服务 表3 演练服务基本概念 基本概念 说明 BCM 业务连续性管理(Business Continuity Management,BCM),是识别业务潜在威胁,分析威胁一旦发生对业务运营可能带来的影响,通过有效应对措施保护关键利益关系人的利益、信誉、品牌和价值创造活动,建设业务恢复能力的管理过程。 演练 通过向系统的指定位置注入指定故障,观察实验结果,以验证和提高系统可用性的过程。 IMP 应急预案( Incident Management Plan,IMP),是为应对可能发生的突发事件,保护人员安全、降低财产损失、加强应急沟通拟制的应对程序和计划,防止损失扩大。 BCP 业务连续性计划(Business Continuity Plan,BCP),保证关键产品关键活动在预定可接受水平上的业务连续。在业务影响分析 、风险评估和恢复策略选择的基础上,拟制应对方案和计划。 故障场景 是对现实情况中故障的模拟,通过向被测系统注入故障,实现测试、优化系统稳定性的目的。 故障模式 是演练服务中的混沌工程工具根据系统可能发生故障的直接或根本原因,模拟出各种故障场景的能力。 稳态指标 是根据系统稳态的假说,分析给出一组代表系统健康度的指标及度量阈值,这组指标就被称为稳态指标。 演练监控 为了判断系统是否稳定运行以及故障注入是否执行成功,可提前配置系统稳态指标,在演练过程中实时监测,感知系统状态变化。
  • 部署服务 表1 部署服务基本概念 基本概念 说明 资源 资源是具备一定功能和作用的实例,是部署服务的管理对象,如WiseCloud::MicloudService::NuwaContainer实例、WiseCloud::Cache::DCS实例等。 组件 组件是一个具有相同资源的集合,组件具备以下特点: 可以在组件中声明资源以及资源之间的依赖关系。 同一个资源只能属于一个组件。 组件下的所有资源上下文一致。 环境 环境是一个具有相同组件的集合,环境具有以下特点: 部署服务代码中的environment-id是“环境”的唯一索引。 不同环境下的组件和资源可以同名,同一环境下的资源和组件名称需要保证唯一。 一个组件只能属于一个环境,一个环境下会有多个组件。 环境变更的本质是环境下组件的变更。 流水线 流水线是将多个组件的变更组合起来的流程描述,描述各个组件变更的方式和次序。 变更工单 变更工单是实施现网变更的授权许可,业务需要发起现网变更时,通常会由研发人员提交变更电子流,并附上对应的变更文档。该电子流被审批通过后,会在变更工单管理中,创建一条对应的变更工单,运维可使用变更工单实施变更。 变更计划 变更计划是部署服务发起具体变更动作前的风险影响评估过程。通过风险影响评估过程可以得到,本次变更可能导致的资源动作和属性差异变化,以及可能的风险项。 变更风险项 变更风险项是某个资源的具体变更的风险认定。其描述了认定为风险变更的属性变化,以及能够审批允许的审批人列表。 变更策略 变更策略是由资源提供方或是部署服务平台方按照资源类型预先定义的,在变更计划中被用于产生风险项的管控要素。它是变更管控的重要一环,识别了何种资源操作以及怎样的属性变化是高风险的,并同时指定产生的风险项应当由具备哪些岗位或角色的审批人来审批允许。 变更配置 变更配置与监控服务(ServiceInsight)配合使用,通过配置变更巡检任务,在变更时会对相应的变更项进行巡检。 变更电子流 变更电子流是用于无人值守变更的高度自动化的变更方式,是在部署服务基础上,尽可能将所有的运维手工选择操作前移到提交电子流之前。 Terraform Terraform是HashiCorp公司开发的基础设施即代码(Infrastructure-as-Code,IaC)软件,它能自动化的进行资源编排,用于安全高效地预览、配置和管理云基础架构和资源,并提供自定义解决方案,目前已被多家主流公有云厂家支持和集成。
  • 监控服务 表2 监控服务基本概念 基本概念 说明 监控 是采集、汇总和分析IT基础设施、服务组件以及程序应用的运行指标,以了解其当前状态和运行状况,判断是否安全可靠的过程,是保证业务持续稳定运行的重要手段。 告警 告警是监控系统的响应组件,它根据指标值的变化按照既定的策略执行响应操作,其主要目的是引起人们对系统当前状态的关注。告警定义包含基于指标的条件或阈值以及当指标值达到或超出定义条件时要执行的操作。 告警通知 告警的通知在所有的告警处理的链路结束以后才会发生。告警处理模块会根据上报告警的上下文获取告警的值班配置,值班配置由业务预置。 告警屏蔽 为您提供短时间的屏蔽功能,可以通过设置告警屏蔽的规则,告警将在屏蔽的时间内不再触发任何通知,规则结束后,将会被再次唤醒,屏蔽期间告警被清除后,将不再触发任何通知,减少您的处理频度。 告警过滤 告警过滤是直接在接入的阶段就将告警屏蔽,告警仍然会进入Bypass的数据库但不会再向下发送给告警处理模块。 告警收敛 多个维度的告警,通过特定的条件将它们变为一条告警,只需要配置自定义的收敛规则,就可以将重复告警收敛到一起,还有默认的规则帮助你维护告警。 告警标记 告警标记的作用是为一段时间内的告警打上标签,例如现网变更或者现网演练时,由于要模拟大量异常请求和其他操作会造成大量无用告警上报,标记的作用就是为这一段时间的告警打上标签与正常告警进行区分。 告警定义 对于繁琐复杂的告警上报字段感到困惑,使用统一定义,将会自动下发到业务对应的agent,更加人性化的界面设计,使告警上报更加统一、准确。 告警修复 设置特定的命中条件,告警在发送通知之前会执行预置的修复脚本,进行修复操作,自动帮你修复简单的告警。 语音值班配置 当告警生成时,配置对应的责任人,通过短信、电话等多种形式,快速将异常情况通知到责任人。 日志 日志是指设备、系统或服务程序在运作时都会产生的事件记录,每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。一般系统会有各种各样的日志文件,如应用程序日志,安全日志、系统日志、Scheduler服务日志、FTP日志、WWW日志、DNS服务器日志等。 日志项目 日志项目是一个包含多个日志服务配置的整体,可以看作是一个微服务实例。 同一个微服务实例下的日志服务配置应当包含在一个日志项目中。 不同微服务实例使用完全相同的日志服务配置时,也可以共用同一个日志项目。 日志空间 日志空间是日志服务为微服务的日志分配的使用空间。 业务须在日志接入页面填写日志相关信息并提交申请日志空间,日志空间支持定义空间内日志的结构化格式信息,此时要求所有使用此空间的日志都满足该日志格式。 日志采集配置 日志采集配置是日志服务采集端在采集微服务实例中日志时所需的配置,一种日志对应一项采集配置。 日志采集配置须归属于一个日志项目,并使用一个已分配好的日志空间。 日志采集配置之间可以共用日志空间,此时需要关注日志空间的日志格式要求,未定义日志格式的空间可不用关注。 巡检 巡检是指定期对IT系统进行全面的检查和评估,以确保系统的稳定性和可用性。通过系统巡检,SRE可以及时发现潜在的问题和故障,提前采取措施进行解决和预防,从而减少系统故障的发生和缩短故障恢复时间。同时,系统巡检还可以帮助SRE团队了解系统的运行状况和性能表现,为优化系统的配置和改进运维流程提供依据。 事件 事件是指IT基础设施、服务组件以及程序应用等运行过程中发生的问题。事件可通过监控系统自动生成、客户报障生成或SRE主动巡检生成等。监控系统生成事件首先要采集和分析运行数据,然后根据预定规则判断是否需要生成事件。 HCW HW Cloud Watch,监控系统,可以提供监控、告警功能。 HCW Agent 监控系统的采集框架,需要在每台主机上部署,部署路径为/opt/huawei/HCW_Agent。 EAP 事件自动化平台(Event & Action Platform,EAP),通过集成各系统动作,解决复杂运维场景的操作编排功能。 流程 可以通过EAP平台所提供的各种动作组合来编排解决具体运维场景的流程。 动作 各服务的操作(例如部署任务、执行作业、确认告警等)封装。 标签 对某一类特定群体或对象的某项特征进行的抽象分类和概括,其值(标签值)具备可分类性。 标签树 标签树负责标签的管理,包括标签的创建,删除,修改。系统标签由系统管理员统一进行管理,业务自定义标签由业务人员进行管理。 逻辑主体 逻辑主体是业务实体的抽象。 在AIOPS的实时场景,逻辑主体基于物理表(Druid、ClickHouse、influxDB)创建。逻辑主体和物理表之间存在映射关系,逻辑主体的字段名称和物理表可以不一样,这也是为了实现业务属性和物理表之间的解耦。 一个逻辑主体可以映射多种物理实体,当底层数据物理表变更(Druid表发生变更,或者需要从ClickHouse原始数据计算指标),上层的指标逻辑定义可以不用发生变化。 指标 指标是指在被观测系统中观察和收集的资源使用或行为的测量值,可能是原始采集的数据,也可能是后期经过各种计算和统计方法得到的数值。 令牌 令牌是使用数据源的鉴权方式,只有通过对应业务的token的鉴权,才能使用对应的数据源。 视图 指标本身包含了业务计算规则,只有结合数据源才能真正被查询。视图,就是指标 + 物理表的结合,也是监控大盘上直接可被查询的对象。视图可以包含一个或多个指标,例如折线图只需要单指标的视图,但是表格就需要多指标的视图。 查询视图(Query View)。直接作用于物理表的查询视图,大多用在druid实时监控场景。 长期存储视图(Long Term View)。基于查询视图,可以创建长期存储视图。如果觉得某个查询视图值得被长期持久化,就可以使用该能力。长期存储视图会自动创建三个聚合任务,分别是5分钟粒度、小时粒度、天粒度。 持久化视图(Persistent View)。基于查询视图,可以创建持久化视图。部分视图需要出日报,就可以使用该能力。该视图会自动创建一个汇聚任务。 异常检测视图(Anomaly Detect View)。基于查询视图,可以创建异常检测视图,用来为异常检测任务提供数据。 插件 可在机器上执行并采集各项参数的二进制文件或者脚本。
  • 使用流程 参考图1可帮助您快速上手运维中心的主流程和核心功能。 图1 运维中心使用流程 应用部署 您可以使用部署服务,完成应用部署。 准备软件包:将开发完成的应用软件包通过流水线发布至部署服务,或者将已有的应用软件包上传至部署服务。 准备环境:应用部署前需要先准备环境。 更新环境:通过更新环境操作完成应用部署。 应用运维 您可以使用监控服务,对您的应用进行运维管理。 日志:监控服务提供兼具开箱即用和自助的日志接入能力,支持存算分离,提高日志检索效率;提供虚机、容器统一的日志采集Agent;通过采集侧清晰和汇聚指标提取等能力降低日志成本,提高日志的可靠性。 监控:监控服务支持实时监控应用及资源,采集各项指标及事件等数据以分析应用健康状态,提供全面、清晰、多维度数据可视化能力。 告警:监控服务提供静态阈值和异常检测生成告警的能力,提供告警抑制、告警收敛、告警自动化分析和恢复能力。 资源管理 管理容器:您可以使用弹性资源服务对应用部署使用到的容器资源进行管理。 管理虚拟机:您可以使用主机管理服务对应用部署使用到的虚拟机资源进行管理。 故障演练 您可以使用演练服务,对业务故障进行演练。 创建并发布故障场景:故障演练首先需要创建并发布故障场景。 创建并完善演练方案:通过创建演练方案,并为演练方案创建故障场景,完善方案设计。 编辑演练执行计划:将服务级演练方案下需要演练的故障场景按季度进行分配。 创建并执行演练任务:演练执行计划配置完成后,可以对计划执行快速演练。
  • 管理老化规则 成功创建后即可在“镜像老化”页面查看已创建的老化规则,您可以执行以下操作管理老化规则。 图2 老化规则 图3 任务详情 查看老化任务:当老化规则被触发时,符合规则范围的镜像将被删除。老化任务包含的信息如下: 表2 老化任务 参数 说明 任务ID 仓库内唯一的老化执行任务ID。 状态 任务完成状态。 触发模式 手动或自动。 单击“执行”或“模拟”为手动方式,通过规则定义的周期自动执行,则为自动方式。 模拟 是或否。 单击“模拟”则为是,单击“执行”则为否。模拟可用于确认规则是否生效,但不实际清理镜像版本。 持续时间 完成一次任务消耗的时间。 创建时间 老化任务被触发的时间。 操作 详情:任务详细信息,单击后在侧边栏可查看哪些镜像被删除(“老化数”非0,说明有镜像被删除)。 修改规则状态:表示规则启用,表示规则关闭。新创建的老化规则默认为启用状态,您可以自行调整。 执行:真实执行。为避免误操作,建议在首次执行老化规则前模拟执行。 模拟:模拟执行。可用于确认规则是否生效,但不实际清理镜像版本。 编辑:重新编辑老化规则,除“命名空间”外,其余参数均可编辑。 删除:删除该老化规则。