华为云用户手册

  • 弹性网络服务概述 弹性网络服务(ENS)通过引入“隔离域”这一网络资源概念,将业务使用的底层网络资源进行封装,为具有相同安全保护需求并相互信任的服务提供访问策略的安全分组。当服务器加入到隔离域后,即受到这些访问规则的保护。访问规则继承自选定的安全区域(安全域),并根据租户声明的服务依赖关系自动生成。 图1 ENS与原有模式差异 隔离域内部是在虚机子网或者容器网段上加安全域包装在一起的,当建立了隔离域后,业务层只感知隔离域与隔离域之间的互通关系。 图2 业务感知差异 父主题: 弹性网络服务
  • 隔离域概述 隔离域是一个逻辑上的安全分组,为具有相同安全保护需求并相互信任的服务提供访问策略。当服务器加入到隔离域后,即受到这些访问规则的保护。 创建隔离域需要选择站点、环境、安全区域和VPC信息,其中VPC主要用于决定网络资源(子网、安全组、ACL)在哪里创建。创建隔离域后,再基于隔离域创建子网,然后再创建ACL或者安全组。 隔离域提供访问策略的实现,现在有ACL和安全组两种,ACL和安全组都是规则的集合。 父主题: 隔离域
  • 功能说明 下表介绍了监控服务具体的功能,您可以根据需要选择。 功能 功能描述 故障预防 构建开箱即用标准化巡检,增强构建场景可编排、任务可定义的自动化巡检能力,帮助SRE快速分析和发现业务在现网运行的风险,可视化度量支撑业务纵横治理,驱动业务改进,从而提升业务可靠性、可运维能力、用户体验等。 提供运维共性问题分享能力,避免同类问题重复出现。 故障检测 提供基于指标监控、告警、日志、事件管理的服务运行状态检测能力。 指标,提供出厂标准的BaaS服务指标和自有服务纵向指标,支持业务自定义指标能力。 告警,提供静态阈值和异常检测生成告警的能力,提供告警抑制、告警收敛、告警自动化分析和恢复能力。 日志,构建统一的日志模型,提供兼具开箱即用和自助的日志接入能力,支持存算分离,提高日志检索效率;提供虚机、容器统一的日志采集Agent;通过采集侧清晰和汇聚指标提取等能力降低日志成本,提高日志的可靠性。 Events,围绕故障快速诊断,构建以服务运行状态检测为目标的运维Events中心;构建全景化的、基于运维Events的故障诊断能力;定义标准Events模型,对接不同的Events源;提供规则匹配能力和Events跟踪管理能力;支持运营事件的接入,支持生成知识库和标签管理能力。 运行状况,提供基于指标、告警、事件管理和日志的服务运行状况监控能力;定义标准的服务运行状态。 故障诊断 专家诊断工具,聚合Nuwa Trace、WiseDB、XPMS和WiseWAN水晶球等专业诊断能力。 AI辅助诊断服务,提供自适应异常检测能力和全链路智能根因诊断能力;整合专家诊断能力,持续构建ELB、SLB、基础设施侧根因诊断能力;异常检测支持5分钟快速检测,故障诊断提供一键式配置能力;支持完成告警聚合、调用链根因诊断,多维下钻分析,日志根因诊断,流量溯源诊断,事件总结算法的整合。 故障通报 以运维事件为中心,提供事件的管理、通报、War Room和自动派生工单的能力;运维通报遵从运维事件通报机制和流程,工单派生可跟踪流程和历史处理情况。 故障恢复 基于运维知识经验及自动化决策能力, 构建标准化故障场景自恢复能力,提供标准故障场景的恢复预案。 故障改进 提供故障恢复后事后分析能力。 运维数仓 构建高可靠、高性能、开放高效、全流程开放的运维数仓能力,主要包括: 数据开发,构建从数据接入、聚合、清洗、分发、到存储计算的全流程开放的数据开发能力,支撑业务自助完成指标定义。 构建统一运维数仓,承载指标库、日志库、链路库和事件库数据资产。 数据治理 ,提供针对运维数仓的数据价值洞察分析能力,助力业务聚焦价值,降低成本。 运维RPA 提供运维场景化可编排能力的技术支持平台,满足运维巡检场景化、监控场景化、运维流程的技术支撑。 运维可视化 提供可定义的监控报表能力,提供移动办公能力。
  • 应用场景 企业数字化转型进入云原生阶段,从以“资源”为中心向以“应用”为中心转变,以云原生应用为运维对象带来了新的要求,这需要SRE在理解业务的基础上,不仅要保证系统持续高可用,而且要重视高效交付,同时要提升用户体验和帮助企业降低成本,这些都需要运维平台具备智能化运维能力。 华为云AppStage智能运维平台是基于华为云赋能产业业务场景打造的一站式运维平台,它将华为内部沉淀多年的构建、管理、使用和维护大规模云原生应用的经验构建到平台上来,通过平台化的开放,让更多的能力、经验共享出来,实现向产业“经验即服务”的能力复制,大大降低了企业用户维护和使用云原生应用的门槛。 华为云AppStage智能运维平台围绕SRE的工作场景,基于内外部成功业务的优秀经验,把配套运维工具的流程、能力在实际产业业务场景中持续打磨,基于AI持续构建运维活动“自动驾驶”能力,打造自动化、数据化、智慧化运维平台,围绕运维的“感知(数字化)、决策(智能化)、执行(自动化)”能力持续提升。 父主题: 运维中心简介
  • 更多操作 您还可以对Druid汇聚任务进行以下操作。 表1 Druid汇聚任务管理 操作名称 操作步骤 编辑任务 在Druid汇聚任务列表中,单击待编辑的任务所在行“操作”列的“编辑”。 编辑任务后,单击“更新任务”。 撤销申请 在Druid汇聚任务列表中,单击待撤销申请的任务所在行“操作”列的“编辑”。 单击“撤销申请”。 停止任务 在Druid汇聚任务列表中,单击待停止的任务所在行“操作”列的“停止”。 删除任务 在Druid汇聚任务列表中,单击待删除的任务所在行“操作”列的“删除”。 补数据 在Druid汇聚任务列表中,单击待补数据的任务所在行“操作”列的“补数据”。 查看操作历史 在Druid汇聚任务列表中,单击待查看操作历史的任务所在行“操作”列的“操作历史”。 查看历史记录 在Druid汇聚任务列表中,单击待查看历史记录的任务所在行“操作”列的“历史记录”。 查看执行计划 在Druid汇聚任务列表中,单击待查看执行计划的任务所在行“操作”列的“执行计划”。 查看任务详情 在Druid汇聚任务列表中,单击待查看详情的任务所在行“操作”列的“详情”。
  • 软件包概述 AppStage运维中心支持对软件包、部署包、镜像包、SQL包等进行集中管理,用于升级变更服务的虚拟机。软件仓库不同软件包的说明如表1所示。 表1 包类型说明 包类型 说明 传包方式 使用方式 打包规范 软件包 应用软件包,可使用虚拟机部署和容器部署,一般用于虚拟机部署,包括软件包(虚拟机部署使用)、测试用例包、函数包(函数部署使用)。 使用开发中心推包/上传软件包 在IaC代码中定义需要使用的软件包,通过IaC变更完成应用部署。 软件包 部署包 用户部署虚拟机时使用的脚本包(playbook文件)。 运维中心发布/使用开发中心推包/上传部署包 使用部署包创建模板,根据模板创建虚拟机部署的变更任务,实现使用部署脚本完成软件的自动化部署。 部署包 镜像包 用户容器部署时使用的Docker的容器镜像包。 使用开发中心推包 在IaC代码中定义需要使用的镜像包,通过IaC变更完成容器化部署。 镜像包 SQL包 执行SQL变更的DDL、DML数据库脚本。 使用开发中心推包/上传SQL包 在WiseDBA中使用SQL包进行SQL变更,对数据库或数据库数据进行增删改查的操作。 SQL包 IaC 3.0包 描述IaC 3.0变更的执行过程及资源配置信息。 使用开发中心推包/上传IaC 3.0包 在变更环境时选择IaC包,完成资源配置及环境变更。 IaC 3.0包 Terraform包 描述Terraform引擎变更的执行过程及资源配置信息。 使用开发中心推包 在Terraform引擎的实例列表中使用代码包创建变更计划,完成资源配置及环境变更。 Terraform包 OS镜像包 操作系统镜像发布,普通用户一般不需要使用。 - - - 父主题: 软件包管理
  • 编辑任务 在HDFS页面列表中,单击待编辑任务的HDFS所在行的“编辑任务”,进入该路径详情页面。 单击“创建导流任务”,进入“导流任务配置”页面。 配置任务参数,参数说明如表2所示。配置完成后,单击“确定”。 表2 导流任务配置参数说明 参数名称 参数说明 Kafka Topic 选择已申请的Kafka Topic。 执行集群 选择执行的集群。 执行队列 选择执行队列。 批次大小 每次写入的数据条数。默认为10000,一般不需要修改。对于每条消息比较大的topic,需要调小批次大小。 从头开始消费Kafka 选择是否从头开始消费Kafka。 HDFS文件生成周期 - Kafka Group Id -
  • 更多操作 您还可以对HDFS进行以下操作。 表3 HDFS管理 操作名称 操作步骤 导入 在HDFS页面单击“导入”。 上传文件。 查看导入进度 在HDFS页面单击“查看导入进度”。 导出 在HDFS页面列表中,勾选需要导出的HDFS路径。 单击列表上方的“导出”。 HDFS查看预览 在HDFS页面单击“HDFS查看预览”。 在HDFS Query页面查看具体信息。 也可以选择集群或者HDFS路径过滤查看。 编辑Tags 在HDFS页面单击“编辑Tags”。 在“编辑Tags”页面单击“新建Tags”。 输入Tags并单击“保存”。 单击“确定”。 关联Tags 在HDFS页面列表中,单击待关联Tags的HDFS路径所在行的“关联Tags”。 选择已新建的Tags。 单击“确定”。 说明: 关联Tags之前须先编辑并新建Tags。 编辑HDFS路径 在HDFS页面列表中,单击待编辑HDFS路径所在行的“编辑”。 删除HDFS路径 在HDFS页面列表中,单击待删除HDFS路径所在行的“删除”。 查看操作历史 在HDFS页面列表中,单击待查看操作历史的HDFS路径所在行的“操作历史”。 查看历史版本信息 在HDFS页面列表中,单击待查看历史版本信息的HDFS路径所在行的“历史版本信息”。 (可选)可单击历史版本所在行的“对比当前版本”,查看版本差异。
  • 更多操作 您还可以对ClickHouse汇聚任务进行以下操作。 表1 ClickHouse汇聚任务管理 操作名称 操作步骤 编辑任务 在ClickHouse汇聚任务列表中,单击待编辑的任务所在行“操作”列的“编辑”。 编辑任务后,单击“更新任务”。 撤销申请 在ClickHouse汇聚任务列表中,单击待撤销申请的任务所在行“操作”列的“编辑”。 单击“撤销申请”。 停止任务 在ClickHouse汇聚任务列表中,单击待停止的任务所在行“操作”列的“停止”。 删除任务 在ClickHouse汇聚任务列表中,单击待删除的任务所在行“操作”列的“删除”。 补数据 在ClickHouse汇聚任务列表中,单击待补数据的任务所在行“操作”列的“补数据”。 查看操作历史 在ClickHouse汇聚任务列表中,单击待查看操作历史的任务所在行“操作”列的“操作历史”。 查看历史记录 在ClickHouse汇聚任务列表中,单击待查看历史记录的任务所在行“操作”列的“历史记录”。 查看执行计划 在ClickHouse汇聚任务列表中,单击待查看执行计划的任务所在行“操作”列的“执行计划”。 查看任务详情 在ClickHouse汇聚任务列表中,单击待查看详情的任务所在行“操作”列的“详情”。
  • 更多操作 您还可以对组件资源进行以下操作。 表3 组件管理操作 操作名称 操作步骤 下载 在代码包详情列表,可以选择需要下载的版本所在行“操作”列的“下载”。 解析 在代码包详情列表,可以选择需要解析的版本所在行“操作”列的“解析”。 激活、去激活 在代码包详情列表,可以选择需要激活的版本所在行“操作”列的“激活”。 已激活的版本,如需回退到之前的版本,可以把新版本的代码包“去激活”,变更后即可回退为最后一个激活的版本。
  • 功能介绍 表1 运维中心功能介绍 服务名称 服务简介 部署服务 基础设施即代码(Infrastructure as code,简称IaC)是一种基于软件开发实践形成的基础设施的自动化方法,它强调一致、可重复的供给和变更系统及其配置。当代码发生变更后,可以进行自动化测试,测试完成后可自动化的应用变更到运行系统中。使用基础设施即代码的方法,可以使用敏捷工程的优秀实践(如测试驱动开发、持续集成、持续发布)可以快速安全的变更基础设施。 部署服务按架构元素(服务)组织资源,软件单元(微服务或函数)作为最小变更单元 ,执行变更的结果围绕服务环境进行资源管理,每个组件可以独立发布版本、独立变更。 监控服务 监控服务(ServiceInsight)是一个面向自有服务和生态开发者的开发和运维SRE(Site Reliability Engineer),围绕故障生命周期,构建开箱即用的,集预防、检测、诊断、恢复、通报和改进于一体的可观测性平台。 演练服务 演练服务(WiseChaos)起始于系统改造,具备基本韧性,引入混沌工程并持续向IT化、自动化、智能化、场景化发展。对混沌工程实践进行全流程、数字化、体系化度量,具备精细化持续运营能力。通过完善工具链实现演练过程可控可视,演练场景可复用,高度自动化,最终实现无人值守演练。 弹性资源服务 弹性资源服务(Elastic Resource Service,简称ERS)提供资源池监控、访问安全控制、任务调度、业务负载弹性伸缩、集群联邦、配额管理和多种K8s扩展等能力,通过统一的对外接口提供业务管理能力,上层业务不再感知下层资源。同时提供Portal可视化管理容器,包括工作负载的管理、配置文件管理和容器WebTerminal。 弹性网络服务 弹性网络服务(Elastic Network Service,简称ENS)通过引入“隔离域”这一网络资源概念,将业务使用的底层网络资源进行封装。 主机管理服务 主机管理服务(VMS)是基于云原生的主机资源管理服务,负责各种类型的主机资源发放/回收/操作、OS管理、密码密钥管理。 父主题: 运维中心简介
  • 更多操作 您还可以对WarRoom进行以下操作。 表2 WarRoom管理 操作名称 操作步骤 查看WarRoom 在WarRoom列表,单击待查看WarRoom所在行“操作”列的“查看”。 克隆WarRoom 在WarRoom列表,单击待克隆WarRoom所在行“操作”列的“克隆”。 再次发送WarRoom 在WarRoom列表,单击待发送WarRoom所在行“操作”列的“再次发送”。 查看WarRoom通知日志 在WarRoom列表,单击待发送WarRoom所在行“操作”列的“日志”。
  • 告警类型说明 告警在列表中总共有五种状态,实际上告警本身只有告警中和已解决两种状态,根据这两种状态在系统中不同的标记又细分为五种状态,具体告警类型如表2所示。 表2 告警类型说明 告警类型 告警说明 当前告警 告警进入系统后如果没有被屏蔽规则屏蔽就会进入该页签,表示当前仍然是告警中状态且未被清除和屏蔽的告警。 屏蔽告警 告警进入系统后被设置的屏蔽规则自动屏蔽或者人为在界面上手动单击屏蔽的告警。屏蔽的告警分为两种,一种是有具体屏蔽时间的,到了屏蔽时间结束后会作为一条新的告警再次出现在当前告警的列表中,一种是没有屏蔽时间的,将会被永久屏蔽。 历史告警 历史告警都是已解决的告警,让告警进入已解决的状态的方式有两种,一种是上报的告警已解决,这条告警就会被清除进入历史告警,或者是在界面上直接清除告警也会进入历史告警。 未确认已恢复告警 系统接收到已解决或自动清除的告警,非界面操作影响的告警。 归档告警 历史告警中,告警级别在严重和紧急的告警且是已解决状态的,每个小时会被定时任务扫描到转移至归档告警。
  • 查询告警参数说明 可以用不同参数对告警进行查询,参数说明如表3所示。 表3 查询告警参数说明 告警参数 参数说明 应用/服务 告警所属的自有服务,不选则默认展示用户拥有权限下的所有告警。 告警级别 告警上报时所带的level字段。 显示模式 显示模式分为三种,告警收敛,原始告警和仅收敛告警。 告警收敛:展示未参与收敛的告警与收敛的告警是默认的显示模式,当告警被收敛后,收敛告警的正文中会统计当前收敛的子告警的状态。单击告警收敛后可以操作和查看具体子告警。 原始告警:原始告警展示除了收敛告警外的所有告警,包括已经被收敛了的原始告警也会展示。 仅收敛告警:仅展示已经被收敛了的告警。 状态 支持对未确认、已确认、已通知、处理中和处理完成的告警进行查询。 语音呼叫状态 告警当前的语音呼叫的状态。 告警类型 告警上报时的category字段。 入库时间 告警进入系统的时间。 区域 告警涉及的区域。 告警单发 选择是否查看属于告警单发的告警。
  • docker 功能说明 监控docker容器的cpu、mem、fs、net信息,并将结果上报给HCW。 参数配置 不需要配置。 消息样例及含义说明 由于容器ID与容器名称字段较长,暂时简写,实际上报数据为完整的容器ID和容器名称。 { "plugin_id": "docker", #单位: | 类型:string | 说明:插件名 "metric": [ { "node": "mepcontainer-46919-t6fhr.novalocal", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1531908504000", #单位: | 类型:string | 说明:字符类型时间戳 "container_id":"430ca6167102", #单位: | 类型:string | 说明:容器ID "container_name":"k8s_container-0_predictservice", #单位: | 类型:string | 说明:容器名称 "cpu_usage": "0.04", #单位: | 类型:string | 说明:容器cpu使用率 "mem_usage": "13.02 ", #单位: | 类型:string | 说明:容器内存使用率 "memory_limit_kbytes": "7340032.0", #单位:kb| 类型:string | 说明:容器分配内存 "memory_usage_kbytes": "1028096.0", #单位:kb| 类型:string | 说明:容器已使用内存 "fs_index_node_usage": "12", #单位: | 类型:string | 说明:容器文件系统索引使用率 "fs_usage": "12", #单位: | 类型:string | 说明:容器文件系统使用率 "fs_limit_mbytes": "9951", #单位:mb| 类型:string | 说明:容器分配文件系统大小 "fs_usage_mbytes": "1081", #单位:mb| 类型:string | 说明:容器分配文件系统已使用大小 "txkbps": "196.34", #单位: | 类型:string | 说明:网卡发送的kBps数 "rxkbps": "0.06", #单位: | 类型:string | 说明:网卡接收的kBps数 } ] }
  • gpu 功能说明 采集GPU信息,每次采集都为每个GPU,以及总GPU维度分别生成消息,并上报给HCW。 执行nvidia-smi命令,分别获取每个GPU的GPU-Util、Bus-Id、mem_used、mem_total、mem_util信息,并整合总GPU信息上报给HCW。 参数配置 不需要配置。 消息样例及含义说明 {    "plugin_id":"gpu", #单位: | 类型:string | 说明:插件名    "metric":{ "node": "bj-xen-pdc-241-202", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "_id":"GPU-0", #单位: | 类型:string | 说明:GPU编号,总GPU编号为GPU-ALL "_name":"Tesla P100-PCIE", #单位: | 类型:string | 说明:GPU型号 "bus_id":"0000:04:00.0", #单位: | 类型:string | 说明:GPU的Bus-Id "util":"61", #单位: | 类型:string | 说明:GPU使用率 "mem_used":"1385", #单位: | 类型:string | 说明:GPU已使用显存 "mem_total":"16276", #单位: | 类型:string | 说明:GPU显存总量 "mem_util":"8.50" #单位: | 类型:string | 说明:GPU显存使用率     } }
  • verify_os 功能说明 检测主机名是否有变更,并将检测结果返回HCW。 插件在HCW_Agent启动时,会将主机名存入HCW_Agent/temp/hostname.cache中,插件每个采集周期,会获取当前的主机名并与HCW_Agent/temp/hostname.cache中的主机名对比,若一致,返回0;不一致,返回1。 参数配置 不需要配置。 消息样例及含义说明 {    "plugin_id":"verify_os", #单位: | 类型:string | 说明:插件名    "metric":{ "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "hostname":"1", #单位: | 类型:string | 说明:主机名对比结果,相同为0,不同为1 } }
  • icmp 功能说明 监控主机是否连通,并将结果上报给HCW。 参数配置 配置样例: proxy_address:10.22.0.xxx:xxxx # proxy地址 ip_segment:10.2.0.xx/xx, 10.2.0.xx/xx # 待检测主机IP段,支持填写以逗号分隔的多个IP段 消息样例及含义说明 { "plugin_id":"icmp", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-23-0-130", #单位: | 类型:string | 说明:异常主机的主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "ping":"1", #单位: | 类型:string | 说明:异常主机连接状态:1可达;0不可达 "ping_loss":"0", #单位: | 类型:string | 说明:异常主机丢包率 }, { "node": " host-10-23-0-2", #单位: | 类型:string | 说明:异常主机的主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "ping":"0", #单位: | 类型:string | 说明:异常主机连接状态:1可达;0不可达 "ping_loss":"100", #单位: | 类型:string | 说明:异常主机丢包率 }] }
  • 步骤二:纳管VPC 在“VPC纳管”页面,单击“纳管”。 配置VPC纳管参数,配置参数如表2所示,配置完成后,单击“确定”。 纳管后该VPC会显示在VPC列表中。 表2 VPC纳管参数说明 参数名称 参数说明 HWS 账号 选择需要纳管的VPC所属的华为云账号。 HWS 区域 选择需要纳管的VPC所在的区域。 VPC名称 选择需要纳管的VPC。 终端节点子网 选择为需要纳管的VPC创建终端节点的子网。 说明: 如果该VPC下存在多个子网,其他子网需要与该子网保持网络互通。
  • 更多操作 自定义巡检项创建后,您还可以对巡检项进行以下操作。 表4 相关操作 操作名称 操作步骤 查看巡检项详情 在自定义巡检项列表,单击待查看详情的巡检项所在行“操作”列的“详情”。 启用巡检项 在自定义巡检项列表,单击待启用的巡检项所在行“启用状态”列的,当状态显示为“启用”,表示启用成功。 禁用巡检项 在自定义巡检项列表,单击待禁用的巡检项所在行“启用状态”列的,当状态显示为“未启用”,表示禁用成功。 巡检项禁用后将不可用,创建巡检场景时不能选择到已禁用的巡检项。 编辑巡检项 在自定义巡检项列表,单击待编辑巡检项所在行“操作”列的“编辑”。 删除巡检项 在自定义巡检项列表,单击待删除巡检项所在行“操作”列的“删除”。
  • 更多操作 您还可以进行以下操作。 仅演练问题的创建人才能编辑、删除问题以及创建、编辑、删除改进措施。 表3 演练问题管理 操作名称 操作步骤 编辑演练问题 在演练问题列表,单击待编辑的演练问题所在行“操作”列的“编辑”。 删除演练问题 在演练问题列表,单击待删除的演练问题所在行“操作”列的“删除”。 导出演练问题 在“演练问题管理”页面,单击“导出”。 编辑改进措施 在“改进措施”页面,单击待编辑措施所在行“操作”列的“编辑”。 删除改进措施 在“改进措施”页面,单击待编辑措施所在行“操作”列的“删除”。
  • 使用流程 使用部署服务完成自动化变更流程如下: 准备工作 准备软件包:将开发完成的应用软件包通过流水线发布至部署服务,或者将已有的应用软件包上传至部署服务。 准备环境:应用部署前需要先准备环境。 变更前配置 提交变更电子流:变更工单是实施现网变更的授权许可,业务需要发起现网变更时,通常会由研发人员提交变更电子流,并附上对应的变更文档。该电子流被审批通过后,会在变更工单管理中,创建一条对应的变更工单,运维可使用变更工单实施变更。 创建变更策略(可选):部署服务提供对变更过程中的风险项进行管控,如需实现无人值守变更,可以通过创建变更策略实现。 创建变更配置(可选):部署服务提供配置部署服务自动变更的巡检场景和通知参数,如需实现无人值守变更,可通过创建变更配置实现在变更时对相应的变更项进行巡检。 变更环境 IaC变更:部署服务可以通过部署服务代码,完成资源申请、集群扩容、虚拟机部署、配置集/配置项创建等变更。 界面变更(可选) 创建集群:部署服务支持通过界面直接创建虚拟机部署的集群。 扩容集群:部署服务支持通过界面对已申请或者已创建的集群进行扩容。 部署虚拟机:部署服务支持通过界面完成虚拟机部署。 其他功能 Terraform变更(可选):使用Terraform引擎将业务部署至应用平台AppStage。
  • 主要功能介绍 主要功能 功能说明 变更管理 含变更流程管理、变更流程编排、变更灰度执行的能力,用于端到端控制变更质量和效率。 IaC引擎 声明式变更执行引擎,负责IaC代码的解析和执行,插件式框架支持多种资源操作的扩展定制。执行过程支持变更灰度策略、风险控制等能力。 软件仓库 支持微服务、函数、web静态资源、SQL、大数据/AI训练模型、容器镜像等多种软件制品的发布和管理,生产环境软件制品唯一来源。 环境管理 部署服务IaC代码执行后,提供环境的创建,删除,更新,归档,恢复等全生命周期管理,并按照环境聚合环境包含的资源的监控数据。 配置管理 统一配置中心,含IaaS-PaaS-SaaS软件配置,全球化统一管理,支持完整性检查、冲突校验等治理能力。支持灰度分发配置能力,支持配置项按灰度策略按比例分发到Agent节点等。
  • 服务优势 统一变更的管控入口,变更管理除支持IaC变更外增加对手工运维变更和ITR紧急变更的统一管控和变更记录。 统一运行时托管平台,将可靠性、韧性、可运维、安全等能力built-in,实现服务部署即可信。 基于IaC3.0声明式,实现资源创建、服务部署、配置变更自动化对接运行时,实现服务可靠运行。 具有丰富的变更评估因素和评估算法,具有高评估召回率和准确率。 支持根据评估结果对变更进行干预(暂停、回滚等),实现系统自动决策。
  • 功能特性 功能 功能描述 告警列表 告警的控制台,提供对于告警的一系列处理操作和生命周期查询。 告警通知 告警的通知在所有的告警处理的链路结束以后才会发生。告警处理模块会根据上报告警的上下文获取告警的值班配置,值班配置由业务预置。 告警屏蔽 为您提供短时间的屏蔽功能,可以通过设置告警屏蔽的规则,告警将在屏蔽的时间内不再触发任何通知,规则结束后,将会被再次唤醒,屏蔽期间告警被清除后,将不再触发任何通知,减少您的处理频度。 告警过滤 告警过滤是直接在接入的阶段就将告警屏蔽,告警仍然会进入Bypass的数据库但不会再向下发送给告警处理模块。 告警收敛 多个维度的告警,通过特定的条件将它们变为一条告警,只需要配置自定义的收敛规则,就可以将重复告警收敛到一起,当然还有默认的规则帮助你维护告警。 告警标记 告警标记的作用是为一段时间内的告警打上标签,例如现网变更或者现网演练时,由于要模拟大量异常请求和其他操作会造成大量无用告警上报,标记的作用就是为这一段时间的告警打上标签与正常告警进行区分。 告警定义 如果您对于繁琐复杂的告警上报字段感到困惑,可以使用统一告警定义,该功能会自动下发到业务对应的agent,使用更加人性化的界面设计,让告警上报更加统一、准确。 告警修复 设置特定的命中条件,告警在发送通知之前将会进行预置的修复脚本,修复操作,自动帮助您修复简单的告警。 语音值班配置 配置对应的责任人,当告警生成时,通过短信、电话等形式,快速通知责任人。
  • 部署服务 表1 部署服务基本概念 基本概念 说明 资源 资源是具备一定功能和作用的实例,是部署服务的管理对象,如WiseCloud::MicloudService::NuwaContainer实例、WiseCloud::Cache::D CS 实例等。 组件 组件是一个具有相同资源的集合,组件具备以下特点: 可以在组件中声明资源以及资源之间的依赖关系。 同一个资源只能属于一个组件。 组件下的所有资源上下文一致。 环境 环境是一个具有相同组件的集合,环境具有以下特点: 部署服务代码中的environment-id是“环境”的唯一索引。 不同环境下的组件和资源可以同名,同一环境下的资源和组件名称需要保证唯一。 一个组件只能属于一个环境,一个环境下会有多个组件。 环境变更的本质是环境下组件的变更。 流水线 流水线是将多个组件的变更组合起来的流程描述,描述各个组件变更的方式和次序。 变更工单 变更工单是实施现网变更的授权许可,业务需要发起现网变更时,通常会由研发人员提交变更电子流,并附上对应的变更文档。该电子流被审批通过后,会在变更工单管理中,创建一条对应的变更工单,运维可使用变更工单实施变更。 变更计划 变更计划是部署服务发起具体变更动作前的风险影响评估过程。通过风险影响评估过程可以得到,本次变更可能导致的资源动作和属性差异变化,以及可能的风险项。 变更风险项 变更风险项是某个资源的具体变更的风险认定。其描述了认定为风险变更的属性变化,以及能够审批允许的审批人列表。 变更策略 变更策略是由资源提供方或是部署服务平台方按照资源类型预先定义的,在变更计划中被用于产生风险项的管控要素。它是变更管控的重要一环,识别了何种资源操作以及怎样的属性变化是高风险的,并同时指定产生的风险项应当由具备哪些岗位或角色的审批人来审批允许。 变更配置 变更配置与监控服务(ServiceInsight)配合使用,通过配置变更巡检任务,在变更时会对相应的变更项进行巡检。 变更电子流 变更电子流是用于无人值守变更的高度自动化的变更方式,是在部署服务基础上,尽可能将所有的运维手工选择操作前移到提交电子流之前。 Terraform Terraform是HashiCorp公司开发的基础设施即代码(Infrastructure-as-Code,IaC)软件,它能自动化的进行 资源编排 ,用于安全高效地预览、配置和管理云基础架构和资源,并提供自定义解决方案,目前已被多家主流公有云厂家支持和集成。
  • 监控服务 表2 监控服务基本概念 基本概念 说明 监控 是采集、汇总和分析IT基础设施、服务组件以及程序应用的运行指标,以了解其当前状态和运行状况,判断是否安全可靠的过程,是保证业务持续稳定运行的重要手段。 告警 告警是监控系统的响应组件,它根据指标值的变化按照既定的策略执行响应操作,其主要目的是引起人们对系统当前状态的关注。告警定义包含基于指标的条件或阈值以及当指标值达到或超出定义条件时要执行的操作。 告警通知 告警的通知在所有的告警处理的链路结束以后才会发生。告警处理模块会根据上报告警的上下文获取告警的值班配置,值班配置由业务预置。 告警屏蔽 为您提供短时间的屏蔽功能,可以通过设置告警屏蔽的规则,告警将在屏蔽的时间内不再触发任何通知,规则结束后,将会被再次唤醒,屏蔽期间告警被清除后,将不再触发任何通知,减少您的处理频度。 告警过滤 告警过滤是直接在接入的阶段就将告警屏蔽,告警仍然会进入Bypass的数据库但不会再向下发送给告警处理模块。 告警收敛 多个维度的告警,通过特定的条件将它们变为一条告警,只需要配置自定义的收敛规则,就可以将重复告警收敛到一起,当然还有默认的规则帮助你维护告警。 告警标记 告警标记的作用是为一段时间内的告警打上标签,例如现网变更或者现网演练时,由于要模拟大量异常请求和其他操作会造成大量无用告警上报,标记的作用就是为这一段时间的告警打上标签与正常告警进行区分。 告警定义 对于繁琐复杂的告警上报字段感到困惑,使用统一定义,将会自动下发到业务对应的agent,更加人性化的界面设计,使告警上报更加统一、准确。 告警修复 设置特定的命中条件,告警在发送通知之前会执行预置的修复脚本,进行修复操作,自动帮你修复简单的告警。 语音值班配置 当告警生成时,配置对应的责任人,通过短信、电话等多种形式,快速将异常情况通知到责任人。 日志 日志是指设备、系统或服务程序在运作时都会产生的事件记录,每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。一般系统会有各种各样的日志文件,如应用程序日志,安全日志、系统日志、Scheduler服务日志、FTP日志、WWW日志、DNS服务器日志等。 日志项目 日志项目是一个包含多个日志服务配置的整体,可以看作是一个微服务实例。 同一个微服务实例下的日志服务配置应当包含在一个日志项目中。 不同微服务实例使用完全相同的日志服务配置时,也可以共用同一个日志项目。 日志空间 日志空间是日志服务为微服务的日志分配的使用空间。 业务须在日志接入页面填写日志相关信息并提交申请日志空间,日志空间支持定义空间内日志的结构化格式信息,此时要求所有使用此空间的日志都满足该日志格式。 日志采集配置 日志采集配置是日志服务采集端在采集微服务实例中日志时所需的配置,一种日志对应一项采集配置。 日志采集配置须归属于一个日志项目,并使用一个已分配好的日志空间。 日志采集配置之间可以共用日志空间,此时需要关注日志空间的日志格式要求,未定义日志格式的空间可不用关注。 巡检 巡检是指定期对IT系统进行全面的检查和评估,以确保系统的稳定性和可用性。通过系统巡检,SRE可以及时发现潜在的问题和故障,提前采取措施进行解决和预防,从而减少系统故障的发生和缩短故障恢复时间。同时,系统巡检还可以帮助SRE团队了解系统的运行状况和性能表现,为优化系统的配置和改进运维流程提供依据。 事件 事件是指IT基础设施、服务组件以及程序应用等运行过程中发生的问题。事件可通过监控系统自动生成、客户报障生成或SRE主动巡检生成等。监控系统生成事件首先要采集和分析运行数据,然后根据预定规则判断是否需要生成事件。 HCW HW Cloud Watch,监控系统,可以提供监控、告警功能。 HCW Agent 监控系统的采集框架,需要在每台主机上部署,部署路径为/opt/huawei/HCW_Agent。 EAP 事件自动化平台(Event & Action Platform,EAP),通过集成各系统动作,解决复杂运维场景的操作编排功能。 流程 可以通过EAP平台所提供的各种动作组合来编排解决具体运维场景的流程。 动作 各服务的操作(例如部署任务、执行作业、确认告警等)封装。 标签 对某一类特定群体或对象的某项特征进行的抽象分类和概括,其值(标签值)具备可分类性。 标签树 标签树负责标签的管理,包括标签的创建,删除,修改。系统标签由系统管理员统一进行管理,业务自定义标签由业务人员进行管理。 逻辑主体 逻辑主体是业务实体的抽象。 在AIOPS的实时场景,逻辑主体基于物理表(Druid、ClickHouse、influxDB)创建。逻辑主体和物理表之间存在映射关系,逻辑主体的字段名称和物理表可以不一样,这也是为了实现业务属性和物理表之间的解耦。 一个逻辑主体可以映射多种物理实体,当底层数据物理表变更(Druid表发生变更,或者需要从ClickHouse原始数据计算指标),上层的指标逻辑定义可以不用发生变化。 指标 指标是指在被观测系统中观察和收集的资源使用或行为的测量值,可能是原始采集的数据,也可能是后期经过各种计算和统计方法得到的数值。 令牌 令牌是使用数据源的鉴权方式,只有通过对应业务的token的鉴权,才能使用对应的数据源。 视图 指标本身包含了业务计算规则,只有结合数据源才能真正被查询。视图,就是指标 + 物理表的结合,也是监控大盘上直接可被查询的对象。视图可以包含一个或多个指标,例如折线图只需要单指标的视图,但是表格就需要多指标的视图。 查询视图(Query View)。直接作用于物理表的查询视图,大多用在druid实时监控场景。 长期存储视图(Long Term View)。基于查询视图,可以创建长期存储视图。如果觉得某个查询视图值得被长期持久化,就可以使用该能力。长期存储视图会自动创建三个聚合任务,分别是5分钟粒度、小时粒度、天粒度。 持久化视图(Persistent View)。基于查询视图,可以创建持久化视图。部分视图需要出日报,就可以使用该能力。该视图会自动创建一个汇聚任务。 异常检测视图(Anomaly Detect View)。基于查询视图,可以创建异常检测视图,用来为异常检测任务提供数据。 插件 可在机器上执行并采集各项参数的二进制文件或者脚本。
  • 演练服务 表3 演练服务基本概念 基本概念 说明 BCM 业务连续性管理(Business Continuity Management,BCM),是识别业务潜在威胁,分析威胁一旦发生对业务运营可能带来的影响,通过有效应对措施保护关键利益关系人的利益、信誉、品牌和价值创造活动,建设业务恢复能力的管理过程。 演练 通过向系统的指定位置注入指定故障,观察实验结果,以验证和提高系统可用性的过程。 IMP 应急预案( Incident Management Plan,IMP),是为应对可能发生的突发事件,保护人员安全、降低财产损失、加强应急沟通拟制的应对程序和计划,防止损失扩大。 BCP 业务连续性计划(Business Continuity Plan,BCP),保证关键产品关键活动在预定可接受水平上的业务连续。在业务影响分析 、风险评估和恢复策略选择的基础上,拟制应对方案和计划。 故障场景 是对现实情况中故障的模拟,通过向被测系统注入故障,实现测试、优化系统稳定性的目的。 故障模式 是演练服务中的混沌工程工具根据系统可能发生故障的直接或根本原因,模拟出各种故障场景的能力。 稳态指标 是根据系统稳态的假说,分析给出一组代表系统健康度的指标及度量阈值,这组指标就被称为稳态指标。 演练监控 为了判断系统是否稳定运行以及故障注入是否执行成功,可提前配置系统稳态指标,在演练过程中实时监测,感知系统状态变化。
  • 更多操作 您还可以对MPPDB进行以下操作。 表1 MPPDB管理 操作名称 操作步骤 导入 在MPPDB页面单击“导入”。 上传文件。 查看导入进度 在MPPDB页面单击“查看导入进度”。 导出 在MPPDB页面列表中,勾选需要导出的MPPDB表。 单击列表上方的“导出”。 编辑Tags 在Hive页面单击“编辑Tags”。 在“编辑Tags”页面单击“新建Tags”。 输入Tags并单击“保存”。 单击“确定”。 关联Tags 在MPPDB页面列表中,单击待关联Tags表所在行的“关联Tags”。 选择已新建的Tags。 单击“确定”。 说明: 关联Tags之前须先编辑并新建Tags。 编辑表 在MPPDB页面列表中,单击待编辑MPPDB表所在行的“编辑”。 删除表 在MPPDB页面列表中,单击待删除MPPDB表所在行的“删除”。 查看操作历史 在MPPDB页面列表中,单击待查看操作历史的MPPDB表所在行的“操作历史”。 查看历史版本信息 在MPPDB页面列表中,单击待查看历史版本信息的MPPDB表所在行的“历史版本信息”。 (可选)可单击历史版本所在行的“对比当前版本”,查看版本差异。
  • 创建提取任务 在Druid页面列表中,单击待编辑任务的Druid数据源所在行的“编辑任务”,进入该数据源提取任务页面。 单击“创建任务”,进入“创建任务”页面。 配置任务参数,参数说明如表2所示。配置完成后,单击“确定”。 表2 配置任务参数说明 参数名称 参数说明 名称 Druid提取任务名,默认与数据源同名,无需手动填写。 描述 输入描述信息。 调度集成 定时执行Druid提取任务的调度集群。 Kafka Topic 选择需要消费数据的kafka topic。 使用最早offset消费 首次提交的任务设置为false,补数据时配置为true。 任务数 需要多少个并发进程同时读取该druid任务所对应的kafka topic,任务数(默认为2)应该小于topic分区数,并且能被topic分区数所整除,这样每个druid的子任务可以读取相同的数据量,达到负载均衡的效果。 指标列表 该指标列表由创建数据源时选择的指标决定,如果指标与对应的kafka字段名一致,会自动填充,如果不一致,需手动添加映射。 任务配置完成后,在Druid页面列表中,单击已编辑的任务的Druid数据源所在行的“启动”,启动导流任务. 在数据源生命周期内,Druid集群会持续提取Kafka数据到Druid数据源中。
共100000条