云服务器内容精选

  • 计算服务选型 华为云提供的计算服务主要是E CS (Elastic Cloud Server)服务和CCE(Cloud Container Engine)服务,华为云提供了很多ECS的实例类型,如下表所示,以满足多样化的计算场景需求。 关于上述ECS实例类型的详细信息,请查看实例类型。 表1 ECS实例类型 架构 实例类型 实例系列 系列说明 适用场景 x86 通用计算增强型 c 计算、存储、网络各方面性能均衡,CPU独享、性能稳定 适合大部分应用场景 ac 与c系列相比,CPU不同、同规格分配的网络带宽更小,保持稳定性能的同时成本更低 高性能计算型 h 与c系列相比,CPU主频更高、计算性能高20%左右 HPC/游戏/科学计算 内存优化型 m 与c系列相比,提供1:8的CPU/内存配比,内存性能更强 内存密集型,数据库/内存数据库 am 与ac系列相比,提供1:8的CPU/内存配比,内存性能更强 超大内存型 e 与c系列相比,提供1:20的CPU/内存配比,内存性能更强 磁盘增强型 d 与c系列相比,提供大容量、低成本的SATA本地盘 大数据/缓存数据库 超高I/O型 i 与c系列相比,提供高IOPS、低时延的大容量NVMe本地盘 ir 与c系列相比,提供高IOPS、低时延的小容量NVMe本地盘 通用计算型 s 与c系列相比,采用非绑定CPU共享调度模式,主机负载较轻时可提供基本与c系列一致的计算性能,成本更低、性价比更高,但无法保证实例计算性能的稳定,适合对性能抖动容忍度较高的场景 一般Web/开发环境/小型数据库 通用入门型 t 成本最低的实例,具备突发性能能力,突发时长受CPU积分影响,低价格 个人使用/维护终端等 GPU加速型 g 搭载T4卡,图像加速 3D动画渲染、CAD p 搭载V100卡,计算加速 AI深度学习、科学计算 pi 搭载T4卡,推理加速 实时推理+轻量级训练 AI加速型 ai 搭载昇腾310芯片,计算加速或推理加速 深度学习、科学计算、CAE ARM 鲲鹏通用计算增强型 kc 与c系列相比,采用鲲鹏处理器,价格更低 已适配ARM的大部分应用场景 鲲鹏内存优化型 km 与m系列相比,采用鲲鹏处理器,价格更低 数据库/内存数据库 鲲鹏超高I/O型 ki 与i系列相比,采用鲲鹏处理器,价格更低 大数据/缓存数据库 鲲鹏AI推理加速型 kai 与ai系列相比,采用鲲鹏处理器,价格更低 深度学习、科学计算、CAE 以下是ECS服务的选型原则: 业务适用:满足业务需求是选型的第一原则,除CPU、内存外,要特别重点关注带宽需求,通常同一系列的实例规格越大支持的带宽越大。 性价比:在能够满足业务需求的情况下,需要考虑低成本的选型方案。例如:同规格情况下,s系列/ac系列价格低于c系列,运维终端等无强性能需求时选择t系列更划算。对于业务量波动较大的业务,建议通过多节点集群负荷分担+AS弹性伸缩配合,此场景不建议使用大规格实例节点,否则弹性缩容到最小节点数时会存在较多的性能浪费。 可靠性:资源选型需要考虑如何降低故障率、避免单点故障,因此建议优先选择新系列(规格中代系数字更大的),且跨双可用区均衡部署。资源选型优化降本不能以牺牲业务的可靠性为代价,集群组网中单个节点故障不应造成剩余节点超负荷。 一致性:为保证基于镜像的快速扩容、快速恢复、弹性伸缩,承载同一类服务的主机,要求选型规格保持一致,无特殊需求的情况下同一业务系统中避免使用过多的实例类型/规格。 资源满足度:考虑业务发展和扩容诉求,资源选型时一般建议选择主力型号,避免选择老旧、冷门的规格,且尽量选择在主力可用区(如北京四的可用区1和7、上海一的可用区1和4)。 除AI等特殊场景需要使用BMS外,通用算力一般使用ECS即可,几个典型场景的选型建议如下: 表2 典型场景的ECS服务选型 位置 典型应用 选型建议 接入层 负载均衡/应用代理 Nginx c/m系列 运维终端 跳板机 t系列 应用层 普通应用 Web服务 ac/am系列 高性能计算服务 转码服务 c/m系列 中间件层 自建中间件 自建Redis/RocketMQ c/m系列 数据层 自建数据库 自建MySQL/Oracle c/m系列 父主题: 云服务选型
  • 安全参考框架 基于上述安全设计原则,华为云推荐采用“一个中心 + 七层防线”的安全参考框架和华为云提供的云原生安全服务来构筑企业的云上安全防护体系,如下图所示。该安全框架完全遵守了纵深防御原则,将各种安全防护措施有机组合起来,针对保护对象(企业的关键业务系统和核心数据),因地制宜的部署合适的安全措施,形成多层安全防线,各层安全防线能够相互支持和补救,避免攻击者突破单层防线后畅通无阻,层层阻击,为防御方检测响应赢得时间。 图1 一个中心和七层防线 物理安全防线 华为云建设和运营的数据中心都严格实施了五层安全防护,包括机房容灾、人员管理、运维审计、数据销毁和物理隔离、CCTV和门禁等防护措施,华为云的租户无需关注数据中心的物理安全。但对于部署在企业自建机房的专属云,企业需要自己做好物理安全防护。 身份认证防线 需要基于零信任理念做好身份认证和权限管理,授权要遵从最小授权的原则,用户认证默认要启用多因素认证,管理好特权账号,对用户在云平台上的任何操作进行记录和审计。 建议参考官网提供的 IAM 最佳实践。 网络防线 核心是要做好网络边界防护和内网东西向的访问控制。 网络边界防护:网络边界主要指的是企业内部网络与外部网络的边界,典型的场景如互联网接入、VPN、专线接入。客户可以基于华为云提供的 云防火墙 (Cloud Firewall,CFW)、VPC的安全组和ACL实施网络边界访问控制。CFW内置了网络入侵检测、入侵防御的功能。网络边界的策略应该严格按照白名单开通,应该禁止对外开放高危端口和协议。 东西向网络防护:应该对不同的业务按密级实施分层分级管理,如将不同密级的业务部署在不同的VPC中,通过VPC实施大的网络安全域隔离,通过CFW实施东西向VPC网络之间访问控制,并通过VPC的安全组和ACL在VPC内进一步实施网络微分段隔离。 应用防线 面向互联网发布的应用应该默认部署WAF防护。应用的安全是设计出来的,要重视在软件安全工程上的投入,提高应用的内生安全能力。从安全风险的角度,应优先关注面向外部网络暴露的应用,同时要识别内部核心关键应用,对这些应用优先实施针对性的安全加固。 主机防线 在主机层面进行入侵检测往往是最有效的,主机上要全面覆盖主机安全产品,主机安全产品可以帮助做好主机的漏洞管理,安全配置管理等基础性工作。 数据防线 要做好数据资产的主动发现和分类分级,围绕数据全生命周期开展数据安全治理工作,对重要数据使用过程中考虑脱敏、加密、审计等措施,对重要数据做好备份。基于身份控制策略、网络控制策略和资源控制策略构筑坚固的数据安全边界,保障敏感数据不泄露。 运维防线 要限制只能从安全的网络环境发起运维活动,并为运维人员建立专门的运维访问通道,如让运维人员使用专门的运维服务、 堡垒机 接入运维,尽量减少黑屏运维操作,降低运维活动过程中的不确定性,确保运维的活动可审计可追溯。 一个中心 安全防护三分在于技术,七分在于运营,只有各层防线的安全产品得到正确的配置和良好的维护,才能有效的发挥出安全防护的效果。通过一个统一的安全运营平台,将各种安全产品能力有机的整合起来,将安全防护的效果最大化。 纵深防御体系的建设往往需要经历一个漫长的过程,很难一蹴而就,在建设的过程中需要考虑安全、效率、成本和体验方面的平衡。企业应该例行开展安全风险评估,针对TOP安全风险实施针对性的安全加固,持续提升安全防护的能力,并通过红蓝对抗等机制来检验安全防护体系的有效性。 父主题: 安全架构设计
  • 大数据参考架构 下图是典型的大数据架构,从数据集成、存储、计算、调度、查询和应用,构成了一个完整的数据流。 图1 大数据参考架构 大数据架构通常包括以下几个核心组件和流程,企业可以根据实际需要选择云服务或自建大数据组件: 业务数据源: 业务数据源是大数据平台的数据输入来源,可以是传感器、网站日志、移动应用、社交媒体等各种数据源。通过数据采集和提取,将原始数据收集到大数据平台进行后续处理和分析。 数据集成: 数据集成是将来自不同数据源的数据进行整合和转换的过程。这包括数据清洗、数据预处理、数据格式转换、数据合并等操作,以确保数据的一致性和准确性。 数据存储: 大数据平台需要具备高效的数据存储能力,以承载海量的数据。常见的数据存储技术包括分布式文件系统(如HDFS)、列式数据库(如HBase)等。这些存储系统提供高可靠性、可扩展性和容错性,以支持大规模数据的存储和访问需求。 大数据计算: 大数据计算是对海量数据进行分布式、并行和实时处理的关键环节。主要的计算框架包括Hadoop、Spark、Flink等,它们支持分布式计算模型和任务调度。通过这些计算框架,可以进行数据处理、特征提取、机器学习、数据挖掘等复杂的计算和分析任务。 数据查询和分析: 对于大量的存储在大数据平台中的数据,需要提供灵活且高性能的查询和分析能力。这可以通过使用SQL查询引擎(如Hive)或 分布式数据库 (如Elasticsearch)等实现。这些工具和系统支持在海量数据集上进行查询、聚合和可视化,以提供数据洞见和决策支持。 任务调度: 大数据平台通常需要处理复杂的数据作业。任务调度系统(如Azkaban等)用于管理和调度各种数据处理作业,可以设置作业的依赖关系、调度频率、重试策略等,以确保作业的顺利执行和任务的准时完成。 数据应用: 大数据平台的最终目的是为业务提供有价值的数据应用。数据应用可以是基于大数据分析的实时报表、可视化仪表盘、智能推荐系统、欺诈检测系统等。通过将大数据的分析结果与业务流程集成,可以实现数据驱动的业务决策和创新。 父主题: 大数据架构设计
  • 任务调研 任务调研主要包括如下方面: 表1 任务调研方法表 调研内容 描述 任务调度 如Azkaban、DolphinScheduler,Hera、Crontab等。 任务类型 基于编程语言分类: Jar类:常用于 MRS 、Flink、Spark等 SQL类: 常用于Hive、Spark、UDF等 Python类:常用于Spark、算法场景等 其他类:如Shell、Scala等,多用于脚本调用 任务数量 调研各类任务的总数量,用于评估任务迁移周期及改造工作量。如:Azkaban任务调度平台下,Jar任务820个。 任务更新周期 识别出不同调度平台,不同任务类型的任务更新周期。如:Azkaban调度平台Jar类任务月度更新;XXL-Job平台Shell类型任务每日22:00点更新。 任务详细信息 识别出所有任务的详细信息,包括任务ID、名称、责任部门、责任人、执行时间、更新周期等。用于后续任务改造和迁移时,和关键人员及时沟通。 任务依赖关系 识别关键任务,识别任务间依赖关系。 调研的方法主要是通过当前大数据平台获取,并辅助一些调研访谈进行补充和确认。 父主题: 大数据调研
  • 统一运维管理 以运维监控账号为中心,在这里集中部署云运维中心(Cloud Operation Center,COC)和 应用运维管理 服务(Application Operations Management, AOM ),针对其他子账号进行统一的监控和运维管理,如下图所示。 运维监控账号中的AOM服务与其他账号下的AOM服务进行协同,可以统一接入其他账号下的各个云服务的监控指标数据,并在运维监控账号中统一查看这些指标数据,在此基础上进一步统一配置告警规则。 具体实施步骤请参考通过多账号聚合Prometheus实例实现指标数据统一监控。 运维监控账号中的COC服务当前可以统一纳管其他账号下的云资源进行统一的资源管理,也可以将运维指令下发给其他账号执行。 图3 多账号的统一运维管理
  • 统一安全管理 以安全运营账号为中心,在这里集中部署 安全云脑 (SecMaster)、 数据安全中心 (Data Security Center,DSC)、数据库安全服务(Database Security Service,DBSS)、 数据加密 服务(Data Encryption Workshop, DEW)、 云证书管理服务 (Cloud Certificate Manager,CCM)等,针对其他子账号进行统一的安全管理,如下图所示。 安全运营账号中的SecMaster服务可以与部署在其他账号下的安全云脑和HSS服务进行协同,无需登录到其他账号,在安全运营账号中就可以对其他账号进行统一的安全运营,包括统一云上资产管理、统一的安全态势管理、统一安全信息和事件管理、统一的安全编排与响应等活动。安全运营账号的DSC服务可以对所有成员账号进行统一的数据安全防护,包括针对所有成员账号的统一数据安全风险识别和统一数据保护(数据水印、数据脱敏)。安全运营账号的DBSS服务可以基于Agent采集模式,在网络可达的前提下,实现跨账号的数据库审计和统一信息展现。安全运营账号的CCM服务可以集中申请SSL证书,然后通过 RAM 服务共享给其他账号使用。安全运营账号的DEW服务可以集中创建KMS秘钥,然后通过RAM服务共享给其他账号使用。 图1 多账号的统一安全管理 网络安全防护相关的服务,如WAF、Anti-DDoS和网络防火墙等服务,按照就近部署原则集中部署在网络运营账号,以保护网络运营账号中的NAT网关和弹性公网IP等网络连接资源。
  • 统一合规审计 审计人员以日志账号为中心对所有成员账号进行统一的操作审计,而无需逐个登录到成员账号,如下图所示。统一的操作审计包括对所有成员账号统一配置追踪器和关键操作通知。 在日志账号的 CTS 中统一创建组织追踪器,汇聚各个成员账号中CTS收集的审计日志,配置将组织追踪器的审计记录转储到日志账号的LTS中。 在上述LTS中可以集中查看所有成员账号的审计记录。 在LTS中还可以针对关键操作(如创建、删除资源)配置告警通知。 图2 多账号的统一操作审计 审计人员还可以基于Config服务提供的组织合规规则和组织合规规则包对成员账号进行统一的资源配置审计,统一呈现所有成员账号中不合规的资源配置。
  • 统一财务管理 我们建议您在企业中心创建子账号时,选择财务托管模式。建立财务托管关系之后,财务管理员可以在主账号中统一管理子账号的资金、账单及发票,子账号的云资源消费统一由主账号支付。华为云统一开票给主账号,华为云的交易主体是主账号。如下图所示。 图4 多账号的统一财务管理 财务托管模式下,主账号可以针对子账号执行以下统一财务管理。 共享商务:主子账号间商务实现默认共享,避免客户重复申请子账号商务,大大降低客户成本。 统一支付:子账号无须通过主账号手工划拨现金、信用和代金券的方式进行消费,子账号消费统一由主账号支付,大幅降低财务操作负担。 一站式账单管理:主账号可以查询所有子账号的账单,也可以将多个子账号的账单合并至一个账单。 统一发票:主账号可针对单个子账号的消费开票,也可以将所有子账号的费用合并开票。 统一成本管理:主账号统一管理所有子账号的成本,包括统一预算管理、统一成本预测、统一成本分析、统一成本监控和统一成本优化等,大幅提升集团企业客户的成本管理效率。
  • 平台调研 大数据平台调研主要调研大数据集群、大数据任务调度平台和数据流向。 调研大数据集群 需要调研大数据集群的数量和功能划分,各个集群或组件负责的业务和处理的数据类型,处理实时/离线数据的组件及详细版本信息,数据格式类型和压缩算法,数据安全性和权限控制,高可用性和容错机制,扩展性和弹性等。 调研大数据集群数量和功能划分:例如Hadoop集群、Spark集群、Hive集群等,并根据业务需求划分它们的功能,如存储集群、计算集群、查询集群等。 调研各个集群或组件负责的业务范围,以及它们处理的数据类型和数据流转的方式。 调研用于处理实时数据和离线数据的组件,例如实时数据可能使用Apache Kafka、Apache Flink等,离线数据可能使用Hadoop、Spark等。 调研数据格式类型和压缩算法: 调研平台对数据的安全性和权限控制机制,例如数据加密、用户访问权限管理等。 了解大数据集群的高可用性和容错机制,包括故障恢复、备份策略、容灾方案等。 调研大数据任务调度平台 需要调研大数据任务调度平台的类型、版本、支持的大数据框架和技术,调度任务类型,可视化和管理界面,扩展性和集成性,容错和故障恢复,安全性和权限控制以及社区支持和文档资料等方面的信息。用于后续大数据调度平台的选型和方案设计。 调研现有的大数据任务调度平台的类型,例如Azkaban等,了解它们的特点和适用场景。 调研现有大数据任务调度平台的版本,并了解最新版本的功能更新和改进。 确认任务调度平台是否支持当前使用的大数据框架和技术,例如Hadoop、Spark、Hive、Pig、Flink等。 调研任务调度平台支持的任务类型,包括Jar类任务、SQL类任务、脚本类任务(Python、Shell)等。 调研任务调度平台是否提供可视化和管理界面,以方便任务调度的配置、监控和管理。 了解任务调度平台的容错机制,包括任务失败后的重试机制、故障恢复策略等。
  • 大数据调研简介 大数据迁移是指将大数据集群、大数据任务调度平台和大数据应用从一个运行环境迁移到另一个运行环境的过程。 图1 大数据调研的对象 大数据迁移需要调研以下信息: 大数据平台调研,包括大数据集群、任务调度平台、数据流向。 数据调研,包括待迁移的数据类型、数据量、元数据、数据权限、数据更新频率等。 任务调研,包括待迁移的任务类型、任务数量、更新周期等。 本节重点介绍大数据平台、数据和任务的调研。
  • 正式切换 正式切换的组织、准备和角色分工同切换演练基本一致,这里不再重复介绍。切换实施时,按照正式切换Runbook执行。不同业务系统的切换方案不同,对应的切换Runbook步骤也会不同,下面Runbook切换步骤仅供参考: 切换前准备和检查 正式切换前,先要按照Runbook Check List做切换前准备和检查,不同业务系统的切换Runbook准备和检查步骤会有所不同,下面步骤仅供参考: 表1 切换前准备和检查项 大类 前置工作项 责任部门 活动 是否涉及 是否完成 组织和保障准备 确定停机切换窗口 企业项目经理 确定停机切换窗口为:X月X日X时X分开始 是 是 确认停机公告图片和话术 企业项目经理 确认停机公告图片和话术已更新为最新版本 是 是 通知相关人员发布官网公告 企业项目经理 邮件发送通知相关人员进行官网公告发布 是 是 预约会议作战室 企业项目经理 会议室布置安排 是 是 切换相关人员通知和核对 企业项目经理 确认切换参与人员是否可以出席 是 否 企业项目经理 第三方配合切换当晚参与人员和联系方式确定 是 是 企业项目经理 停服切换期间,运营中心值班人员就位 是 是 企业内部发送内部通知 企业项目经理 切换通知群名:XX项目切换群 是 是 云厂家建立后端保障团队 云厂家项目经理 云厂家建立和客户的联合切换保障团队 云厂家单独拉通后端运维和研发组建保障群 是 是 第三方/业态影响沟通和提醒 第三方/业态提前通知项 企业项目经理 分别与业态沟通停机影响和应对方案 是 否 运维团队 对于第三方调用固定IP地址的情况,确认配置修改详细步骤 是 否 环境清单核对 确定发版暂停的截至日期 研发团队 确定发版暂停的截至日期 是 否 应用清单检查并刷新启停脚本 研发团队 研发人员Check上云应用清单 是 否 JOB清单检查并刷新脚本 研发团队 Check最新的job清单 是 否 研发团队 检查脚本中的清单是否是最新的 是 否 环境(源端、目的端、迁移任务、执行脚本)检查 云服务基础检查项 运维团队 确认运维提供的测试wifi是否已准备就绪 是 否 运维团队 检查华为云专线同步带宽使用是否有超带宽的告警 是 否 运维团队 云厂家后端保障人员进行日常状态检查 是 否 运维团队 云服务高可性检查,确认目标端云资源是否存在单AZ或单点故障问题 是 否 数据库检查项 数据库相关 检查华为云数据库端口是否和生产保持一致 是 否 数据库相关 检查NTP时钟设置是否一致 是 否 数据库相关 检查中间件Redis数据迁移任务状态正常,无异常报错或告警(包含回退任务) 是 否 数据库相关 检查DRS-mysql数据迁移任务状态‘增量迁移中’,无异常报错或告警(包含回退任务),数据动态比对任务配置完成 是 否 数据库相关 检查DRS-mongodb数据迁移任务状态‘增量迁移中’,无异常报错或告警(包含回退任务) 是 否 数据库相关 检查MySQL数据库源和目的端字符集是否一致 是 是 数据库相关 数据库确认源端和目的端库用户一致 是 是 周边系统配合检查项 大数据相关 修改大数据抽数的数据库地址为IDC备库地址 是 否 执行脚本检查 运维团队 应用服务启动脚本放在执行机 是 否 运维团队 应用心跳检查脚本放在执行机 是 否 日志系统检查 运维团队 检查ELK日志平台,是否能承受大量应用启动时产生的大量日志 是 否 告警监控系统检查 运维团队 监控系统是否正常 是 是 磁盘无用信息清理 运维团队 生产环境检查磁盘使用情况,提前执行脚本批量清理磁盘 是 是 操作指导书、工具、终端和登陆平台准备 通知全员更新到最新的Runbook 项目经理 同步最新生产Runbook地址给切换全员(包含业态人员) 是 否 相关人员准备 项目经理 人员最后一次熟悉整体切换流程以及各自操作指导 是 否 相关人员操作权限检查 ALL 人员登录操作环境检查操作权限(登录系统,OS,操作界面等) 是 否 测试团队 ITSM是否可以正常登录?是否可以正常记录上云项目的问题? 是 否 ALL 登录批处理任务平台后检查当天操作人员是否有操作执行器的权限 是 否 操作终端检查 ALL 具体到人,割接、演练前一晚必须确保笔记本,环境等无异常(DBA单独一根网线,提前准备好大交换机) 是 否 测试客户端检查 测试团队 测试人员清理客户端以及浏览器缓存 是 否 Runbook切换操作 完成切换前准备和检查后,企业就可以按照Runbook中的计划和步骤进行正式切换了,每个任务都要严格按照Runbook中的操作命令进行操作,不同业务系统对应的切换Runbook步骤会有不同,下面步骤仅供参考,注意步骤顺序标号一致的表示是并行执行。 如果批处理任务较多,切换时间窗有限,可根据优先级分批次进行启动。 表2 切换操作步骤样例 任务 步骤顺序 子任务 源端业务流量转发至维护公告页面 1.1 变更CMDB业务状态为维护中 1.2 外部访问流量转发至维护公告页面 停止源端定时任务 2.1 停止源端的定时任务 2.1 停止源端的数据库定时任务 停止源端应用服务及配置中心 3.1 停止源端应用服务(xxx个) 3.1 停止源端配置中心 消息队列数据迁移 4.1 消息队列MQ数据迁移 4.2 等待&确认kafka消费完成 确认源端的数据层数据静止 5.1 确认源端的redis数据静止 5.1 确认源端的MySQL数据静止 5.1 确认源端的MongoDB数据静止 数据一致性对比 6.1 redis数据一致性对比、停止同步任务 6.1 MongoDB数据一致性对比、停止同步任务 6.1 MySQL 数据一致性对比、停止同步任务 修改数据层的DNS内网 域名 解析 7.1 修改应用间访问的内部域名-》华为云上应用实例 7.1 修改目的端redis的内网域名-》华为云实例IP 7.1 修改目的端的MySQL的内网域名-》华为云实例IP 7.1 修改目的端MongoDB的内网域名-》华为云实例IP 7.1 修改目的端消息队列MQ的内网域名-》华为云实例IP 7.1 修改目的端Kafka的内网域名-》华为云实例IP 启动配置中心、定时任务调度服务、JOB注册、开启kafka消费开关 8.1 启动配置中心 8.2 启动定时任务调度服务 8.3 批量发布配置中心配置(执行JOB注册) 8.3 批量发布配置中心配置(开启kafka的消费开关) 8.4 检查阿配置中心和定时任务调度服务的开关是否正确 内网停机公告撤销&启动目的端应用&检查 9.1 启动目标端消息队列MQ 9.2 启动目的端应用服务(xxx个服务) 9.3 心跳检查 9.4 基础业务检查 9.5 内网维护公告页面下线 启动目的端的数据库定时任务和优先级最高的定时任务) 10.1 启动数据库定时任务 10.1 启动目的端第一批批处理任务 主流程测试(P0用例) 11.1 主流程测试(P0用例) 进行验证测试,确保应用程序在目标云环境中正常运行。 验证核心功能和关键业务流程,确保与迁移前一致。 监测日志和指标,确保系统运行情况正常。 外网停机公告撤销 12.1 外网维护公告页面下线 启动目的端第二批批处理任务 13.1 启动目的端第二批批处理任务 13.2 P1业务验证 (启动JOB后,P1用例验证) 14.1 验证目的端业务功能 启动目的端第三批批处理任务 15.1 启动目的端第三批批处理任务 启动目的端第二批批处理任务 13.1 启动目的端第二批批处理任务 父主题: 切换
  • 大数据平台部署 大数据平台的部署可以参考如下方法: 大数据集群部署 基于架构设计的原则,云上大数据集群一般采用云服务。华为云MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka等大数据组件。 具体部署方法可参考MRS官网文档。 大数据任务调度平台部署 如果目标架构是采用华为云的任务调度平台 DataArts Studio ,可以参考如下官网文档进行部署和配置。 如果目标架构是采用自建的大数据任务调度平台,有2种方法部署,可以基于华为云ECS重新部署大数据任务调度软件,或者是使用华为云 SMS 工具将源端调度平台迁移到华为云ECS。 大数据应用部署 大数据应用的部署有2种方法,可以基于华为云ECS重新部署大数据应用,或者是使用华为云SMS工具将大数据应用迁移到华为云ECS。
  • 平台权限配置 平台权限配置 在部署好目标大数据平台后,为了确保正确的权限设置,可以参考源端平台的权限设置,并按照以下步骤进行设置: 审查源端权限设置 仔细审查源端平台的权限设置,包括用户、角色、组织结构和权限级别等信息。了解每个用户的权限范围和访问权限,以便在目标平台上进行对应的设置。 创建用户和角色 根据源端平台的权限设置,创建相应的用户和角色。确保在目标平台上设置与源端平台一致的用户身份和角色分配。 调整权限级别和范围 在目标平台上,根据源端平台的权限设置,调整权限级别和范围。确保目标平台上的权限设置与源端平台一致,并确保用户只能访问其应有的资源。 权限分配和继承 在目标平台上,根据源端平台的权限设置,对用户进行权限分配和继承。确保用户在目标平台上具有与源端平台相同的权限,并能够继承相应的角色和权限设置。 审查和调整访问控制 审查目标平台上的访问控制机制,并根据源端平台的权限设置进行调整。确保访问控制能够限制用户的访问范围,并遵循源端平台的权限规则。 安全审计和监测 设置安全审计和监测机制,确保目标平台上的权限设置得到有效的审计和监测。这可以帮助发现和防止未经授权的访问,并及时采取相应的措施。
  • 性能验证 性能验证 应用系统迁移到云上后,底层技术组件更换了,云上的技术组件默认参数可能与源端默认参数不同,或者源端和目的端的技术组件实现机制不同,可能会导致上云发生性能问题,需要进行性能测试,性能测试内容包括如下三类。 表4 性能测试内容 测试内容 说明 云服务性能测试 针对某个云服务进行性能测试,比如数据库,Hbase、存储的IOPS等。 应用接口性能测试 接口性能是系统性能评估的一个方面,针对某几个接口进行针对性接口压测。 应用整体性能测试 根据应用的使用场景,比如大促期间,上千人同时浏览一个产品并抢购的场景下,整体的性能测试。 这三类性能测试的目的如下表所示。 表5 性能测试目的说明 测试内容 目的 云服务性能测试 评估云服务的规格是否满足应用高并发下的性能,参数是否是最优配置。 应用接口性能测试 针对某几个接口评估接口的极限负载能力 应用整体性能测试 确定云上业务系统的极限负载能力:通过高并发、高负载的测试,确定云上业务系统可以承载的最大负载,以及达到极限负载时系统的表现和响应时间。在压力逐步上升的过程中,观察云上业务系统在承载和源端压力相当时的性能表现,并对比收集到的指标,确定是否存在问题。 验证系统的稳定性和可靠性:通过长时间、高负载的测试,验证云上业务系统在各种情况下的稳定性和可靠性,包括系统资源的管理、数据传输、异常处理等。 评估系统的可扩展性:在系统压力逐步增大的过程中,测试云上业务系统的可扩展性,可以确定系统是否可以扩展到更大的规模,并支持更多的用户和业务需求 识别系统的性能瓶颈:通过对云上业务系统的压力测试,可以识别系统的瓶颈,确定迁移过程中业务环境的改变带来的系统性能问题,从而优化系统性能。
  • 功能验证 功能测试内容 功能测试确保应用系统在上线前能够正常运行,以下是功能测试的内容: 表1 功能测试内容列表 测试内容分类 说明 本应用功能测试 测试的内容强依赖应用系统的功能,比如某电商系统,核心的功能测试用例至少包括线上线下的浏览、购物、下单支付(各种支付途径支付、用劵支付)、打印账单、开发票、活动促销、库存同步、新会员注册,老会员退会、订单退款、订单返劵等核心功能。 周边系统集成功能测试 测试的内容强依赖应用系统的集成功能,比如某大型零售电商平台,和某团购平台、某外卖平台、某到家平台、某小视频平台等都有业务合作,集成的用例至少包括在这些集成平台的下单、用劵、通知发货,评论等各种功能的验证。 功能测试目的 验证应用系统迁移到目标端华为云后,更换了技术组件后的应用功能是否正常 验证应用更换到目标端后,应用和周边的系统的集成是否正常,识别需要周边系统配合修改的内容都已修改正常。 功能测试方法 冒烟测试:冒烟测试是一种简单的功能测试,通过执行少量的核心测试用例来验证系统是否可用。在目标端部署完成后,可以首先执行冒烟测试来确认系统的基本功能是否正常。 全业务功能测试:全面的业务功能测试可以验证系统的所有功能是否正常,通过执行针对各种业务流程的测试用例,确保所有功能模块正常。 日志分析 :在目的端业务部署完成后,需要对系统的日志进行分析,检查是否存在异常情况的错误信息。通过日志分析可以发现一些潜在的问题和隐患,及时进行修复和优化。 DNS劫持测试:因云上部署的业务一般按照生产环境的域名进行配置,在使用手机App或浏览器测试业务功能时,需要配合使用DNS劫持的方式进行测试,可以使用内网WIFI及运维改造的APISIX,配合WiFi上的DNS解析,劫持流量指向测试环境,进行的内网测试。 功能测试流程 图1 功能测试流程 确定测试目标和重点关注点:明确需要测试的应用功能和场景,以及测试的重点和关注点。 系统功能:如促销活动,用劵支付、退货反劵等 批处理JOB功能:若本次搬迁的应用同时涉及多个批处理JOB,在功能测试时,需要重点关注批处理JOB的执行情况,比如库存推数。 第三方业务集成功能:如某团购平台、某外卖平台、某到家平台、某小视频平台的集成功能验证,以及门店POS支付等功能验证。 确认测试环境:确认使用哪个环境用作测试,不要对生产业务造成影响。注意,如果有请求第三方接口的业务,需要注意外网隔离,防止测试污染生产数据,可以通过内网搭建特殊WIFI,让内部测试人员登录模拟进行三方功能的测试。 表2 测试环境的对比分析 场景 测试环境选择建议 优点 缺点 目标端华为云生产环境是否已上线部分应用 方案1:在目标端华为云生产环境用作测试 1.测试后直接转生产上线,节省工作量 2.各项参数在测试期间已调为最优 需做好网络隔离,有对现网影响的风险。 方案2:在目标端华为云新建一套测试环境用作测试 对现网无影响 1.新搭建一套环境有一定的成本费用 2.在测试环境调测好的配置参数需要1:1配置到生产环境,有一定工作量 目标端华为云生产环境是全新环境 目标端华为云生产环境用作测试 1.测试后直接转生产上线,节省工作量 2.各项参数在测试期间已调为最优 无 设计测试用例:根据测试目标,设计和准备测试用例。切换之前的测试用例要尽可能的全覆盖,切换期间,由于测试时间有限,建议将测试用例划分P0、P1、P2三个优先级。 P0定义:最核心的功能用例,此用例通过,可以决策不再考虑回退。 P1定义:重要功能用例,此用例通过表示基本功能全部可用,此用例通过后,即可宣布当晚切换成功,可取消外部维护公告。 P2定义:其他补充用例,如切换时间窗足够,可切换当晚测试,如果切换时间窗不够,可第二天测试。 表3 测试用例执行说明 阶段 测试用例 覆盖率 切换前测试 所有 包括所有的应用功能和第三方集成功能测试。特殊无法测试场景需单独讨论模拟测试方案。 切换期间测试 分P0、P1、P2三个级别。 在切换时间窗内至少完成P0和P1级用例测试。 根据切换时间窗口,时间窗口充足,完成所有的用例,时间窗口不足,至少完成P0和P1级用例。 对于测试环境的测试用例选择,企业需要根据应用场景分析是否具备测试条件,比如第三方库存同步的用例,第三方只有生产环境对接本企业生产环境,无法对接测试环境情况下,此用例就无法测试。所以需识别无法测试的用例,评估测试用例的覆盖率,对于无法覆盖的用例单独讨论模拟测试方法,参考如下: 场景 是否具备测试条件 特殊场景应对措施 第三系统下单 第三方系统由于和测试环境无法打通,所以在测试环境无法测试 针对无法测试的场景,讨论应对方案如直接调用库存同步接口模拟测试 库存同步 第三方库存由于和测试环境的库存系统无法打通,所以在测试环境无法进行测试 针对无法测试的场景,讨论应对方案如直接调用库存同步接口模拟测试 支付 线上支付具备测试条件 线下POS支付由于和测试环境无法打通网络,不具备测试条件 针对无法测试的场景,讨论应对方案如:直接调用接口模拟测试等 … … … 预置测试数据:为了确保测试的真实性和有效性,需提前预置测试数据。可以使用源端测试环境数据,也可以使用脱敏后的生产数据。 执行测试用例:部分企业测试自动化起步较晚,大量用例仍需要人工执行,手工执行用例,在测试过程中需执行人详细记录测试时间、测试人员、用例执行结果等相关信息。部分企业已有自动化测试能力,上云过程中只需要将新增的用例增加到自动化平台自动执行。 输出测试报告:全部测试用例测试完成后,输出测试报告。 总的来说,功能测试需要确保测试环境和生产环境尽可能的一致,测试用例覆盖率100%,以保证应用上云后的功能正常。