华为云用户手册

  • 大数据迁移批次规划说明 大数据迁移上云时,是选择整体迁移还是分批迁移,原则如下: 整体迁移的场景: 规模小:大数据平台数据量少(TB级),计算任务数量不多,可以采用整体迁移的方法,先在云上部署大数据平台,然后全量迁移元数据、数据和任务。 关联关系复杂:大数据任务之间的关联关系很复杂,很难拆分,此时也可以选择整体迁移。 分批迁移的场景:大数据规模很大,但关联关系比较清晰。 大数据平台数据量大(PB级甚至EB级),计算任务数量多。虽然规模很大,但任务之间关联关系很清晰,比如可以按照业务域进行清晰的梳理,此时我们可以对大数据按业务域进行拆分,将有关联的数据、任务、应用划分到一个批次进行迁移。分批次迁移可以有效的减少大数据迁移的风险,降低迁移方案复杂度,提高迁移效率。 大数据迁移通常按照主题域进行分批。主题域通常是按照业务功能划分,将有相似业务逻辑的关联数据集合到一起,比如销售主题域、供应链主题域、日志处理主题域等。每个主题域有专门的数据处理流程、分析模型和相关业务逻辑,以支持特定的业务需求和分析目标。大数据迁移批次规划的参考原则如下: 按主题域进行分批: 按主题域分批需要考虑2个相关性,数据相关性和任务相关性。数据相关性是指将具有相似业务逻辑、相互依赖或紧密相关的数据放在同一批次中,以确保一致性和完整性。任务相关性是指将具有依赖关系的任务和数据集中放在同一批次中。这样可以保证任务在正确的数据上运行,并确保任务之间的顺序和一致性。基于这2个相关性,将主题域划分为多个迁移批次,将相关的任务和数据流集中在同一批次中,提高迁移效率和降低风险。 尽量减少批次数量:大数据迁移过程中会对数据进行抽取、转换、加载等操作,每个操作步骤都会增加复杂度和风险,影响数据的一致性,因此,应尽量减少批次的数量。 批次间相互独立:批次划分时,确保不同批次间尽量是相互独立的、松耦合的,很少有相互依赖的任务和数据流。独立的批次划分,有助于降低迁移中对其它业务域的影响。 批次内紧耦合:批次划分时,确保每个批次包含相关性较高的主题域和相互依赖的任务和数据流,包括数据共享场景。 保证业务的连续性:迁移过程中应避免业务中断的情况发生,因此,在迁移批次划分时,需要考虑将与主题域关联性强的大数据应用系统也放在同一批次,以减少业务中断的风险。 迁移优先级排序:根据业务优先级、迁移复杂度、数据量等因素,对主题域进行优先级排序。通常,先迁移数据量较小或相对简单的主题域,后迁移复杂的主题域。 父主题: 批次规划
  • 停写不停读切换方案 停写不停读,主要指切换期间,为了追求较好的用户体验,保持一部分读的服务不停服,保持在线可使用状态;为了保持数据一致性,写的服务仍然采用停服方式进行切换。从业务对外体验上,多数用户感知不到停服的影响,比如某购物平台,用户仍然可以浏览商品,但是不能下单,下单时可友好的提示:系统正在升级中,预计凌晨4点恢复,请您稍后重试下单等。 四种停写不停读切换方案对比 停写不停读切换有4种方案可以选择: 表1 四种停写不停读切换方式 方案 操作方式 适用场景 操作复杂程度 改造工作量 网关拦截 接入层,服务网关拦截写请求,放通读请求 入口统一,有统一网关,网关具有拦截能力,并对拦截的接口能配置友好的提示。 简单 无需改造 停止写服务,读服务不停 写服务或对应接口shutdown,读服务或对应接口保持alive 应用层服务已做读写分离场景,每个服务只进行单独的读操作或写操作,没有同时进行读写的服务 简单 无需改造 应用层先做读写分离改造,然后停止写服务,读不停 应用层修改代码,拆分读写服务 应用层服务没有读写分离的场景 复杂 大 中间件层/数据层直接回收写权限 中间件层/数据层设置业务账号只读,收回写权限 直接回收写权限,业务系统会报错,需要做相关轻微改造处理这些报错 简单 轻微改造 网关拦截 服务网关(Gatekeeper、Zuul、Kong等),拦截写请求,放通读请求;例如Gatekeeper网关可以拦截POST请求,只放通GET请求。这可以通过在Gatekeeper网关上配置规则来实现。可以设置一个规则,只允许GET请求通过,拒绝POST请求。 图1 网关拦截方案 写服务关停 应用层服务已做读写分离的场景,直接关停写服务或对应接口下线shutdown,读服务或对应接口保持在线,从而达到业务只读不写的效果。 图2 写服务关停方案 应用改造 应用代码进行读写分离改造,改造后再按照8.4.3.3写服务关停方案实施,实现只读不写的效果。 图3 应用改造方案 中间件层/数据层配置只读 中间件层和数据层收回业务账号写权限,不允许服务写中间件层/数据层的操作。 图4 中间件和数据只读方案 父主题: 设计切换方案
  • 什么是云运营模式 在云计算技术出现之前,企业已经建立了IT运营模式用来定义IT如何支撑业务发展。狭义上的IT运营模式是指企业管理和运营其IT资源、服务和基础设施的方式,它涉及到如何有效地配置、管理和优化IT资源,旨在提升性能和效率、降低成本、增强灵活性,以支持企业的业务目标和战略。广义上的IT运营模式还包括组织结构、运营流程、角色和职责等要素。简单来讲,IT运营模式是指IT部门如何运作的方式。传统的IT运营模式侧重于部署在自建数据中心或IDC机房的IT基础设施,包括IT硬件和虚拟化等基础软件,企业通常需要一次性购买IT硬件和基础软件资产,支撑业务系统的安全稳定运行。IT硬件的性能会逐步下降甚至损坏,技术人员需要花费大量时间管理、维护和更新IT硬件。 当云计算技术出现之后,企业基于云平台和云服务搭建IT基础设施,并逐步把大量业务系统迁移或者直接部署在公有云上,IT运营模式进入云计算时代。基于云平台的IT运营模式(简称云运营模式)将企业的关注点从IT基础设施上移到应用程序和数据资产,您需要有效配置、管理和优化云资源,以支持业务系统在云上的安全稳定运行。简单来讲,云运营模式是指企业如何利用云技术和云服务支撑业务发展的方式。云运营模式和传统IT运营模式的目标是一致的,都是通过技术支撑企业达成业务目标,最大化业务价值。两者的差异如下表所示。 表1 传统IT运营模式和云运营模式的区别 比较项 传统IT运营模式 云运营模式 成本模式 依赖于资本支出(Capex),需要提前规划和购买硬件设备,周期较长。 采用按需付费的运营支出(Opex)模式,企业可以根据实际使用情况灵活调整成本,减少了前期投入。 管理重点 企业的管理重点在于IT基础设施的维护、服务器的正常运行时间以及数据中心的物理安全。 企业的管理重点转向更高层次的操作,如应用程序的性能优化、数据管理和 云安全 。 敏捷性 硬件采购和部署周期较长,资源扩展需要经过复杂的审批和采购流程,响应速度较慢。 创新和变更受到硬件资源的限制,难以快速适应业务需求的变化。 云资源可以按需动态扩展或缩减,企业可以快速响应业务需求的变化。 部署新应用或功能的速度显著提高,支持敏捷开发和持续交付。 创新不再受硬件采购周期的限制,企业可以更快地试验和推出新产品或服务。 安全性 企业承担所有的安全保护职责。 安全性主要依赖于数据中心的物理边界和内部网络的防护。 采用共享安全责任模型,云服务商负责云平台和云服务本身的安全,企业负责上层应用和数据的安全。 云服务商也会提供云原生安全服务和云安全最佳实践帮助企业保护上层应用和数据的安全。 人员技能 技术人员主要管理和维护IT基础设施,需要大量时间处理硬件故障、性能优化和系统更新等工作 需要具备硬件维护、网络管理、虚拟化技术等技能。 技术人员需要掌握云平台的使用、云资源的配置与优化、自动化运维工具以及云安全管理等技能。 需要具备更加高层次的技能,如应用程序性能优化、数据管理。 云运营模式在灵活性、敏捷性和成本效益方面具有显著优势,但也对企业的人员技能和安全管理提出了更高的要求。企业需要根据自身业务需求和发展战略,逐步从传统IT运营模式向云运营模式转型。 云运营模式并不是企业云化转型的结果,并不是把业务系统都迁移到云上就自然拥有了一个能够有效支撑业务目标的云运营模式。制定一个良好的云运营模式是确保企业云化转型成功的前提。企业需要根据当前的IT运营模式和业务系统的特点设计最佳的云运营模式,以最大化云计算带来的业务价值。云运营模式需要明确CCoE团队和应用团队之间的责任界面和协作机制。华为云基于大量企业的云化转型经验,总结了以下三种云运营模式。 父主题: 云运营模式
  • 骨干互联区主要功能 集中部署企业路由器(ER),为云上云下互联、云上多账号多VPC互联、云上跨Region互联构建网络枢纽。 集中部署VPN或专线与本地数据中心互联,打通云上云下互联的通道,所有账号都可以共享使用VPN或专线与本地数据中心通信。 集中部署云连接(Cloud Connect,CC)与华为云其他的Region进行网络互联,所有账号都可以共享使用CC与其他Region通信。 集中部署VPN与第三方云进行网络互联,所有账号都可以共享使用VPN与其第三方云通信。
  • 整体框架 华为云CAF提供系统的和完整的云化转型方法论和最佳实践,CAF的完整性体现在两个方面,一要涵盖云化转型的全部旅程,二要涵盖云化转型所有干系人的视角。CAF的整体框架如下图所示。 图1 CAF整体框架 云化全旅程按照时间顺序包含以下六个阶段。 制定战略:制定云化转型的战略,这个战略要与组织的业务战略和技术战略保持对齐,确保云化转型能够实现组织的业务目标。在该阶段需要分析干系人利益、识别云化驱动力、评估云化成熟度、制定云化目标和分析云化收益,然后制定符合组织业务战略的云化转型战略。 顶层规划:云化转型是一项系统性工程,不是简单的将应用系统迁移到云上,需要基于组织的云化转型战略有针对性的设计云化转型的顶层框架,从组织、流程和技术方面整体考虑。在组织层面需要组建一个云卓越中心(Cloud Center of Excellence,简称CCoE)来领导、协调和推进整个云化转型项目。在技术层面需要基于卓越架构(Well-Architected Framework,简称WAF)设计Landing Zone、安全架构和平台工程。在流程层面需要根据组织的IT运营模式设计最佳的云运营模式,并基于云运营模式制定应用生命周期管理流程,最大化云计算带来的业务价值。 调研评估:针对组织的IT基础设施、应用系统和大数据平台进行现状调研,包括静态配置信息和动态运行信息的收集和分析,针对现状信息进行评估分析,选择正确的云服务,为后续详细方案设计提供有效输入。 方案设计:在云化转型的顶层设计框架内,基于调研评估结果,再结合组织的业务架构和WAF框架,详细设计云上技术架构、云上应用架构和云上数据架构,通过卓越的架构设计保障云基础设施和应用系统的安全性、可靠性和高性能。在该阶段需要根据应用系统的重要性制定POC试点和批次迁移计划,根据应用系统的特征选择合适的迁移策略,同时也需要制定云上的成本预算计划,最终整合输出详细设计方案。 采用实施:基于详细设计方案,首先要搭建Landing Zone,部署可扩展的网络基础设施,配置安全基线和运维基线;然后将各个应用系统和大数据平台迁移或直接部署到云上,或者基于云平台进行应用现代化改造,也可以基于云平台提供的各种创新技术直接在云上进行应用和业务创新。 运维治理:将应用系统迁移或部署到云上之后就进入了运维治理阶段,在该阶段需要针对云基础设施、应用系统和大数据平台进行持续的精益化治理、确定性运维、持续安全运营和成本运营,并基于WAF框架进行持续优化。 云化转型项目涉及组织内很多部门和干系人,这些干系人会参与云化转型项目的决策或影响云化旅程的各个阶段。如表1所示,不同的干系人有不同的视角和关注点,这些视角总体分为业务视角和技术视角。 华为云CAF会针对所有这些视角给出恰当的建议,您的组织可以将这些建议作为决策和行动的起点,结合组织的业务特点和偏好制定有针对性的行动方案。 表1 云化全视角 分类 视角 关注点 干系人 业务 战略视角 基于云化转型项目支撑组织的业务战略和数字化战略,充分利用云计算的优势构建组织的核心竞争力。 CXO高级管理人员 业务 业务视角 提升业务连续性,支撑业务的持续发展; 加速新业务上市速度,快速满足不断变化的市场需求; 基于云上创新技术进行业务、产品或模式创新,为组织带来增量收益。 业务主管、CIO 业务 财务视角 云采用前后的TCO对比分析,降低IT的TCO; 不断优化云资源的性能效率和成本效益; 通过提升用户体验和业务创新带来新增收入。 CFO、财务专家 业务 组织视角 搭建云化转型的组织结构,定义云化转型人才的角色和职责; 制定云化转型的绩效考核指标,云化转型人才的选、用、育、留。 CIO、HR专家 业务 流程视角 基于云平台和云服务的特点优化IT服务流程和运维流程,支撑上层应用系统的快速迭代和安全稳定运行。 CIO、IT主管 技术 平台视角 基于云平台和云服务构建企业级、高安全、高可靠、高性能和易扩展的IT基础设施或技术平台,对上层应用系统提供计算、存储、网络、安全、数据库、中间件等服务,帮助应用团队快速基于该平台进行应用系统的开发、测试、部署和高效运维,并支撑应用系统的安全稳定运行。 CIO、CTO、IT主管、IT运维专家、应用开发及测试专家、应用运维专家 技术 架构视角 基于云平台和云服务构建高安全、高可靠、高性能和易扩展的技术架构、应用架构和数据架构。 CTO、云架构师 技术 运维视角 基于云平台和云服务的特点构建完善的云上IT运维体系,针对IT基础设施和应用系统进行监控、告警、故障定位和故障修复,保障IT基础设施和应用系统的长期稳定运行。 CTO、IT运维专家、应用运维专家 技术 安全视角 基于云平台和云服务的特点构建云上全方位安全防护体系和持续安全运营机制,保障IT基础设施和应用系统的机密性、完整性和可用性。 CISO、安全专家 技术 治理视角 基于云平台和云服务的特点构建完善的云上IT治理体系,针对云上的“人财物权法”进行集中化和精益化的治理,有效控制云化转型的风险,最大化业务收益,保障业务的持续发展。 CIO、IT治理专家 云化旅程是一个长期和复杂的过程,涉及的人员庞大,要处理的任务非常繁多,企业要安排专门的项目经理对其进行端到端的项目管理,科学的项目管理方法和行动方案直接影响云化转型的效率和质量,最终将会影响云化转型战略目标的实现。 华为云CAF的目录结构按照云化全旅程的六个阶段展开,在相应的章节会展开介绍各个业务视角和技术视角的关注点和对应的实践建议。 父主题: 云采用框架简介
  • 常用术语 华为云CAF涉及到很多IT和云计算领域的术语,不同读者对术语字面上的理解可能不一样,为避免对术语的误解,特制定如下术语表。 表1 术语列表 术语 解释 CAF 英文全称为Cloud Adoption Framework,是一个针对云化转型的端到端生命周期框架,涵盖云化旅程的所有阶段,包括制定战略、顶层规划、调研评估、方案设计、采用实施和运维治理,CAF提供了云化旅程各个阶段的方法论、最佳实践、工具和模版。 WAF 英文全称为Well-Architected Framework,是华为云的卓越架构技术框架,聚焦客户业务上云后的关键问题的设计指导和最佳实践。WAF以华为公司和业界最佳实践为基础,以韧性、安全性、性能效率、成本优化与卓越运营五个架构关注点为支柱,帮助客户在华为云上设计卓越的技术架构、应用架构。WAF也是 Web Application Firewall( Web应用防火墙 )的缩写,读者需要结合上下文判断WAF的具体意思。 IT基础设施 是指一个平台化的IT支撑环境,用于支撑组织内所有应用系统的安全稳定运行。它向下抽象、管理和优化底层IT资源(例如数据中心、硬件、网络、虚拟化等),向上为应用系统提供必要的计算、存储、网络、数据库、中间件和其他IT服务,加快应用系统的开发、测试和部署速度,并为应用系统提供稳定、可靠、高效的运行环境。云计算可以极大加快您的组织建设和扩展IT基础设施的速度,也可以极大简化IT基础设施的运维管理工作,使您的组织能够聚焦在应用系统的开发和运维等高价值领域。IT基础设施有时候也叫做技术平台或技术中台。基于云计算构建的IT基础设施也称作云基础设施。 应用系统 是指为了完成特定任务或解决特定问题而设计的软件系统,以支撑组织内特定的业务流程和业务场景。它通常由一系列相互关联的应用程序、数据库、中间件、配置文件和文档等组成,并运行在IT基础设施之上。应用系统可以是独立的,也可以是更大应用系统的一部分。应用系统有时也称为业务系统、信息系统、业务应用系统、业务信息系统、工作负载等。 IT管理系统 为了支撑应用系统的长期安全稳定运行所建立的IT支撑和管理系统,如安全运营中心、 IAM 和监控运维系统等。 云服务 是指云服务商通过互联网或专有网络提供的各种IT服务,包括计算、存储、网络、安全、运维管理、数据库、中间件、大数据处理和AI等。用户可以按需访问这些服务,而无需自行购买和维护物理硬件和软件基础设施,只需为实际使用的资源付费。云服务的主要类型包括基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)。 IaaS IaaS 将计算、存储、网络和其他基础设施资源以云服务的形式提供给用户,用户基于这些云服务可以部署和运行任意软件,其中可能包括操作系统、数据库、中间件和应用程序。用户不控制底层云基础设施,但可以控制操作系统、存储、部署的应用程序以及可能的有限的网络组件(例如主机防火墙)。 PaaS PaaS 将DevOps工具链、中间件、数据库、微服务引擎、大数据等平台资源以云服务的形式提供给用户,用户基于这些云服务可以开发、测试、部署和运维应用程序。用户不管理或控制底层云基础设施和中间件、数据库、微服务引擎等平台资源,但可以控制已部署的应用程序及其相关的数据。 SaaS SaaS 直接将应用程序以云服务的形式提供给用户,应用程序可以通过各种客户端设备访问,例如通过Web浏览器、手机App或API。用户不管理或控制底层云基础设施、平台资源和应用程序,但可以控制应用程序运行期间产生的属于用户的数据。 云资源 云资源是用户通过云服务创建出来的IT资源实例,包括计算、存储、网络、安全、运维管理、数据库、中间件、大数据处理和AI等,用户可以组合使用云资源快速搭建上层应用系统所需的IT基础设施。 云服务商 云服务商(Cloud Service Provider,简称 CS P)是指提供云服务的公司。他们设计、建设和运维大规模的云数据中心,通过互联网或专有网络向客户提供按需访问的云服务。云服务商有时也叫做云服务提供商、云厂商。 Landing Zone Landing Zone是一个航空术语,指直升飞机等飞行器安全着陆的区域。华为云和友商都借用了这个术语,将应用系统安全平稳迁移到和运行在公有云的解决方案命名为Landing Zone。通过Landing Zone搭建一套架构卓越、安全合规、易扩展的云上多账号运行环境,在此基础上构建精益IT治理体系,实现“人财物权法”的有序和集中管控,目的是系统性解决企业大规模使用云服务所带来的IT治理和安全合规的挑战。 账号 华为云账号是一个资源容器,用户可以在其中部署任意云资源和应用系统,不同的账号相当于不同的资源容器,账号之间是完全隔离的。因此在一个账号中的故障和安全风险不会影响和传播到其他账号。华为云账号也是安全管理边界,每个账号都有独立的身份和权限管理系统,一个账号内的用户只能访问和管理本账号的资源,未经允许,一个账号内的用户不能访问其他账号的资源、数据和应用。 从IT治理角度,账号分为管理账号和成员账号,管理账号用于创建和管理组织、成员账号和SCP策略。成员账号用于承载具体的应用系统(如ERP等)或IT管理职责。从财务治理角度,账号分为企业主账号和企业子账号,企业主账号和企业子账号之间可以形成财务托管和财务独立的财务管理模式。IT治理角度的管理账号和财务治理角度的企业主账号是同一个实体,成员账号和企业子账号也通常是一个实体。 云上组织结构 是组织云上资源的层级化结构,由多层级的组织单元和账号组成,一个组织单元下面可以包含多个下层组织单元和多个账号。按照康威定律,云上组织结构通常与企业的业务结构保持一致。 云卓越中心 云卓越中心(Cloud Center of Excellence,简称CCoE)是企业内部为云化转型专门成立的中心化团队,全程负责整个云化旅程,包括制定战略、顶层规划、调研评估、方案设计、采用实施和运维治理,其目标是通过提供最佳实践、指导和资源,帮助企业最大化云计算的价值,确保云化转型项目的成功实施。 云运营模式 云运营模式(Cloud Operating Model,简称COM)是企业内部使用、管理和运营云计算技术的流程和制度,目的是最大化云计算带来的业务价值。云运营模式要与组织内的业务运营模式对齐,明确CCoE和应用团队之间的协作关系和流程,通过有效的云运营模式,CCoE可以集中化运营整个云平台,提升管理效率和降低技术风险;应用团队也可以灵活地使用和管理所需要的云资源,加速应用创新的步伐。 数字化转型 数字化转型是指组织利用数字技术(如云计算、大数据、物联网、人工智能、 区块链 等)对其业务模式、运营流程、产品和服务进行全面的重塑和创新,以适应快速变化的市场环境和满足客户不断提升的需求。通过数字化转型,组织不仅可以提升效率和竞争力,还能创造新的价值和增长机会。 云化转型 云化转型(也叫云转型)是指将组织的IT基础设施、应用系统、业务流程等迁移到 云计算平台 ,或者利用云计算技术对其业务模式和运营流程进行重构和优化的过程。它不仅仅是简单的“搬迁上云”,更是一个涉及战略、技术、组织和流程的全面转型。目标是利用云计算的优势,提升业务敏捷性和连续性,降低成本,并推动业务创新。云化转型是数字化转型的重要支撑,可以大幅加速组织数字化转型的进程。 业务单元 业务单元(Business Unit)是指企业内部根据产品、服务、市场、客户群体或功能领域等划分的独立运营和管理的组织单元。每个业务单元通常具有自己的战略目标、职责范围、资源配置和业绩指标,负责特定的业务活动和市场区域。业务单元的颗粒度可以是子公司、事业部、产品线、部门或项目组等。 父主题: 云采用框架简介
  • 大数据任务调度平台设计 设计云上的大数据任务调度平台部署架构时,建议参考原则如下: 优先用大数据云服务:如果源端是自建的大数据任务调度平台和组件,在目标云平台上有对应的云服务,且功能、性能、兼容性都满足,经评估改造工作量很小,建议部署架构设计时,优先采用大数据云服务。如果目标云平台上没有对应的大数据任务调度组件,部署架构设计时,可以考虑继续采用自建的方案。如果目标云平台上有对应的大数据任务调度组件,但兼容性较差,经评估可能需要较大的改造工作量,部署架构设计时,可以考虑继续采用自建的方案。 最小改造原则:如无特别的业务驱动,要尽量避免进行大规模改造。大数据任务调度平台的组件要1:1对标设计,版本尽量不变更,有版本升级需求的需要评估适配改造工作量。 弹性和可扩展性:在云上部署大数据任务调度平台时,应考虑平台的弹性和可扩展性。云环境提供了弹性计算和存储资源,可以根据工作负载的需求自动调整容量。确保任务调度平台能够快速处理增加的任务负载,并支持水平扩展以满足业务需求。 高可用性和容错性:确保在云上部署的任务调度平台具备高可用性和容错性。采用冗余设计和自动故障恢复机制,以确保系统的持续可用性。例如,使用多个调度节点和备份策略来防止单点故障,并确保任务不会因节点故障而中断。 安全性和数据保护:云上部署的任务调度平台需要具备安全性和数据保护机制。确保对敏感数据和系统组件进行适当的访问控制和加密,以防止未经授权的访问和数据泄露。 性能优化:在云上部署任务调度平台时,需要考虑性能优化。优化资源配置、任务调度算法和数据分发策略,以提高任务执行的效率和速度。还可以利用云平台提供的服务和功能,如缓存、预取数据等,来优化任务执行的性能。 父主题: 大数据架构设计
  • 项目准备 决策层做出云化决策后,项目进入启动前的准备阶段。准备阶段主要目的是为项目启动提供完整的项目目标、项目范围、项目计划、项目管理机制、项目验收标准,并组建项目团队。为实现这一目的,需要在该阶段与客户确认云化工作的范围和边界,明确云化要实现的目标,并根据云化转型项目影响到的组织范围,构建联合项目团队,并提前和相关组织做好预沟通工作(如项目计划排程、责任分工、参与的阶段与角色,主要工作内容等)。项目计划需要在启动会前完成设计,并和业务部门等周边相关部门确认好时间计划、人员投入和资源就绪情况等。项目管理机制是项目顺利开展的关键环节,包含项目例会管理、项目风险管理、项目变更管理以及项目汇报机制,通过一系列机制保障项目在复杂场景下有序、平滑地开展。项目验收方案需要提前明确,基于项目目标以及业务诉求明确验收用例、验收指标、验收标准,确保业务系统上云后的功能和性能指标满足要求,这一步通常需要提前拉通业务部门和用户进行核心业务流程、关键指标的确认,并由业务部门负责最终输出业务验收指标。任何项目的执行都离不开人,所以准备阶段必须组建一个项目团队,也就是前面提到的CCoE团队,具体如何筹备和组建CCoE团队,请查看章节 云卓越中心 的内容。 在完成上述项目准备工作之后,需要举行正式的项目启动会。项目启动会的目的是将云化转型项目正式定义为一个真正意义上的工作任务,是一个有目标、有计划、有组织、有任命、有监督和考核的正式任务,确保项目成员按照责任界面和项目计划各司其职以达成项目目标。项目启动会参与者是CCoE的全体成员以及云服务商的项目团。 项目启动会中一个重要且关键的环节就是组织任命和授权。通过对项目团队的正式任命和授权将云化转型项目作为一个正式任务和KPI下发到每个组织成员头上。一方面确保组织成员的工作是正当、明确且可衡量的,同时也保证项目成员的稳定性,并激发团队成员完成目标的热情。 在项目启动会中,除了项目团队的任命和授权,还需要明确项目汇报监督机制。项目有个多个实施阶段,每个阶段的执行结果是否能达到预期?是否存在卡点和问题?项目团队是否具备处理这些问题的资源和能力?这些都是项目团队在执行过程中所面临的问题,如何快速高效处理问题,通常取决于对问题的理解和项目团队对资源的掌控能力,但仅仅依靠项目团队很难解决所有问题,因此,定期会议、高层汇报至关重要。通常在项目交付中,我们建议采用敏捷项目管理模式,即每日站会+周会的形式来快速识别阶段卡点和问题,快速找到应对机制来快速闭环,将问题解决周期尽可能缩短。站会和周会的机制可以让项目卡点快速通达决策层,依靠决策层的能力快速拉通资源来闭环问题,这就是上述我们提到的质量监督机制。通过这种机制,集合企业最高层的能力来确保项目成功,这也是项目高效、高质量交付结果的精髓所在。 除了组织任命和授权、汇报监督机制,项目启动会还需要定义项目日常运作管理机制(日报、周报、问题上升机制等)、风险变更机制(人员变更、周期变更、环境变更等)以及跨团队间的分工协作机制,这些通常可以参考常规的项目管理方法进行管理和运作。
  • 可行性评估 一个企业在上云之初,企业决策层通常想了解上云最终能给企业带来什么价值,以及这些价值是否是企业当前以及未来业务发展所迫切需要的。为了解这些信息,通常决策层会让IT部门评估上云的价值和收益,而IT部门通常具备传统IT运营理念和IDC技术栈,缺乏对云深入的了解以及实践。这时,就需要引入云化转型专家协助信息化团队完成价值评估,这个阶段称之为可行性评估和蓝图规划阶段。在这个阶段,通常是由云化转型专家主导、IT部门辅助,共同完成当前业务、组织、运营、平台、安全、运维等多个维度的现状评估,根据评估结论和差距分析,估算云化转型能带来的价值和收益,并给出云化后整体蓝图规划设计。通过这一系列行动论证云化可以满足当前和未来业务发展的迫切需要,并让决策层看到云化后的业务连续性和业务敏捷性的提升以及业务创新能力的增强,加速决策层做出科学、合理的决策。
  • 业务保障 业务系统上线后,进入业务系统的上线保障期,上线保障期的工作内容涵盖保障期问题处理和闭环以及知识转移等事项。保障期通常是上线后一周,这个周期内通常是上云后问题高发期,是云化转型项目团队要重点关注和保障的阶段,通常云服务商会有专门保障团队和企业形成联合项目团队共同保障业务平稳运行。在这个阶段,基于业务部门提出的问题按照业务关键性等级和问题等级区分出轻重缓急,基于不同的紧急重要程度快速响应和闭环。知识转移则是在业务系统上线后,需要为业务部门的应用运维团队进行云技术的赋能,保证应用运维团队具备在云平台上对业务系统进行必要的日常运维管理和事件处理的能力。
  • 为什么要上云试点 上云迁移试点是企业在进行大规模上云迁移之前的重要步骤,它能够帮助企业在大规模迁移之前充分了解和评估各种因素,通过试点上云迁移流程与相关配置,企业可以提前识别出相关风险,为后续大规模上云迁移提供经验。 风险控制:上云迁移是一个复杂的过程,涉及到不同的系统和业务。通过进行迁移试点,企业可以在小范围内验证整个迁移流程的可行性,发现潜在问题并及时解决,确保后续的大规模迁移顺利进行。同时试点还可以帮助企业识别潜在的风险和挑战,例如,某些业务可能无法适应云环境,通过试点,可以在较小的范围内暴露这些问题,并及时采取纠正措施,从而降低全面迁移时的风险。 验证可行性:上云迁移试点可以验证企业的应用和数据是否适合迁移到云端。通过选择一小部分应用或业务进行试点,企业可以评估业务在云环境中的兼容性、性能、安全性、可靠性等方面是否满足需求。如果发现某些应用不适合迁移到云端,企业可以根据评估结果重新规划迁移策略或寻找替代方案,避免将不适合或难以迁移的应用直接投入生产环境。 掌握经验:上云迁移试点可以让企业的技术团队和业务人员获得实践经验。在试点过程中,他们可以学习并熟悉云平台的特点、功能和最佳实践,了解迁移的工具和流程,并积累相关知识和技能,为后续的全面迁移做好准备。 确定优先级:通过试点迁移,企业可以评估不同应用或业务的迁移优先级。根据试点结果,企业可以确定哪些应用或业务对于上云迁移的影响较小,可以先行迁移,进而有序地推进整个迁移过程。 性能优化:迁移试点还可以帮助企业识别并解决潜在的性能问题,通过在小规模环境中进行试点,企业可以验证应用在云环境下的性能指标,如延迟、吞吐量和响应时间等,了解应用在云环境中的实际表现,这样可以及早发现瓶颈并做出相应的优化和调整,确保在正式迁移之前获得良好的性能和用户体验。 成本控制:迁移试点提供了一个机会,让企业更准确地评估上云迁移的成本,通过试点阶段的实际操作,企业可以更好地理解云服务的费用结构、资源消耗情况以及可能的隐藏成本,这有助于避免意外的成本增加并优化资源利用,以实现成本控制的目标。 团队磨合:上云迁移的成功离不开各参与方的高效协同(运维团队、开发团队、测试团队,云服务供应商、第三方系统供应商等),上云迁移试点为不同团队提供了一个合作的机会,通过试点可以识别团队间的合作问题和风险,并针对性制定相关应对措施,保证大规模上云期间合作顺畅。 父主题: 上云试点
  • 项目过程管理 该阶段主要包含项目进度管理、汇报管理、风险管理、以及变更管理等部分。在前面我们已经提到进度管理、汇报管理的关键环节,如通过敏捷管理(站会、周会等)持续对齐目标和周期,确保项目进度在预期可控范围内;通过拉通高层周期性汇报机制快来监督项目进展和风险,以达到快速闭环问题和卡点的目的。云化转型项目实施和管理过程中风险通常包括项目周期风险、人员变更风险、技术可行性风险、操作风险、安全风险等。接下来主要针对风险管理(包括变更管理)以及敏捷管理方法做概要介绍。 项目进度风险通常是云化转型项目因各种超出预期的事件或问题导致项目周期延后,如新业务发布上线、关键业务数据库故障、病毒感染等事件,都会对项目实施周期带来影响,因此项目团队应充分考虑可能遇到的问题或风险来制定项目周期。应对项目周期风险的策略通常是综合评估各个阶段可能存在的风险,并预留适度的项目周期,并针对某些极端风险制定逃生方案,尽可能确保项目在规定的时间内完成。 对于人员变更风险,是云化转型项目管理过程中经常碰到的风险场景,项目开始前必要的角色备份非常必要。针对某些单人单岗的关键角色,尤其需要考虑变更带来的风险,如一个公司一个DBA等情况,项目经理需要针对这一问题在项目开始前就要做备份计划,特定情况可以跨部门人员备份或提前进行人员储备,这一风险不仅仅云化转型项目管理中的问题,更是企业核心业务是否能可持续运营的风险问题。 技术风险的应对机制相对来说更为可控,项目团队通常可以采用POC验证的方式验证技术的可行性,这包括功能是否满足当前业务运行需求,以及非功能性部分是否可以满足业务运行的性能、延迟、吞吐量等指标等。同时针对迁移过程中的技术风险,项目团队可以通过迁移割接演练来模拟迁移实施过程,从中发现潜在的风险和问题,并形成Runbook来应对和规避相应风险。 云化转型项目实施过程中的操作风险与传统项目操作风险处理方式存在差异,原因在于传统IT项目实施基于硬件平台和系统实施操作,关键操作常常是多人共同参与,一个人操作,多人监督,确保操作和预期的一致。而云化转型项目的操作实施基于网络进行,业务和平台高度集成,一个操作失败可能影响多个组件或服务。因此,云上操作风险处理通常建议采用自动化的方式进行,尤其在业务系统割接上线的环节,尽可能减少人为带来的误操作风险。简而言之,能脚本化、自动化的就不手工操作,能工具化的就不用脚本操作,全面消除人为操作风险。 云化转型的项目管理对安全要求较高,如针对业务系统上云环节,要秉持“上云不带病、带病不上云”的基本原则,因此上云前项目团队通常要进行必要的问题巡检和安全扫描,这些工作涉及硬件、系统、中间件以及应用的状态、日志、事件、告警信息等部分,以及采用安全扫描工具进行系统的安全扫描,确保现有的系统运行是健康且没有潜在运行风险的。 相较于传统IT项目,云化转型项目虽然没有集成各个不同硬件厂商、不同ISV的复杂性和漫长的交付执行周期,但交付执行过程涉及面广、平台集成度高,问题处理过程复杂,致使云化转型项目的管理过程往往容易形成集中式卡点和风险,一个功能点不足都可能拖延整个项目周期。因此传统瀑布式项目管理模式往往无法适应云化转型项目的管理,敏捷项目管理模式则更有成效。 前面章节已经概要说明了项目问题处理的方法,如每日站会、每周例会等,实现项目卡点的快速审视、拉通和闭环,从根本上说这些方法和策略都是敏捷项目管理的一种形式。归根结底,敏捷项目管理模式也是一种逆向工作法思路,也即在项目开展过程的各个阶段,分别设定阶段交付的目标,通过在执行过程中不断审视当前进展、卡点或问题,并通过与阶段性目标对齐,寻求最快、最短的解决路径。作为一个云化转型的项目经理,应充分明确各个阶段的目标,在每个阶段执行过程中(如卡点、问题处理、风险应对举措等)持续与本阶段目标对齐,从实现目标的角度出发来解决当前问题,可以快速发现更加合适的方法和策略。 敏捷项目管理需要基于敏捷管理工具实现,将敏捷管理流程和工具结合形成快速闭环的过程管理能力。常用的敏捷管理工具包括Jira,也可以使用华为云提供的云原生项目管理工具CodeArts Req。CodeArts Req和华为云的云原生DevOps工具链CodeArts的其他工具无缝打通,可以有效提升端到端项目管理和应用交付的效率。
  • 云化成熟度评估步骤 上述云化成熟度评估模型相对比较完备,完成全部评估和分析需要1周左右的时间。以下是执行云化成熟度评估的具体步骤。 定义评估范围 这是整个评估过程的基础。在这一阶段,您需要根据组织的现状和业务需求,确定需要评估的具体范围。由于云化转型涵盖多个评估维度和众多评估问题,您可能无法在一次评估中全部涵盖,您可以聚焦于组织当前发展阶段和业务目标最相关的方面,选择其中一部分关键维度进行评估。通过与相关业务部门、技术团队的沟通,明确当前最需要提升的领域,确保评估能够聚焦于对组织最有价值的方面。这一步骤的目标是制定一个清晰、可执行的评估范围,为后续评估工作的顺利展开奠定基础。 识别和协调评估人 这对于评估的准确性和有效性至关重要。您需要确定内部最适合回答所选评估问题的人员,这些人员应当对各自负责的领域有深入的了解,能够提供客观、详实的答复。针对云化成熟度评估的10个维度,我们建议的评估人选如下: 表1 推荐的云化成熟度评估人选 评估维度 推荐评估人选 战略与业务 CEO或者CIO 组织与流程 CIO或者人力资源主管 云卓越架构 CIO或者企业应用架构负责人 云基础设施 CIO或者IT主管 应用现代化 应用架构师 数智赋能 业务主管或者数据架构师 云安全 CISO 云运营与运维 运维主管 FinOps 云成本管理负责人 云化收益 业务主管或IT主管 您要协调好评估人的时间,尽量将评估活动集中在一个时间段内,有助于提高评估效率。此外,为了确保评估人对评估目的和要求有充分的理解,您可以在评估前进行统一的说明和培训,详细解释评估的目的、流程和要求。 执行评估 这是整个过程的核心环节。评估人需要根据之前确定的评估范围和问题,逐一进行认真、客观的答复。在答复过程中,应当全面考虑组织在各个评估问题的实际情况,提供具体的数据和实例支持。如果评估人对某些评估问题存在疑问,应及时与评估专家联系,安排集中答疑,确保对问题的理解准确无误。执行评估时,应避免主观臆断,基于事实进行评价。此外,需要强调评估的客观性和保密性,鼓励评估人如实反映情况,不用担心负面影响。这一步的质量直接影响到评估结果的可靠性和后续改进措施的有效性,因此需要评估人给予足够的重视和投入。 第四步、输出评估报告 评估专家在这一阶段需要汇总和分析所有评估人的答复,识别组织在云化成熟度方面的优势和差距。对于发现的能力差距项,评估专家应深入分析其原因和影响,并针对性地提出优化和提升的建议。这些建议应具体、可操作,包括改进措施的优先级、实施路径和预期效果。评估报告应逻辑清晰、条理分明,既能全面反映评估结果,又能为组织制定下一步行动计划提供有力支持。通过评估报告,组织管理层和各部门可以明确当前的能力水平,了解需要改进的领域,从而有针对性地制定和调整云化战略、云化目标和实施方案,推进云化转型的深入发展。一份高质量的评估报告能够为组织的云化转型提供重要的决策依据。 父主题: 评估云化成熟度
  • 业务系统上线管理 业务系统上线管理的目的是保障业务系统上线过程中业务依然能够平稳运行,将对业务的影响和风险降低或消除。业务系统上线管理涵盖环境准备、组织宣贯、风险应急和割接上线实施等环节。 业务系统割接上线前云环境准备通常包含业务环境部署,数据同步(如迁移场景)、周边业务系统协同配置、内外部连通性确认等等,通过这些前提准备提前完成业务系统正常运行的基础平台环境的搭建,确保业务系统上线所需的基础环境处于就绪状态。 组织宣贯在割接上线前是一个关键环节,尤其是在传统企业初始上云的场景下。通过组织宣贯让所有项目成员和相关人员各司其职,通力配合完成业务系统上线工作(如上线影响说明、角色分工、配合实施内容、配合时间点、问题反馈机制等等),确保业务系统上线的每个流程、指标都可以得到验证并成功上线。另一方面,企业高层可以通过组织宣贯向公司内部传达一个关键信息:企业上云是公司未来的战略,每个组织、个人都应积极转换思想、意识,来积极主动拥抱云、拥抱企业数字化未来。 风险应急准备是每个业务系统上线前必要的环节,需要提前识别上线可能遇到的风险和问题并制定解决方案。风险识别不限于在技术实施过程中遇到的各类风险,还包括组织、流程、安全以及平台的系统性风险。如常年运行的系统可能存在硬件损坏无法修复的风险、业务系统运行环境潜藏破坏性病毒、业务系统上线环节上遗漏关键角色等等,每个风险都可能成给业务系统上线带来破坏性影响,提前识别、提前制定预案并进行必要环节的演练,尽可能将风险影响降低或消除。 割接上线实施是业务系统上线前最后一个环节,也是最关键的环节,但通常前期准备和风险应急工作充分、验证过程完善,割接过程基本都会比较顺利。在这个环节,主要做的工作就是按照前期演练完善的手册进行系统化验证,根据指标确定割接是否成功。一个关键的要点是本阶段是一个人员密集型工作阶段,组织宣贯阶段所有人员均需按照宣贯要求在不同的执行环节参与进来,并按标准要求执行相关动作和验证相关过程和结果,并为结果负责(通常需要签字验收指标通过)。基于所有反馈结果来最终判断割接是否成功。
  • 调研外部关联关系 以下一些常见的外部关联关系,需要在应用迁移前进行调研和评估。确保全面理解应用的外部依赖,并采取适当的措施,以确保迁移后外部业务正常运行,不受影响。 第三方应用程序依赖关系 调研与目标应用有关的第三方应用或服务,包括其版本和集成方式。确定是否需要对这些依赖项进行调整或重新配置。 外部数据源和 API 依赖关系 分析和记录目标应用所依赖的外部数据源和 API,例如外部数据库、文件系统、消息队列或第三方服务。确保这些依赖关系在迁移后能够正确访问和使用。 授权和安全关联关系 确定与目标应用有关的授权和安全关联关系。包括涉及身份验证、访问控制、令牌管理、IP白名单等方面的外部服务和机制。 合作伙伴和供应商关联关系 如果目标应用涉及与合作伙伴或供应商的集成,需要调研这些关系,并确保在迁移后能够继续正常工作。 SLA(Service Level Agreement)和供应商支持关系 检查既有的 SLA 和供应商支持协议,并评估迁移到云平台后对这些关系的影响。确保在云环境中依然能够满足业务需要并获得期望的支持和服务。 网络和连接依赖关系 调研目标应用所需的网络连接和传输协议。确定上云后是否需要进行网络配置和访问控制,以确保应用程序可以与相关的外部系统正常通信。 外部关联关系主要靠如下方式去做调研,可以多种方式结合,以提高调研效率和结果完整度: 文档和现存资料 阅读现有的文档和技术资料,包括应用程序的架构图、部署说明和运维手册等。这些资料可以识别出应用程序的关键依赖和集成点。 与开发团队和运维团队沟通 与应用程序的开发团队和运维团队进行沟通,了解他们对系统依赖关系的认识和理解。他们可能提供有关应用程序的详细信息、依赖关系的描述以及与其他系统的集成情况。 代码分析 仔细检查应用程序的源代码,特别是配置文件和代码中涉及的外部依赖关系。因为有些依赖关系可能由代码直接指定。 系统扫描和监控 借助系统监控工具和网络扫描工具,扫描整个系统并识别出与应用程序相关的依赖关系。 与相关团队交流 与其他部门或团队进行交流,了解应用程序与其他公司、供应商或合作伙伴之间的集成关系。这些关系可能包括数据共享、接口调用、权限控制等。 服务提供商和文档 如果应用程序依赖于外部服务提供商,查阅其提供的文档、API 参考和支持资源,以获取关于依赖关系的详细信息。
  • 调研内部关联关系 关联关系分析是批次规划和切换方案的重要输入,也是上云迁移的难点,影响上云迁移的关联关系主要有三种,如下图: 图2 三种关联关系 关联分析有如下4种方法,上云迁移过程中,企业可以根据自身的实际情况选择合适的分析方法: 图3 关联关系分析法 CMDB法:适用于客户有CMDB系统,CMDB系统中通常有应用间的通信依赖,应用与数据库的依赖,应用与中间件的依赖等,可直接通过CMDB获取依赖关系。 图4 CMDB法 图5 CMDB法示例 关联分析工具法:可以通过专门的关联分析工具进行关联分析,比如华为云的MgC工具,也可以采用业界的一些关联分析工具。 表1 关联分析工具表 软件名称 是否商用 说明 Dynatrace 商用 Dynatrace平台包括出色的应用程序性能管理工具,能够提供自动的应用程序依赖关系映射。它可以发现和监控微服务和应用程序,甚至是那些在容器内运行的微服务和应用程序。它收集性能数据和通信时间数据,并突出显示性能不佳的服务和应用程序。 网络空间测绘 商用 网络空间测绘是一个应用和服务器发现工具。支持无代理自动发现,广泛支持MS和LINUX/Unix、云供应商、管理程序,硬件、虚拟和应用层;可用于多数据中心的远程收集。 Device42 商用 Device42是一个发现和映射工具,用于收集和组织整个IT环境上的数据。它包括设备发现和资产管理,以及专用的应用程序映射和管理功能。 它还可以检测网络设备,如交换机和负载均衡设备,以及电源和环境设备,包括PDU、UPS和CRAC设备。 艾联科iSRG动态智能系统 商用 艾联科iSRG动态智能系统资源图谱软件,提供传统网络/云/微服务/容器/虚拟系统的资源动态管理能力。包含资源的发现与采集,模板管理、资源管理、视图编辑等功能。 ManageEngine Applications Manager 商用 ManageEngine是一个应用程序管理器的工具。这是一个通用服务器和应用程序监控工具,它支持对服务器和数据库、虚拟机、应用程序、Web服务和其他组件的监控。 Datadog 商用 Datadog是一款具有应用程序监控和映射功能的性能监控工具。它可以在整个基础架构中收集信息,包括匹配特定客户、端点或错误代码的跟踪,它自动映射数据流,并可以按依赖关系组织服务。 Pinpoint 开源 Pinpoint可以跟踪分布式应用程序之间的事务,以检查整体结构和运行状况。Pinpoint可以实时监控应用程序,并清晰快速地了解应用程序拓扑。 Workshop头脑风暴法:可以通过组织专题会议,引导熟悉业务系统的骨干人员梳理关联关系。 图6 WorkShop法 配置分析法:配置分析法是一种通过分析应用系统的配置文件来探索关联关系的方法,它可以帮助我们了解应用之间的相互调用关系、应用与数据库之间的连接以及其它关联关系。以下是配置分析法的基本步骤: 收集配置文件:首先需要收集和获取与目标应用系统相关的配置文件。这可能包括DNS配置、ELB配置、NAT配置以及Nginx.conf等。 解析配置文件:对于每个配置文件,需要编写脚本或使用现有工具来解析其内容,脚本可以根据文件格式和语法规则,提取出关键信息并进行处理。 提取关联信息:在解析配置文件时,需要识别出与其他组件或资源相关的信息,例如,可以查找应用之间的相互调用关系,比如从一个应用到另一个应用的URL或API调用;还可以查找应用与数据库之间的连接信息,如数据库地址、用户名和密码等。 构建关联图谱:将提取到的关联信息组织成图谱或关系模型,这可以是有向图、无向图或其他合适的数据结构,用于表示应用间的关系和依赖。 分析关联关系:对于构建的关联图谱,可以使用图论算法或其他分析方法来探索关联关系,这可以帮助我们发现隐藏的依赖。 通过配置分析法,我们可以深入了解应用系统内部的关联关系,从而更好地理解整体架构和运行方式,这对系统迁移等方面具有重要的价值,然而,需要注意的是,配置文件可能会受到变更和更新的影响,因此在进行关联分析时需要及时更新和验证配置信息的准确性。
  • 缩略语 表1 缩略语(按照字母顺序) 缩略语 英文全称 中文全称 AIOps Artificial Intelligence for IT Operations 智能运维 AOM Application Operations Management 应用运维管理 服务 ALM Application Lifecycle Management 应用生命周期管理 CAF Cloud Adoption Framework 云采用框架 Capex Capital expenditure 资本支出 CBH Cloud Bastion Host 云堡垒机 CC Cloud Connect 云连接 CCE Cloud Container Engine 云容器引擎 CCI Cloud Container Instance 云容器实例 CCM Cloud Certificate Manager 云证书管理服务 CCoE Cloud Center of Excellence 云卓越中心 CFW Cloud Firewall 云防火墙 CMDB Configuration Management Database 配置管理数据库 CMM Cloud Maturity Model 云化成熟度模型 CNCF Cloud Native Computing Foundation 云原生计算基金会 COC Cloud Operation Center 云运维中心 C SMS Cloud Secret Management Service 云凭据管理服务 CSP Cloud Service Provider 云服务提供商或云服务商 CSR Corporate social responsibility 企业社会责任 DBSS Database Security Service 数据库安全服务 DC Direct Connect 云专线 DCMM Data Management Capability Maturity Assessment Model 数据管理能力成熟度评估模型 DDoS Distributed Denial of Service 分布式拒绝服务 DevOps Development and Operations 开发与运维 DevSecOps Development, Security, and Operations 开发、安全与运维 DEW Data Encryption Workshop 数据库安全服务 DSC Data Security Center 数据安全中心 ECS Elastic Cloud Server 弹性云服务器 EIP Elastic IP Address 弹性公网IP ELB Elastic Load Balancing 弹性负载均衡 ER Enterprise Router 企业路由器 ESW Enterprise Switch 企业交换机 EVS Elastic Volume Service 弹性云硬盘 FinOps Finance Operations 财务运营 GRC Governance, Risk & Compliance 治理、风险和合规 HSM Hardware Security Module 硬件安全模块 HSS Host Security Service 主机安全服务 IaaS Infrastructure as a service 基础设施即服务 IaC Infrastructure as Code 基础设施即代码 IAM Identity and Access Management 身份和权限管理 IDC Internet Data Center 互联网数据中心 IDP Internal Developer Platform 内部开发平台 IoT Internet of Things 物联网 ITSM IT Service Management 信息技术服务管理 ITSS Information Technology Service Standards 信息技术服务标准 KMS Key Management Service 密钥管理服务 KPS Key Pair Service 密钥对管理服务 LLM Large Language Model 大语言模型 MFA Multi-Factor Authentication 多因素鉴权 MSP Managed Service Provider 托管服务提供商 MTBF Mean Time Between Failure 平均无故障时间 MTTR Mean Time To Repair 平均故障修复时间 NAT Network Address Translation 网络地址转换 OACA Open Alliance for Cloud Adoption 云采用开放联盟 OBS Object Storage Service 对象存储服务 OLAP Online Analytical Processing 在线分析处理 OLTP Online Transaction Processing 在线事务处理 Opex Operational expenditure 运营支出 PaC Policy as Code 策略即代码 PaaS Platform as a service 平台即服务 PUE Power Usage Effectiveness 能源利用效率 QPS Query Per Second 每秒查询数 ROI Return of Investment 投资回报率 RPO Recovery Point Objective 恢复点目标 RTO Recovery Time Objective 恢复时间目标 SaaS Software as a Service 软件即服务 SCIM System for Cross-domain Identity Management 跨域身份管理 SCP Service Control Policy 服务控制策略 SecMaster Security Master 安全云脑 SFS Scalable File Service 弹性文件服务 SLA Service Level Agreement 服务水平协议 SLO Service Level Objective 服务水平目标 SNAT Source Network Address Translation 源地址转换 SOC Security Operation Center 安全运营中心 SRE Site Reliability Engineering 站点可靠性工程 SSO Single Sign-On 单点登录 TOGAF The Open Group Architecture Framework 开放企业架构框架 TPS Transactions Per Second 每秒事务处理量 VPC Virtual Private Cloud 虚拟私有云 VPN Virtual Private Network 虚拟专用网络 WAF Well-Architected Framework 卓越架构技术框架 WAF Web Application Firewall Web应用防火墙 父主题: 云采用框架简介
  • 干系人利益分析 识别干系人是制定云化转型战略的起点,您需要识别组织内部所有参与云化转型战略决策的干系人,并仔细分析干系人的利益诉求,与其共同识别云化转型的驱动力、分析云化收益,最终制定组织的云化转型战略。以下是一些常见的干系人和利益诉求,以及他们参与云化转型战略决策和项目执行的方式。 表1 云化转型干系人及利益诉求 干系人 主要利益诉求 参与方式 首席执行官(CEO) 推动企业战略目标的实现,提升业务敏捷性和市场竞争力。 促进收入增长和利润提升,确保企业的可持续发展。 降低运营风险,保障业务连续性。 加速业务创新,开拓新市场和新业务模式。 提升企业形象和社会责任,关注可持续发展。 全面领导云化转型战略的制定和实施,担任项目的最终决策者,确保云化转型战略与公司业务战略对齐。 协调各部门资源,确保跨部门合作。 定期审阅项目进展,提供战略指导和支持。 与高管团队一起识别和评估云化转型的驱动力和预期收益。 首席信息官(CIO) 提升IT部门的服务能力,支持业务需求的快速响应。 推动技术创新,提升技术架构的先进性和灵活性。 优化IT成本结构,提高资源利用效率。 加强信息安全,保障数据和应用系统的可靠性。 主导云化转型战略的技术规划和路线图制定,确保云化转型战略与公司业务战略对齐。 协调IT团队和其他业务部门的合作,确保技术方案符合业务需求。 管理云服务商的选择和合作关系。 监督云化转型项目的实施,确保项目按计划推进。 首席运营官(COO) 优化业务流程,提升运营效率和质量。 确保业务连续性,降低运营风险。 支持业务扩张和创新,满足市场需求。 参与云化转型战略的制定,提供运营层面的需求和建议。 协调运营部门的资源投入,支持项目的实施。 监督云化对业务运营的影响,确保平稳过渡。 首席技术官(CTO) 引入先进技术,提升企业的技术竞争力。 确保技术架构的可扩展性和灵活性,满足未来业务需求。 推广技术创新,支持新产品和服务的开发。 领导技术方案的设计和评估,确保云化转型的技术可行性。 指导技术团队的工作,确保技术实现与战略目标一致。 与CIO合作,制定技术标准和规范。 首席信息安全官(CISO) 保障信息安全,防范数据泄露和网络攻击。 确保符合行业和法律的合规要求。 维护企业声誉,避免安全事件带来的负面影响。 评估云化转型带来的安全风险,制定相应的安全策略。 指导安全团队实施安全控制措施,确保云环境的安全性。 与合规审计专家合作,确保安全和合规要求得到满足。 首席财务官(CFO) 优化财务绩效,降低IT成本,提升投资回报率。 管理资本支出和运营支出,改善现金流。 评估云化转型的财务风险和收益,支持战略决策。 基于云服务进行产品和业务创新,带来收入增长。 参与云化转型的成本收益分析,提供财务建议。 审核和批准项目预算和支出,确保资金有效利用。 制定云化转型的财务KPI,监督财务目标的实现。 业务主管 提升业务部门的绩效,满足市场和客户需求。 加速产品和服务的创新,拓展新的业务机会。 确保业务系统的稳定性和可靠性,支持日常运营。 提供业务需求和期望,参与云化转型方案的制定。 配合IT团队,确保技术方案符合业务需求。 协调业务团队的资源,支持项目的实施和变革管理。 IT主管 提升资源利用率,实现IT系统的弹性扩展,支持业务的快速增长。 通过云化降低IT成本。 利用云服务商的高可用性架构和安全防护措施,提升IT系统的稳定性和安全性,减少故障和安全事件的发生。 通过云化转型提升IT部门的价值。 辅助CIO制定云化转型战略和具体的云化目标。 选择适合组织的云服务模式,评估不同云服务商的方案,制定技术规范。 建立专门的云化转型团队,培养和引进云计算人才。 担任云化项目的总负责人,推进云基础设施的建设和业务系统的云化。 人力资源主管 规划和管理人才需求,支持云化转型所需的技能提升。 推动组织变革和文化转型,促进员工适应新的工作方式。 设计激励机制,激励员工参与和支持云化转型。 制定培训和发展计划,提升员工的云计算技能。 参与组织结构调整,确保团队配置满足云化转型的需求。 参与制定云化转型团队的KPI,监督KPI达成情况。 运维主管 提高运维效率,减少故障和停机时间。 实现运维自动化,降低人力成本。 提升系统的可用性和可靠性,支持业务连续性。 基于云平台的特点制定云运维流程和标准。 推广云运维工具的使用,实现自动化和智能化。 培训运维团队,提升云运维技能。 应用架构师 优化应用架构,提升系统性能、可扩展性和可靠性。 支持应用现代化,充分利用云服务的优势。 确保应用满足业务需求,具备敏捷性和灵活性。 设计应用的云化架构,指导开发团队的实现。 评估和选择云服务,确保与应用需求匹配。 解决云化过程中遇到的技术挑战,提供专业支持。 数据架构师 设计高效的数据架构,支持数据分析和业务决策。 确保数据的安全性和合规性。 实现数据的集成和共享,提升数据价值。 规划数据在云环境中的存储和管理方案。 选择合适的云数据库和大数据服务。 实施数据迁移和治理,维护数据质量,保障数据安全。 网络架构师 设计灵活可靠的网络架构,支持应用系统之间的连接需求。 确保网络安全和性能,满足数据传输要求。 实现网络的弹性和可扩展性,适应业务变化。 规划云网络架构,配置虚拟网络、子网、安全组等。 与安全团队合作,实施网络安全策略。 监控网络性能,优化网络配置。 合规审计专家 确保云化转型符合相关法律法规和行业标准。 降低合规风险,避免法律纠纷和罚款。 维护企业声誉,提升客户和合作伙伴信任。 识别云化转型中的合规要求,提供专业建议。 参与制定合规策略,确保云服务商符合要求。 定期审计和评估合规情况,提出改进措施。 IT治理专家 建立有效的IT治理框架,规范IT资源的使用和管理。 确保IT战略与企业战略的一致性,提升IT价值。 管控IT风险,提升决策透明度和责任明确性。 制定云化转型的治理策略和政策,明确职责和流程。 监控云化转型的进展和风险,提供治理报告。 协调各部门的沟通,确保信息共享和协同工作。 产品经理 加快产品开发和上市时间,满足市场需求。 引入新技术,提升产品竞争力。 收集客户反馈,持续改进产品。 制定产品需求,协同开发和运营团队。 利用云服务,快速验证和迭代产品。 分析产品数据,指导产品优化。 通过识别和分析这些干系人的利益诉求,可以更好地制定和执行云化转型战略,确保各方利益得到平衡和满足。 父主题: 制定战略
  • 概述 云计算从根本上改变了IT基础设施和应用系统的建设、运维和管理方式。传统模式下,组织通常需要购买、安装和运维自己的硬件和软件,包括服务器设备、存储设备、网络设备、虚拟化软件、操作系统、数据库管理软件和中间件等IT基础设施,资源部署周期长,运维负担重,初始投资大。 云计算模式下,IT基础设施的建设和运维由云服务商负责,组织只需关注应用系统的开发和部署,可以从云服务商按需获取上述各种资源,资源可以快速部署、调整和扩展,运维负担轻,并大幅降低了初始投资。云计算提供了巨大的灵活性、可靠性和扩展性,但整个组织的云化转型是一项系统性工程,涉及组织、流程和技术的方方面面,您的组织需要一个成熟且一致的方法确保云化转型的成功,最大化业务收益。 华为云云采用框架(Cloud Adoption Framework,简称CAF)是一个针对云化转型的端到端生命周期框架,涵盖云化旅程的所有阶段,包括制定战略、顶层规划、调研评估、方案设计、采用实施和运维治理。CAF提供了云化旅程各个阶段的方法论、最佳实践、工具和模版,可以帮助业务决策者、IT决策者、财务专家、运维专家和安全专家等干系人在云化旅程各个阶段做出正确决策,充分发挥云计算的价值。遵循CAF的最佳实践可让您的组织更好地对齐业务和技术战略,确保云化转型的成功。 CAF提供的方法、最佳实践、工具和模版来自于华为云、合作伙伴和客户上云、用云和管云的经验,华为云会持续基于不断积累的云化转型经验和认知升级对CAF进行迭代刷新,确保CAF提供的方法、最佳实践、工具和模版能够与时俱进。 父主题: 云采用框架简介
  • 云运维团队 云运维团队负责云基础设施的日常管理与维护,确保云基础设施的高可用性、高安全和高性能,协同应用运维管理员保障云上业务系统的长期安全稳定运行,并不断通过自动化和智能化技术提升运维效率。云运维团队通常包含云基础设施管理员、云网络管理员、数据库管理员和自动化工程师,职责和技能要求如下表所示。 表1 云运维团队的角色和职责 角色 职责 技能要求 来源 云基础设施管理员 负责云平台上存储、虚拟机、操作系统等基础设施的日常运维管理。 监控和优化云资源的使用效率,确保资源分配合理。 处理虚拟机、存储和操作系统相关的故障,保障系统的高可用性。 定期进行系统补丁更新和安全加固。 熟悉主流云平台的虚拟机和 云存储 服务。 掌握Linux和Windows操作系统的管理与优化。 熟悉云原生的监控运维工具。 具备一定的脚本编写能力。 具备良好的故障排除和问题解决能力。 IT部门 云网络管理员 负责云平台网络架构的设计、配置和日常运维,保障网络稳定和安全。 管理VPN、专线、VPC、子网、网络ACL、路由、负载均衡、防火墙等网络组件。 监控网络性能,排查网络故障,优化网络延迟和带宽使用。 确保网络安全,防范DDoS攻击等网络威胁。 熟悉云平台的网络服务(如VPC、VPN、专线、负载均衡、防火墙等)及其配置。 熟悉TCP/IP、HTTP、DNS、TLS等网络协议。 具备网络故障排查能力。 熟悉网络安全技术(如防火墙规则配置、入侵检测等)。 IT部门 中间件管理员 负责消息队列 (例如 Kafka, RabbitMQ),Web 服务器 (例如 Nginx, Apache),应用服务器 (例如 Tomcat, JBoss),缓存服务 (例如 Memcached, Redis) 等的安装、配置和维护。 监控中间件服务的性能指标,识别性能瓶颈,并进行调优以提高性能和效率。 快速诊断和解决中间件服务出现的故障和问题,确保业务的连续性。 熟练掌握常用的中间件技术,例如 Kafka, RabbitMQ, Nginx, Tomcat等。 熟悉主流云平台的中间件服务的部署和管理。 熟悉操作系统,例如 Linux, Windows Server 等。 了解 DevOps 理念和实践。 具备一定的脚本编写能力。 具备良好的故障排除和问题解决能力。 IT部门 数据库管理员 负责云上数据库的部署、配置、监控和维护。 确保数据库的高可用性和数据安全,定期进行备份和恢复演练。 优化数据库性能,解决查询慢、锁等待等问题。 管理数据库的权限和访问控制,确保数据合规性。 熟悉云平台的数据库服务和数据库管理服务。 熟悉主流数据库(如MySQL、PostgreSQL等)的管理。 掌握数据库性能优化技术(如索引优化、分库分表)。 具备数据库备份与恢复、主从同步、分布式架构的运维经验。 熟悉数据库安全策略和 数据加密 技术。 IT部门 自动化工程师 开发和维护自动化运维工具,提升运维效率。 实现云资源的自动化部署、监控和扩展。 编写脚本或代码实现日常运维任务的自动化。 推动智能化运维技术的应用,如AIOps。 熟悉自动化工具(如Ansible、Terraform、SaltStack等)。 掌握脚本语言(如Python、Shell)和云平台API的使用。 具备DevOps理念,熟悉CI/CD流程和工具。 了解AIOps相关技术。 IT部门 父主题: 云卓越中心
  • 技术驱动力 在数字化时代,云计算已成为企业技术战略的核心。对于CIO、CTO和技术主管而言,云化转型不仅是业务发展的需求,更是技术创新和变革的必然选择。云计算提供的技术优势,在资源弹性、系统韧性、扩展性、安全性和运维效率等方面实现飞跃。这些技术驱动力是业务驱动力和财务驱动力的底层技术支撑。 提升资源弹性 资源弹性是云计算的核心特性之一,是指云平台能够根据业务需求,按需对业务系统所需的计算、存储和网络等资源进行快速扩容和缩容。提升资源弹性可以有效提升业务敏捷性和业务连续性。 动态资源调配:云计算支持按需分配资源,企业可以在业务高峰期迅速扩展资源规模,以应对流量激增;在业务低谷期,则可以释放闲置资源,降低成本。 自动化伸缩:通过自动化的监控和调度机制,云平台能够根据预设的策略和实时的负载情况,自动进行资源的伸缩。 快速部署和回收:相较于传统的硬件采购和部署周期,云上资源的创建和销毁可以在几秒或几分钟内完成,大幅提高了资源的弹性速度。 提升系统韧性 系统韧性是指系统在面对各种外部灾难和内部软硬件故障时,仍然能够维持正常运行或快速恢复的能力。云平台和云服务能够大幅提升应用系统的韧性,从而有效提升业务连续性。 高可用架构:云服务商提供多地域、多可用区的部署模式,支持应用系统设计跨机房、跨地域的容灾和双活方案,甚至跨多个地域的多活方案,大幅提升应用系统的可用性和容灾能力。 灾备和容灾:云平台内置了数据备份、容灾切换等功能,帮助企业构建完善的灾难恢复方案,在突发事件中保障系统可用性。 服务等级协议(SLA):云服务通常提供99.9%以上SLA,可以有效保障基于这些云服务构建的应用系统的可靠性SLO(Service Level Objective)。 故障自动化处理:云平台具备自动检测故障和自动恢复的能力,减少人为干预,缩短故障处理时间。 提升扩展性 扩展性指一个系统在面对不断增加的工作负载或请求时,在不改变系统架构或对现有系统进行最小修改的情况下,通过添加或调整资源(例如服务器、存储、带宽)而保持性能稳定、效率不降低的能力。云平台和云服务可以大幅提升应用系统的扩展性,平滑处理不断增加的用户、数据或事务量,而不会导致性能下降或系统崩溃。提升系统扩展性可以有效提升业务敏捷性和连续性。 分布式架构:云平台支持分布式系统架构设计,允许应用程序在多个服务器或节点上运行,分散负载,避免单点故障,提高系统的扩展性和可用性。 自动弹性伸缩:利用云平台的自动化伸缩功能,系统可以根据预设的策略自动增加资源实例,以应对流量高峰,保持性能稳定。 微服务架构:云平台天然适合微服务和容器化部署,支持应用拆分和独立扩展,提升灵活性和可维护性。 无服务器计算:云平台提供的无服务器计算服务(如 FunctionGraph)允许用户将代码部署到云端,而无需管理服务器。云平台会根据请求自动分配计算资源,并在请求处理完成后释放资源。这种模式极大地简化了扩展性管理。 提升安全性 安全性是指保护数据和应用系统免受未经授权的访问、使用、泄露、篡改、破坏或损失的能力。云服务商在信息安全领域投入巨大,为企业提供了多层次的安全保障。提升安全性可以有效提升业务连续性。 云平台安全:云服务商的云平台符合严格的安全标准和认证,如ISO 27001、CSA、SOC 1/2/3、安全等级保护、PCI-DSS、NIST CSF等。 丰富的云原生安全服务:云服务商提供主机安全、数据安全、应用安全、网络安全、身份安全和运维安全等丰富的云原生安全服务,帮助企业在云上为应用系统快速构建全方位的安全防线。 提升运维效率 运维效率是指IT运维团队以最少的资源投入(人力、时间、成本),管理尽可能多的IT资源,并保持高服务质量和稳定性的能力,它体现了资源利用率和人员生产力。企业采用云计算之后可以大幅提升运维效率,进而有效降低运维成本。 无需管理IT基础设施:云服务商负责云数据中心、硬件、网络、虚拟化等IT基础设施的运维,企业只需要聚焦应用系统的运维。 智能监控系统:云服务商提供全栈和智能监控系统,能够实时收集、分析云资源及应用性能指标,自动识别异常,预测潜在风险,并提供告警和可视化报表,帮助运维人员快速定位故障。 自动化运维:云服务商提供自动化部署、配置管理、监控告警和运维等工具,减轻运维人员的工作负担,提高运维效率。自动化运维还降低了人为错误的风险,从而减少了不必要的纠错工作。 无服务器架构:如果企业采用函数计算等Serverless服务,企业只需编写业务逻辑代码,无需管理任何服务器,将进一步减轻运维负担。 提升性能效率 提升性能效率的目标是用更少的IT资源处理更多的业务请求,最终体现在更高的吞吐量、响应时间或并发用户数等关键性能指标上。借助云服务商提供的云上卓越架构设计原则和性能检测和优化工具,企业可以有效提升系统的性能指标。 选择合适的资源: 根据业务实际需求选择最合适的计算、存储、中间件和数据库等资源的规格等,同时避免过度配置造成资源浪费。 性能测试和规划:基于云平台提供的性能测试工具评估应用系统当前的性能指标,再结合业务需求增长趋势提前进行容量规划。 性能优化: 挖掘现有资源的性能潜力,包括数据库查询优化、代码优化、使用缓存和 CDN加速 等,提升系统吞吐量和响应速度。 架构优化: 采用更有效率的架构模式。例如,使用异步处理和消息队列解耦系统组件,提高并发处理能力。 云化转型的技术驱动力为企业的IT战略和技术架构带来了深刻的变革。对于技术领导者而言,深入理解和利用这些技术驱动力将有助于: 制定前瞻性的技术战略,引领企业的数字化发展。 优化IT架构和资源配置,提升技术部门的价值贡献。 推动技术创新和业务融合,支持企业取得竞争优势。 父主题: 识别云化驱动力
  • 概述 企业云化转型是一项复杂和系统的工程,涉及组织和流程、平台和架构、运维和管理等多个层面。如同建造摩天大楼,在挖地基之前就需要设计蓝图,企业在构建云基础设施和将业务系统上云之前,也需要进行全面而清晰的顶层规划。只有在充分的规划和准备下,才能最大程度地发挥云的优势,实现业务价值的最大化。 在组织和流程方面,首先需要设计云卓越中心CCoE(Cloud Center of Excellence)。CCoE作为推动企业云化转型的核心团队,负责制定云标准、最佳实践和治理框架,协调各业务单元之间的合作,确保云化转型的高效推进。此外,应用生命周期管理流程也需要进行变革,传统的开发和部署模式难以适应云环境的快速迭代需求,引入敏捷开发、DevOps等先进方法,可以提高开发效率,缩短交付周期,提高对市场变化的响应能力。 在平台和架构方面,Well-Architected Framework(WAF)提供了一套最佳实践和架构设计原则,帮助企业在云上构建高安全、高可用、高性能且成本优化的云基础设施和应用系统。Landing Zone 的规划和设计则为企业提供了安全合规、易扩展的云上多账号运行环境,可以加速应用部署并提高安全性。此外,平台工程的规划设计也很重要,它为开发团队提供标准化的工具、流程和基础设施支持,提高开发效率、减少复杂性,并加速软件交付。 在运维和项目管理方面,云运营模式的设计对于高效协同CCoE和应用团队至关重要。根据企业内部的协作方式和应用系统的特征建立最合适的云运营模式,可以有效保障应用系统的敏捷迭代和稳定运行。同时,制定详尽的云化转型项目管理计划,涵盖项目计划、项目任命、进度管理、风险管理等方面,能够确保各项工作按计划有序推进,提升项目的透明度和可控性,降低实施过程中的不确定性。 总而言之,企业要成功实现云化转型,必须在前期进行充分的顶层规划和设计。这包括构建卓越的组织结构、优化的流程、高效的平台和架构、完善的云运营模式和项目管理。缺乏这些关键的顶层设计,可能导致大量应用系统上云后的混乱无序和风险激增,事后整改不仅成本高昂,还可能对业务系统的稳定性造成严重冲击。因此,前期的顶层规划对于云化转型的顺利实施和长期成功至关重要。 父主题: 顶层规划
  • 如何识别驱动力 识别驱动力是云化转型的前提,决定了组织是否有正当的理由开启云化转型。识别驱动力是一个比较复杂的过程,需要综合考虑企业的业务战略、业务需求、财务需求和技术需求,并要与高层和干系人达成一致。以下是推荐的步骤: 响应关键业务事件 企业高层的云化转型决策通常源于实际业务需求,而非凭空臆想。关键业务事件往往是促成云化转型的契机,因此,必须充分考虑企业当前和未来可能面临的关键业务事件。以下是一些常见的能够推动云化转型的关键业务事件。 数字化转型: 企业进行数字化转型,需要更先进的IT技术和平台支撑,云平台可以提供丰富的数字化工具和服务。 数据中心退役:现有数据中心即将到期或设备老化,需要进行更新换代,迁移上云成为一个具有吸引力的选择。 合并和拆分: 企业收购、合并或拆分会对IT基础设施产生重大影响,云服务的灵活性可以帮助企业快速调整IT资源,适应新的组织架构。 现金流紧张: 企业现金流比较紧张,希望降低资本支出,包括IT基础设施的投资,将Capex转化为Opex,云服务的按需付费模式可以满足这一需求。 关键技术终止服务: 现有关键技术的提供商即将停止支持服务,需要进行升级或迁移,上云可以提供更现代化、更可靠和更安全的技术方案。 法规遵从变化: 新的法规或合规性要求可能需要企业对IT系统进行调整,云平台通常能够更好地满足这些要求。 关键业务系统中断: 企业经历过关键业务系统的中断,收入和声誉受损,希望提高业务系统的可靠性,云平台可以提供更高的可靠性和容灾能力。 碳排放未达标: 企业希望降低能源消耗和碳排放,提升企业社会责任形象,云数据中心通常采用先进的能源管理和冷却技术,能源效率更高。 市场快速变化: 市场环境和客户需求快速变化,企业要加快产品上市速度,云平台提供更灵活和更弹性的IT基础设施,支持产品和新特性快速上市。 遭遇安全攻击: 企业近期遭遇了黑客攻击,希望提高业务系统和数据的安全性,抵御攻击和数据泄露,云平台可以提供更全面和更强大的安全防护措施。 将关键业务事件映射到驱动力 将第一步中识别出的关键业务事件与云化转型的驱动力关联起来,可以更清晰地理解云化转型如何应对这些关键业务事件带来的挑战。 表1 关键业务事件和驱动力的映射 关键业务事件 业务驱动力 技术驱动力 财务驱动力 数字化转型 提升业务敏捷性 加速业务创新 提升业务连续性 市场扩张 提升资源弹性 提升系统韧性 提升扩展性 提升安全性 新增收入 数据中心退役 - 提升资源弹性 提升系统韧性 提升扩展性 提升安全性 提升运维效率 提升性能效率 按需付费 降低成本 合并和拆分 提升业务敏捷性 提升资源弹性 提升扩展性 - 现金流紧张 - 提升资源弹性 提升运维效率 提升性能效率 按需付费 降低成本 关键技术终止服务 提升业务连续性 提升资源弹性 提升系统韧性 提升扩展性 提升安全性 - 法规遵从变化 合规遵从 提升安全性 - 关键业务系统中断 提升业务连续性 提升系统韧性 提升性能效率 - 碳排放未达标 提升可持续性 - - 市场快速变化 提升业务敏捷性 提升资源弹性 提升扩展性 新增收入 遭遇安全攻击 提升业务连续性 提升安全性 - 确定驱动力的优先级 并非所有业务事件都具有相同的紧迫性和重要性,您需要根据企业的业务战略和业务现状,对已识别的驱动力进行优先级排序。例如,对于一家正在进行数字化转型的企业来说,“提升业务敏捷性”和“加速业务创新”的优先级更高。而对于一家面临现金流紧张的企业来说,“按需付费”和“降低成本”的优先级更高。这些优先级将决定未来进行方案设计时,应该优先考虑哪些方面。比如在韧性、安全和成本产生冲突时,对现金流紧张的企业来说,就要优先考虑成本低的设计方案,在安全、韧性方面可能就会有所妥协。 与高层和干系人对齐 在确定了云化转型驱动力和优先级之后, 将云化转型驱动力和优先级、预期收益清晰地记录下来,与企业高层和干系人进行沟通和对齐,听取他们的意见和建议,获取他们的理解和支持。 父主题: 识别云化驱动力
  • 业务驱动力 业务驱动力是推动CEO和业务主管拥抱云计算的核心原因,主要关注利用云计算的优势提升业务敏捷性、加速业务创新、保障业务连续性、进行市场扩张、保障合规遵从和提升可持续性,最终提升企业的核心竞争力和实现业务收益。 提升业务敏捷性 业务敏捷性是指企业迅速响应市场变化和客户需求的能力。在快速变化的市场环境中,企业需要具备敏捷的业务能力,以保持竞争优势。 快速部署业务系统:云平台提供了高度灵活和可扩展的基础设施,企业可以迅速部署业务系统和服务,缩短上市时间。 快速弹性伸缩:云计算的弹性特性使企业能够根据业务需求,动态调整资源配置,快速满足业务高峰期或突发性需求。 敏捷开发与迭代:云平台支持DevOps实践,加速软件开发周期,实现业务系统的快速迭代和更新。 加速业务创新 业务创新是企业获取新增长点,保持竞争力的关键。云计算为企业提供了创新的平台、技术和工具,大幅降低了创新门槛,加速产品和服务、商业模式、业务流程和运营模式的创新。 获取先进技术:云服务商提供了AI平台、大模型、大数据平台、物联网、数字人等先进技术,企业无需自行构建,即可快速利用这些技术进行创新。 降低技术门槛:云服务简化了复杂技术的应用过程,企业可以专注于业务创新,而无需担心底层技术的复杂性。 全球化合作:云服务商构建了全球生态伙伴网络,使得企业能够与全球的合作伙伴和开发者共同创新,拓展全球业务。 提升业务连续性 业务连续性是指企业在面对各类故障、外部攻击和突发事件时,仍能持续稳定地提供产品和服务的能力。云平台和云服务固有的高可用性和安全性可用确保业务系统的稳定运行,降低运营风险。 高可用架构:云服务商提供多地域、多可用区的部署模式,支持跨地域的容灾备份,提升业务系统的可靠性。 自动故障转移:云平台具备自动检测和故障转移机制,当发生硬件或软件故障时,能够迅速恢复业务运行,减少停机时间。 安全防护能力:云服务商在安全防护方面有很深的积淀,既有端到端的安全技术体系,也有完备的安全管理流程和规范,更有一支庞大的安全专家团队每时每刻在保障云平台的安全,因此公有云相比大多数组织的内部IT团队有更强大的信息安全保障能力。 市场扩张 将业务扩张到全球市场是企业收入增长的重要途径。借助云服务商的全球布局,可以有效支撑企业进入新市场、扩大业务版图和触达更多客户。 全球化部署:云服务商在全球范围内拥有云数据中心,企业可以快速在目标市场部署业务,降低进入新市场的技术和时间门槛。 本地化服务:云平台提供本地化语言支持,并且提供符合当地法规的服务,帮助企业快速适应当地市场需求。 降低进入成本:无需在当地建设数据中心或采购硬件设备,减轻了初始投资压力,降低了市场进入成本。 提升客户体验:通过就近部署和优化的网络架构,提供低延迟、高性能的服务,提升当地客户的满意度。 合规遵从 在当今瞬息万变的商业环境中,合规遵从已成为企业生存和发展的关键要素。随着全球各地法规和标准的日益严格和复杂化,企业需要确保其运营符合当地法律法规和行业标准,以避免法律风险、财务损失和声誉受损。借助云服务商提供的合规性支持服务,企业可以有效降低合规风险,专注于核心业务发展。 全球化合规支持:云服务商在全球范围内的数据中心和服务都符合当地法规和行业标准,例如 GDPR、HIPAA、PCI DSS 等。企业可以利用云平台的合规性认证和服务,快速满足不同市场的合规要求。 本地化合规服务:云平台提供本地化的合规服务,例如数据驻留、数据主权、数据加密等,帮助企业满足特定地区的合规要求。例如,一些国家要求数据必须存储在境内,云服务商可以提供符合要求的本地数据中心和服务。 提升合规效率:云平台提供自动化合规工具,例如安全审计、 漏洞扫描 、访问控制等,帮助企业进行自动化合规管理,提高效率并降低人为错误的风险。 提升可持续性 可持续性是企业履行社会责任,实现长期发展的重要方面。采用云计算可以减少能源消耗和碳排放,履行企业社会责任,实现绿色发展。 降低能耗和碳排放:云数据中心通常采用先进的能源管理和冷却技术,PUE能降到1.2以下,相比自建数据中心,能耗和碳排放显著降低。 优化资源利用:云计算通过虚拟化和资源池化,提高了服务器和存储设备的利用率,减少了物理设备的需求。 支持绿色创新:云平台支持开发基于数字技术的绿色解决方案,如智慧城市、智能交通、在线协作工具等,助力环保和节能减排。 环境合规性:云服务商通常遵守严格的环境标准和法规,企业利用云服务可以间接满足相关的环境合规要求。 云化转型的业务驱动力涵盖了敏捷性、创新性、连续性、市场拓展和可持续发展等关键业务领域的需求,深入理解云化转型的业务驱动力,能够帮助企业: 制定明确的云化转型战略目标,确保云化转型战略与业务战略紧密结合。 获得管理层和全体员工的支持,统一认识,共同推进云化转型。 实现业务价值最大化,提升企业的市场竞争力和可持续发展能力。 父主题: 识别云化驱动力
  • 战略制定的反模式 在云化战略的制定过程中,一些常见的反模式可能会阻碍云化转型的成功,甚至导致企业资源的浪费和业务的中断。识别并避免这些反模式,对于确保云化转型取得成功至关重要。以下是几种常见的反模式,以及对应的优化建议。 云化战略与业务战略没有对齐 这种反模式表现为云化转型缺乏与公司整体业务战略的紧密结合,成为IT部门的孤立行为。云化战略的目标与业务目标脱节,高层领导对云化转型的意义和价值缺乏认识,导致支持不足或参与度低。这将导致资源投入不足,转型方向偏离,最终难以实现预期的业务价值。例如,企业为了上云而上云,选择了最新的云技术,却没有考虑这项技术是否能真正解决业务痛点,提升业务效率,反而增加了成本和复杂性。 针对这个反模式的优化建议如下: 将云化转型战略与业务战略紧密结合: 明确云化转型如何支持业务目标的实现,例如加速业务创新、降低成本、提升客户体验、开拓新市场等。用业务语言阐述云化转型的价值,避免使用纯粹的技术术语。 获得高层领导的支持和参与: 向高层领导汇报云化转型的价值和预期业务收益,争取他们的支持和资源投入。邀请高层领导参与到云化转型战略的制定和执行过程中,确保转型方向与公司整体战略一致。 云化战略只关注技术收益,忽略业务收益 这种反模式表现为过度关注技术指标的提升,例如资源弹性、数据存储容量或SLO等,而忽略了云化转型对业务的实际影响。虽然技术指标的提升很重要,但最终目的是要通过技术改进带来业务价值。如果只关注技术收益,可能会导致投资回报率低,甚至对业务造成负面影响。例如,企业上云后过度追求性能、弹性和可靠性等技术收益,但忽略了成本优化和运营,导致上云后成本增长过快。 针对这个反模式的优化建议如下: 以业务为中心制定云化目标: 从业务需求出发,确定云化转型的目标和方向。将技术指标的提升与业务收益挂钩,例如通过提升系统韧性、扩展性、安全性来提升业务连续性,请参考章节制定云化目标 。 量化业务收益:基于前面制定的云化目标,对其进行收益分析,将其转换为财务收益,以便进行项目ROI评估,为管理层的战略决策提供依据,请参考章节分析云化收益 。 持续跟踪和评估业务收益: 定期评估云化转型的业务收益,并根据实际情况调整云化目标。 云化战略缺乏与干系人的对齐 云化转型涉及到公司内部的多个部门和团队,例如IT部门、业务部门、财务部门等,以及外部的合作伙伴和客户。如果缺乏与所有干系人的沟通和对齐,可能会导致转型过程中出现阻力,甚至失败。例如,IT部门在没有与业务部门充分沟通的情况下,就开始了业务系统的迁移上云工作,导致业务系统中断,影响了业务运营。 针对这个反模式的优化建议如下: 干系人利益分析: 识别所有参与云化转型决策或受云化转型影响的部门、团队和个人。了解不同干系人的利益诉求,并制定相应的策略来满足他们的需求,减少潜在的阻力。请参考章节干系人利益分析。 积极开展沟通: 制定详细的沟通计划,明确沟通的目标、内容、方式和时间表。采用多种沟通方式,例如会议、培训、邮件、内部网站等,确保所有干系人都能了解云化转型的进展和影响,以及需要干系人提供什么样的支持。 意见反馈机制: 建立意见反馈机制,鼓励干系人提出意见和建议,并积极采纳合理的建议。 企业进行云化转型是一个复杂且充满挑战的过程。成功的云化转型需要仔细的规划、充分的沟通和持续的优化。通过识别和避免上述反模式,企业可以更好地管理云化转型风险,确保转型战略与业务战略对齐,最终实现预期的业务价值,并为企业未来的发展奠定坚实的基础。 父主题: 制定战略
  • 性能设计 性能是目标架构设计中需要考虑的非常重要的一个方面。上一小节介绍了可扩展性设计,性能设计要考虑很重要的一点就是扩展性,可以说可扩展性是高性能的必要条件, 影响云上应用性能的主要因素包括以下几个方面: 针对计算资源,延时是操作执行之间所花的等待时间,也是云计算性能的最直接表现; 针对网络资源,吞吐量是评价数据处理执行的速率; 在数据传输方面,用字节/秒或者比特/秒来表示,吞吐量的限制是性能瓶颈的一种重要表现形式; 针对存储资源,IOPS是指每秒发生的输入/输出操作的次数,是数据传输的一个度量方法; 针对数据库资源,并发能力是指一个时间段中有几个程序都处于运行的能力。 除此之外,我们还要考虑以下几个方面的内容:方案选择、性能度量、性能监测和性能权衡。 方案选择 根据不同场景选择不同的解决方法,并且结合多种方法,这样可以更容易地找到一种与需求符合的方法; 不断迭代的方法,使用数据驱动来优化资源类型和配置选项的选择; 性能度量 设置性能度量和监控指标,以捕获关键的性能指标; 使用可视化技术呈现性指标和性能问题(如:异常状态、低利用率等); 性能监测 确定监控范围、度量和阈值; 从多个维度创建完整视图; 性能权衡 在架构中进行折中以提高性能,例如使用压缩或者缓存技术等。 父主题: 应用架构设计
  • FinOps团队 FinOps团队的主要职责是通过成本生命周期管理和持续成本运营,推动团队在预算内高效使用云资源,不断提升云资源的成本效益,实现业务价值最大化。FinOps团队通常包含FinOps教练、云成本运营工程师,职责和技能要求如下表所示。 表1 FinOps团队的角色和职责 角色 职责 技能要求 来源 FinOps教练 指导和培训团队成员理解和应用FinOps原则和最佳实践,不断学习云成本优化的新方法并进行推广。 协助制定和实施云成本管理策略,确保各部门在预算内高效使用云资源。 促进跨部门协作,推动成本优化和资源利用率提升。 在组织内部推广FinOps文化和理念。 深入了解FinOps框架和云成本管理最佳实践。 熟悉主流云平台的计费模式和成本管理工具。 熟悉常用的云成本优化方法。 具备项目管理能力,能够推动跨部门的协作和变革。 IT部门内部培养或者外聘 云成本运营工程师 监控和分析云资源的使用情况,识别成本节约机会。 生成详细的成本分析报告,为决策提供数据支持。 与云运维团队和应用团队合作,优化应用系统的成本效益。 实施成本优化策略,例如改变计费模式、购买资源包、关闭闲置资源等。 熟悉云平台的成本管理工具。 熟悉各种云服务的计费模式。 具备数据分析能力,能够从大量数据中提取有价值的见解。 具备良好的沟通能力,能够与技术和财务团队有效协作。 IT部门内部培养或者外聘 父主题: 云卓越中心
  • 指导委员会 指导委员会负责为云化转型项目提供建议、战略指导和决策支持,在云化转型中扮演着至关重要的作用。指导委员会的成员应该由云化转型的重要干系人(CEO、CIO、CTO、CFO、CISO、业务主管等)指定和委派,至少应该包含业务主管、IT主管、财务主管和人力资源主管。指导委员会按照内阁制进行集体决策,共同承担以下职责: 制定云化战略:负责制定符合企业业务目标的云化战略,评估云化成熟度,明确云化目标和预期收益,并规划具体的实施路线。 筹备CCoE:负责筹备和组建CCoE组织,明确CCoE组织内各个角色的职责和技能要求,协调相关部门快速获取CCoE所需要的各类人力资源。 云化转型顶层规划:指导云架构团队、云运维团队、云安全团队和云治理团队等成员进行云化转型的顶层规划,包括应用云化流程优化、Landing Zone设计、平台工程设计、云运营模式设计等,对顶层设计的效果承担最终责任。 明确业务需求:从业务角度出发,明确云化转型的具体需求和期望,例如提升业务连续性、业务敏捷性、增加收入等。 审批和监控预算:负责审核和批准云化转型相关的预算,并监控预算执行情况,确保资金的合理使用和成本的有效控制。 人力资源管理 :负责CCoE成员的招聘、选拔、培养和留任,打造一支稳定和高绩效的CCoE组织。 跨部门协作:促进业务部门、IT部门和其他相关部门之间的沟通和协作,确保云化转型方案得到各方的理解和支持,避免出现部门间的冲突和阻碍。 评估云化转型效果:负责评估云化转型的效果和价值,例如成本节约、效率提升、业务创新等,并根据评估结果对转型策略进行调整和优化。 决策关键事项:指导委员会是云化转型中的最高决策机构,负责对云化转型过程中的关键事项做出决策,例如云服务商的选择、技术方案的确定、实施计划的调整等。 父主题: 云卓越中心
  • 如何选择停服不停服 业务切换是整个上云迁移的关键环节,出问题会直接影响企业业务,不同业务对停服的要求是不一样的,比如,有些业务在切换期间是不允许停服的,停服会造成较大的业务损失;有些业务在切换期间是允许停服的,比如办公OA系统,夜间非工作期间可以停服;有些业务系统,为了更好的客户体验,希望切换期间部分浏览类的业务继续提供服务,只是涉及写操作的业务受到影响。设计切换方案时,对于不同的业务场景和停服要求,会面临多种方案的选择,下面详细介绍如何合适的切换方案。 业务系统从源端切换到目的端,切换方案可以分为3类,即停服切换、停写不停读切换和不停服切换。每类切换方案优缺点具体如下表: 表1 切换方案比较 切换类型 方案说明 数据一致性风险 业务改造投入 停服时长(小时) 读 写 停服切换 最常用的切换方式,停止服务切换能重复保证数据一致性 低 低 0.5~3.5 停写不停读切换 较少用的切换方式,需要业务整改来实现停写不挺读,停止写服务切换能充分保证数据一致性 低 中 不停 0.5~3.5 不停服切换 很少用的切换方式,需要业务整改来实现双写或者双向同步,不停服切换需要业务改造来保证数据一致性,复杂度和难度较高 高 高 不停 不停 所以3种切换方案各有优缺点,不存在风险小、投入少、中断时间短的完美方案,企业需根据业务场景、停服要求和投入产出选择合适的方案。关于如何选择停服不停服,您可以从以下几个方面考虑: 根据行业选择 不同行业有各自的行业标准和要求,例如部分电商零售行业,在凌晨后,交易数量大幅度减少,甚至没有交易,停服后也不会造成重大社会影响,可以在凌晨后使用停服切换方案。而部分交通出行行业,全天24小时有业务,并没有明显的业务低峰期,停服会造成较大的业务损失,可能需要选择不停服切换方案。 根据业务重要程度选择 有些业务,例如游戏业务、金融业务,重要程度高,属于核心业务,又需要24小时提供服务,所以要选择不停服切换方案。其他业务,例如OA、运营等非核心业务,停服造成的业务损失可接受,就可以选择停服切换方案。 根据项目周期选择 业务不允许停服,如果上云周期较长,时间充足,且企业具备不停服的改造能力,可以选择进行双写改造,实现不停服切换。如果上云周期紧张或企业没有太多人力投入上云工作,建议选择改造量少、人力投入少的停服切换方案。 根据投入产出选择 不停服切换方案通常需要研发额外投入进行大量的应用改造才可以实现,停服切换方案则通常无需大量改造,研发投入工作量小。因此,投入产出也是切换方案选择的决策依据之一,企业可以在业务影响所造成的损失跟研发改造所产生的成本之间找到一个合理的平衡。 父主题: 设计切换方案
  • Runbook角色设计 Runbook通常涉及如下角色,职责如下: 表1 Runbook角色与职责 角色 职责 操作人 按Runbook执行相应的操作步骤,并负责操作异常问题处理 确认人 确认操作人的操作步骤是否正常执行完成,并向引导人反馈执行结果,如遇异常,需要按Runbook约定要求,定期向引导人员同步处理进展。 引导人 引导Runbook的执行,通报问题处理进展 记录人 刷新Runbook的执行状态,记录Runbook中各个步骤的完成时间,记录问题处理时长 决策组 由决策组负责人牵头对“决策点”进行决策 会务组 负责维护现场秩序,提供切换期间的会务保障。 每一行执行步骤都对应一个操作人和一个确认人(如涉及多人确认的情况,可以通过共享文档由多个分项确认人在线刷新确认进展)。 引导人通常是1~2个,是整个切换的总指挥(对于大规模切换,参与人员多,操作时间长的场景,也可以设计2~3名引导人,互为备份),引导人需要对整个Runbook非常熟悉,尤其对于每个步骤执行时序,多个步骤的并行情况要熟悉。 父主题: 设计Runbook
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全