华为云用户手册

  • 保障 在大数据迁移的保障阶段,需要执行以下任务来确保顺利过渡到新的云环境: 监控和警报设置:建立实时监控系统,监测集群、任务调度平台和应用程序的运行状态。设置警报,以便及时发现潜在的问题并采取措施。 优化集群性能:对大数据集群进行性能评估和调优。监视资源使用情况,优化配置参数、调整集群大小和资源分配,以提高整体性能。 数据安全和权限管理:审查和加强数据的访问控制和权限管理机制。确保只有经授权的人员可以访问敏感数据,并采取适当的加密和脱敏措施保护数据安全。 自动化任务调度:确保大数据任务调度平台的运行和调度正常。优化调度策略,确保任务按时准确完成,并处理可能的故障或异常情况。 异常处理和故障恢复:建立故障处理和恢复计划,包括对集群、任务和应用程序可能出现的问题进行分类并定义相应的响应和恢复步骤。 团队培训和知识共享:培训团队成员以适应新的环境和技术栈。建立知识分享机制,促进团队内部的交流和经验分享。 父主题: 大数据迁移
  • 什么是应用现代化 把应用和数据搬“上云”并不是终点,上云只是数字化转型的开始,我们还需要持续进行巩固和优化,通过“应用现代化”来应对新的IT和业务的需求,支撑云上业务发展,“上云”只是做了搬运工和架构师的事,“云上”我们要做体验官,通过使用云的新技术来不断优化业务体验,支撑业务创新。 近年来各大云服务商都提出了应用现代化的愿景。数字化时代,企业能快速应对变化并实现敏捷创新,将成为未来企业构筑自身持续竞争力的决定性因素,应用现代化已经成为很多企业开展数字化转型过程的必然选择。传统应用要向现代化应用演进,应用现代化要结合应用实现和云平台能力综合考虑。云平台支持应用现代化进行分层解耦,应用聚焦业务逻辑,尽可能将DFx(Design for X)及治理等公共能力建立在云平台上。 图1 现代化应用发展趋势 表1 传统应用和现代化应用比较 传统应用 现代化应用 单体架构,模块间耦合度高 微服务化架构,应用间充分解耦,快速组合 应用入口多,影响用户体验 以用户为中心,一站式个性化体验 无法快速响应新业务变化 面对新业务可快速组合和按需定制 新功能需求绑定大版本上线,需求交付周期长(年/月级) 快速迭代上线,交付周期缩短(周/天级) 团队规模大,传统开发模式 团队拆小,DevSecOps敏捷运作 物理服务器 容器化部署、全面上云 应用现代化不只是采用云原生技术(如容器、微服务、DevOps、API网关等),还包括新技术(如AI、数字人、IoT、 区块链 等)的应用,使业务能够跟上时代的潮流,提升用户体验和创新能力。应用现代化包括如下4个方面: 图2 应用现代化的四个方面 基础设施现代化,节约成本减轻用户使用的心智负担。通过传统设施的云原生化改造,实现基础设施的高可用与弹性,降低运维成本,把开发运维人员从重复繁琐的资源调配中解放出来,投入到有益于业务发展的工作。 架构设计现代化,解耦可复用功能与业务逻辑。通过改造应用架构,使用微服务架构、Serverless(无服务器)架构等技术,将应用拆分为能独立快速发布的不同模块,使开发运维人员能聚焦于应用和创新工作。 开发运维现代化,提升运维过程的自动化与安全性。通过建设以DevSecOps 为代表的开发运维安全一体化能力,让发布跟上开发的速度,让安全内置在开发运维中。 治理运营现代化,整合全域新老资产推动架构可演进。通过全域融合集成、应用资产统一治理运营等技术实现应用的治理运营现代化,构建可平滑演进的应用架构,实现新老资产的价值最大化。 父主题: 应用现代化
  • 概述 安全防护三分在于技术,七分在于运营。安全运营是指在云计算环境中,通过持续监控、检测、响应和改进,确保云资源、数据和应用的安全性。这种方法强调安全防护是一个持续的过程,而不是一次性的任务。只有通过持续的、有效的安全运营才能将多道安全防线有效协同起来,共同保障业务系统的安全稳定运行、保障关键数据的安全。然而,安全运营面临着很多挑战。 安全体系越来越复杂 随着数字化转型的深入,企业的ICT环境变得日益复杂。云计算、网络管道、终端设备、边缘计算、操作系统、数据库、应用程序等多个层面交织在一起,形成了一个庞大而复杂的生态系统。每个环节都有可能成为安全漏洞的切入点,增加了整体安全管理的难度。此外,安全产业的碎片化现象加剧了这种复杂性。市场上安全厂商众多,各自提供不同的产品和解决方案,产生了大量格式各异的日志和数据,缺乏统一的标准。这使得安全信息的整合和分析变得困难,无法形成全局性的安全态势感知。 同时,合规要求的提高也给企业带来了新的挑战。国内外的法律法规,如中国的网络安全法、数据安全法和个人信息保护法,欧盟的GDPR,金融行业的PCI-DSS,医疗行业的HIPPA等,对数据隐私和网络安全提出了严格的要求。企业需要投入大量的资源来满足不同地区和行业的合规标准,增加了管理负担。 更为严峻的是,攻击手段日益复杂化。攻击者利用人工智能和机器学习技术,加速了攻击工具和方法的迭代,手法新颖多变。例如,APT攻击(高级持续性威胁)是指隐蔽而持久的网络攻击,攻击者通常是拥有强大资源的组织或犯罪集团,他们目标明确,长期潜伏,利用各种高级技术手段窃取敏感数据或破坏目标系统。APT攻击难以检测和防御,危害极大。 综上所述,安全体系的复杂性源于技术环境的多元化、安全产业的碎片化、合规要求的严苛化以及攻击手段的复杂化。企业需要建立统一的安全管理平台,整合各类安全信息,提升全局防护能力,才能应对当前的安全挑战。 安全专家稀缺 安全专家的稀缺已成为制约企业安全运营的一大瓶颈。首先,受投资有限的影响,许多企业无法组建庞大的安全团队,专业的安全人才不足。安全领域高度专业化,培养一名合格的安全专家需要经过长期的实战锻炼,积累丰富的经验和技能,成长周期漫长。此外,安全专家的经验和知识往往难以体系化地沉淀下来,缺乏有效的知识传承机制。一旦专家离职,宝贵的经验也随之流失,给企业带来不可估量的损失。 由于安全事件频发,专家的工作负荷巨大,他们的精力常常被日常重复性的运作所消耗。例如,处理大量的安全告警、分析日志、进行常规的安全检查等。这些工作虽然重要,但重复性高,耗时费力,导致专家无法专注于更具价值的工作,如安全战略规划、复杂威胁分析和安全体系优化等。 此外,随着攻击技术的不断演进,安全专家也需要持续学习和更新知识,以保持专业水平。这进一步增加了他们的压力和负担。在人才市场竞争激烈的情况下,留住安全专家也是一大挑战。 为解决安全专家稀缺的问题,企业需要加大对安全人才的培养和投入,建立完善的培训和晋升机制。同时,利用自动化和智能化工具,减轻专家的重复劳动,让他们专注于核心安全事务。建立 知识管理 体系,沉淀专家的经验,实现知识共享,降低因人才流失带来的风险。 安全运营效率低 安全运营效率低下是当前企业面临的普遍问题。首先,风险告警数量过多,安全设备每天产生海量的告警信息,其中包含大量的误报和冗余信息。安全人员难以在短时间内对所有告警进行有效的筛选和处理,真正的威胁可能被淹没在海量数据中而被忽视。 其次,威胁识别速度慢。面对复杂的安全事件,缺乏智能化的分析工具,安全团队需要耗费大量时间进行手动分析,无法及时判断威胁的性质和严重程度。这种被动的响应方式,可能错过最佳的处理时机,导致安全事件的进一步扩大。 再次,事件响应和处理缓慢。从发现问题到采取行动,通常涉及多个部门和人员,流程繁琐,协调困难。手动操作的过程容易出现疏漏和错误,影响处理效果。 这些问题的根源在于缺乏高效的安全运营机制和工具支持。传统的安全运营模式已无法适应当前快速变化的安全环境。为提升安全运营效率,企业需要引入先进的安全运营中心(SOC),利用大数据分析、机器学习等技术,实现告警的自动关联和优先级排序。通过自动化响应工具,加快事件处理速度。建立标准化的流程和协同机制,提高跨部门的响应效率。同时,加强对安全人员的培训,提高其分析和决策能力。 总之,提高安全运营效率,需要技术和管理的双重提升。只有构建高效、敏捷的安全运营体系,才能及时应对各种威胁,保障企业核心业务系统和数据的安全。 父主题: 安全运营
  • 软件工程安全 软件工程安全是指在软件开发的整个生命周期中,应用一系列安全原则、实践和技术,以减少软件漏洞,提高软件抵御恶意攻击的能力,最终保障软件的机密性、完整性和可用性。它涵盖了从需求分析、设计、编码、测试到部署和维护的各个阶段。 安全设计 企业需要遵从安全及隐私设计原则和规范、法律法规要求,在安全需求分析和设计阶段根据业务场景、数据流图、组网模型进行威胁分析。威胁分析使用的引导分析威胁库、消减库、安全设计方案库来源于企业自身的安全工程经验积累和业界优秀实践。当识别出威胁后,应用架构师根据消减库、安全设计方案库制定消减措施,并完成对应的安全方案设计。所有的威胁消减措施最终都将转换为安全需求、安全功能,并根据公司的测试用例库完成安全测试用例的设计,最终保障业务系统的的安全性。 安全编码与测试 企业需要制定安全编码规范,要求应用系统的开发和测试人员在上岗前均需通过了对应规范的学习和考试。其次,企业需要引入了静态代码扫描工具进行每日检查,其结果数据将导入持续集成和持续部署(Continuous Integration,Continuous Deployment)工具链,通过质量门限进行控制,以评估应用系统的安全性。最后,所有应用系统在发布前均需完成静态代码扫描的告警清零,确保上线时不存在编码相关的安全问题。 为了确保应用系统的安全性,所有云服务在发布前首先将由应用测试人员执行多轮安全测试,包括但不限于认证、鉴权、API安全、数据库安全等专项安全测试。测试用例覆盖安全设计阶段识别出的安全需求以及攻击者视角的渗透测试用例等。对于无法通过安全测试的应用系统,将禁止上线运营。 第三方软件安全管理 企业对引入的开源及第三方软件需要制定明确的安全要求和完善的流程控制方案,在选型分析、安全测试、代码安全、风险扫描、法务审核、软件申请、软件退出等环节,均实施严格的管控。例如在选型分析环节,增加开源软件选型阶段的网络安全评估要求,严管选型。在使用中,须将第三方软件作为应用系统的一部分开展相应活动,并重点评估开源及第三方软件和自研软件的结合点,或使用独立的第三方软件是否引入新的安全问题。 在社区发布开源软和第三方软件的漏洞时,第一时间发现漏洞并修复,将开源及第三方软件作为应用系统的一部分开展测试,验证开源及第三方软件已知漏洞是否修复,并在应用系统的Release Notes里体现开源及第三方软件的漏洞修复列表。 配置与变更管理 配置和变更管理对保障应用系统的安全起着重要作用。企业需要对所有应用系统进行配置管理,包括提取配置模型(配置项类型、各类配置项属性、配置项间的关系等),记录配置信息等。并通过专业的CMDB工具对配置项、配置项的属性和配置项之间的关系进行管理。 应用系统的各项变更都是影响应用系统安全稳定运行的因素。生产环境中的操作系统、数据库、中间件和应用程序等的变更,包括软件更新、配置改变等,都需要通过有序的活动进行变更管理。所有的变更申请生成后,由变更经理进行变更级别判断后提交给变更委员会,通过评审后方可按计划实施变更。所有的变更在申请前,都需通过类生产坏境测试、灰色发布、蓝绿部署等方式进行充分验证,确保变更委员会清晰地了解变更动作、时长、变更失败的回退动作以及所有可能的影响。 上线安全审批 为确保应用系统满足法律法规及企业自身的安全规范,最大程度的降低应用系统的网络安全与隐私保护合规风险,CCoE团队的 云安全 专家需要参与到应用系统的上线活动中,与应用团队合作,共同分析、判断其相关版本或服务是否符合所服务区域的安全隐私合规要求。 其中,为了确保中低 安全与合规 风险的应用系统可以快速上线,云安全专家需要发布安全与隐私合规的自检清单,该清单包含企业需要满足的的合规要求,应用团队在开发、部署、上线过程中需利用该清单进行自检。对于中低风险的应用系统,自检通过后即可上线,自检结果也同步提交给云安全专家执行审计。对高风险的应用系统,通过更多的投入、在短时间内执行更严格的上线检测和审批,确保应用系统安全性的同时,也让应用系统及时上线。 父主题: 安全运营
  • 调研 大数据迁移是指将大数据集群、大数据任务调度平台和大数据应用从一个运行环境迁移到另一个运行环境的过程。它包含如下三个模块,本节重点介绍的是大数据集群和大数据任务调度平台的迁移,大数据应用的迁移方法请参考应用迁移上云,本节只介绍差异部分。 大数据集群迁移:将大数据集群(包括存储、计算和管理组件)迁移到新的运行环境,包括集群的重新配置和数据迁移。集群迁移需要考虑数据的迁移方式、网络传输速度、兼容性和数据一致性等因素。 大数据任务调度迁移:是将现有的大数据任务调度系统、工作流和调度策略迁移到新的运行环境,包括梳理任务依赖关系、任务适配和改造、任务调优、部署、测试和验证。 大数据应用迁移:是将基于大数据应用从一个运行环境迁移到另一个运行环境。 大数据迁移遵循如下的流程: 图1 大数据迁移流程 其中大数据应用的迁移请参考应用迁移上云,本章只对大数据应用迁移的特殊注意点进行描述。 大数据迁移流程每个阶段概述如下: 调研:调研大数据平台的版本和配置信息、数量类型和数据量、任务类型和任务量。 设计:设计大数据的部署架构、数据迁移方案、任务迁移方案和数据校验方案。 部署:部署大数据平台,包括集群部署和任务调度平台部署。 迁移:实施数据迁移和任务迁移。 验证:进行数据校验和任务验证。 切换:配合大数据应用进行切换。 保障:业务切换后进行一段时间的实时监控和特别运维保障。 请参考大数据调研的调研方法,调研大数据集群、大数据任务调度平台和大数据应用的现状信息。 父主题: 大数据迁移
  • 采用实施的反模式 在云采用实施阶段,可能会遇到一些反模式,这些模式如果不加以识别和避免,可能会影响上云迁移效率、导致业务中断、造成不必要的成本浪费和增加维护难度。以下是一些常见的云采用实施阶段的反模式: 未采用自动化部署模式 该反模式是指企业依赖手动进行代码、云资源的配置和部署,效率低,人为错误高。 优化建议:采用自动化的配置和部署工具,如Terraform、CI/CD等,以提高云资源部署的效率和准确性。 未进行切换演练 该反模式是企业未进行充分的切换演练,导致在正式业务切换时出现问题。 优化建议:在正式切换前进行全面的切换演练,模拟真实环境中的不同场景,及时发现并解决问题,确保系统在切换后能正常运行。 测试不充分 该反模式是指业务系统切换前测试不充分,导致潜在问题未能及时发现和解决,上线后出现各种功能、性能、安全性等问题,影响用户体验。 优化建议:业务切换前,要进行全面的测试,包括功能测试、性能测试、可用性测试、安全测试等,确保每个功能模块在云环境中能正常稳定运行。 资源未打标签 该反模式是指云资源未正确打标签,导致资源管理困难,增加了查找、监控和管理的复杂性。 优化建议:所有创建的云资源都要打好标签,方便后续的运维管理和成本优化。 通过识别和避免这些反模式,并参考行业最佳实践和成功案例,可以更加科学实施上云方案,提高上云和用云的效率,更好地利用云平台的优势,发挥云技术的价值。 父主题: 采用实施
  • 区块链 区块链是一种去中心化、分布式的账本技术,可以确保数据的安全性和可信度。以下是区块链如何使能业务创新、与业务结合并推动业务现代化的几个方面: 透明度和可信度:区块链技术通过去中心化的特点,确保所有交易和数据记录被公开透明地存储,并且无法篡改。这为企业创造了更高的数据可信度和透明度,消除了传统中介机构的需求,降低了操作风险。 智能合约和自动化执行:区块链上的智能合约是一种自动化的合约机制,能够根据预先设定的条件和规则自动执行。这在供应链管理、金融服务等领域具有广泛的应用。智能合约可以提高交易的效率,减少人工干预,降低成本,并防止欺诈和纠纷。 去中介和减少摩擦:区块链技术消除了许多中介机构的需求,使得交易过程更直接、高效,并降低了交易成本和摩擦。例如,利用区块链技术,企业可以实现快速的跨境支付和资金清算,减少中间银行或支付机构的介入。 去中心化的应用和社区经济:区块链技术为去中心化的应用提供了基础。企业可以通过区块链构建去中心化的应用平台,实现用户之间的直接交易和价值转移。这种社区经济模式可以鼓励用户参与、共享价值,并促进创新和合作。 父主题: 云上创新
  • 确定性运维 确定性运维是华为云基于自身多年的云服务运维经验沉淀的一套运维理念、方法论和最佳实践,可以帮助企业在云上高效运维自建和采购的业务系统,确保这些业务系统在云上能够持续高效稳定运行。 确定性运维旨在构建可防、可控、可治的运维管理体系。通过高质量的产品开发,严谨的运维流程和制度来降低故障的概率,要挑战零故障。同时也要有技术手段对可能发生的故障进行管理,将故障间隔、故障影响范围及故障恢复时间做到可防、可控、可治。总而言之,要把数字化转型和业务快速发展带来的“不确定性”通过运维变成“确定性”。 在确定性运维的推动下,企业可以实现资源的高效利用。通过合理的资源规划、分配和调度,企业能够避免资源的浪费和闲置,提高资源的利用率。此外,确定性运维还能够通过自动化、智能化的手段,降低运维成本,提高运维效率,为企业节省大量的人力和物力。 构建确定性运维体系是一个系统性和综合性的工程,需要从质量文化、高可用架构、动态风险治理以及智能运维工具这四个方面全方位入手,如下图所示。 图1 确定性运维框架 质量文化是基础 质量文化是确定性运维的基石。一个注重质量的文化能够激发团队成员对运维工作的责任感和使命感,从而确保工作的精细化和标准化。以下是一些构建高质量文化的最佳实践: 自上而下,从最高层面强调和践行质量的重要性,并将其纳入核心价值观。 构筑开发与运维团队共同的质量目标和方法。 在运维团队开展组织变革,不断提升组织能力,牵引用软件工程的方法解决问题,从“消防员”向“建构师”转型。 高可用架构是前提 高可用架构是确定性的前提,通过设计合理的架构,可以降低系统故障的风险,缩短故障恢复的时长,并且控制故障的影响范围,高可用架构的设计与落地需要关注如下三点: 瞄准SLO 的目标,运用科学的方法进行架构的设计,对可用性架构的选择以及落地时间进行管理。 在产品规划设计、上线运行阶段,给运维团队授予相应的责权利,对开发和商用计划有所制约,确保可用性需求落地。 在产品运行维护期间,有计划地对高可用设计进行验证,以确保系统符合设计要求。 动态风险治理是保障 动态风险治理是应对不确定性和突发事件的重要保障手段。其本质也是对变更、故障模式、业务运行数据的识别开展全生命周期的主动运维和能力构建: 针对变更作业的风险,开展全面的能力建设,包括版本发布架构体系建设、账号权限管理、自动化变更能力建设等。 针对已知和未知的故障风险,通过科学的方法梳理故障模式库(树),并目的地进行快恢能力建设,一方面制定应急预案和响应机制,确保在突发事件发生时能够迅速响应和处理,另一方面定期组织演练和复盘,验证可用性架构运行情况以及团队应急响应能力。 业务运行态数据的智能运营,是指导团队开展工作持续改进的核心基础能力,需要构建一套实时的采集以及数据运营系统,以支撑业务决策。 智能运维是未来 智能运维工具能够提高运维工作的效率和质量,降低人力成本。尤其是AI 时代,通过引入自动化、智能化等技术手段,团队可以更加高效地管理和维护系统,有几个原则: 选择合适的工具和技术,确保其与业务需求和技术栈相匹配,如自动化部署、故障预测、智能定界定位等。 将工具与现有系统进行整合,根据实际需求进行定制和优化,以满足特定的运维需求。 关注新兴技术和发展趋势,不断更新和升级智能运维工具,提升运维水平。 关于确定性运维的详细实践指南,请参考华为云发布的《确定性运维白皮书--稳定可靠篇2.0》。 父主题: 运维治理
  • 成本优化 选择合适的计费模式 华为云为客户提供了按需、包年包月、资源包、竞价实例等多种计费模式,不同的计费模式有着不同的适用场景。企业合理利用云资源的不同计费模式,来适配不同的业务形态,可以有效降低费率,实现成本节省。 按需计费:适用于临时、突发的业务场景。 包年包月:通过预付一定周期的资源使用费用,来获取优惠的计费模式。一般适用于资源长期使用,业务较稳定的场景。 资源包:一种特殊的包年包月,可通过预付一定周期下某种资源使用量的费用,来获取优惠的计费模式。资源包可以抵扣多个资源的用量,适用于长期使用且用量比较稳定的场景。 竞价计费:适应于业务稳定性不高,中断也不影响业务的场景,目前仅E CS 支持。 优化计费模式与节省成本 华为云提供计费模式的优化建议,帮助企业在不改变资源性能的情况下,通过调整计费模式来节省成本。 按需转包年包月成本优化评估:自动识别客户长期按需使用的资源(比如云主机、云硬盘、RDS数据库),按需转包周期的转换建议和节省评估。客户可重点关注高节省低风险的节省建议(“预计月度节省”高且“盈亏平衡时间”短)。 资源包购买建议:根据您资源包覆盖产品(比如OBS、SFS)的按需资源消费情况,提供相应的资源包购买建议。 您还可以通过资源包的使用率/覆盖率分析,了解已购资源包的使用情况,识别资源包购买过多(使用率低),还是过少(覆盖率低),从而优化下一阶段的购买。 识别空闲和低利用资源 华为云提供资源优化建议,通过监控客户的历史消费情况和资源利用率,帮助您识别空闲资源(比如云主机)。您可参考系统给出的利用率信息、预估月度节省,结合业务团队意见,采取资源优化行动。 华为云优化顾问,提供成本维度的巡检,可以帮助您快速准确地识别出当前存在的风险点,并给出优化建议。 架构优化与持续运营 FinOps专业服务结合企业业务场景,可针对业务布局、资源规划、数据存储各层次进行架构优化,如在离线业务混合部署提升资源利用率、存算分离使计算和存储各自按需使用避免绑定浪费、冷热分离降低冷数据存储成本等。 父主题: FinOps
  • 集中化IT管理 集中化IT 管理是指将企业内分散的IT 资源、服务和管理职能集中到中心IT 部门进行统一管理和协调,中心IT 部门可以针对众多业务单元进行集中网络管理、集中运维管理、集中安全管理、集中合规审计、集中身份权限管理和公共资源管理等。通过集中化的方式提高IT 管理的效率和一致性,降低运营成本。各个业务单元无需为基础设施的部署和运维操心,可以加速业务云化进程。 集中化IT管理是指将企业内原本分散在各个业务单元的IT资源、服务和管理职能,集中到一个中心化的IT部门进行统一的管理和协调。这种管理模式在当今信息技术高速发展的时代,显得尤为重要。通过将分散的IT职能集中起来,企业可以在多个层面上获得显著的优势,既能提高IT管理的效率和一致性,又能有效降低运营成本。在集中化IT管理模式下,中心IT部门(或者CCoE)可以针对众多业务单元实施多方面的集中管理: 集中网络管理:中心IT部门统一规划、部署和维护企业在云上的网络基础设施,包括专线、企业路由器、VPN、云连接、NAT网关、VPC等。这样可以确保整个企业的网络架构统一、稳定、安全,避免各业务单元自行管理网络所带来的不一致性和潜在的安全漏洞。同时,统一的网络管理还能提高数据传输的效率,保障各部门之间的信息交流畅通无阻。 集中运维管理:借助 AOM 和COC等服务所提供的多账号统一监控和运维管理功能,所有业务单元的云资源的运维工作可以交给中心IT部门负责。通过建立标准化的运维流程和规范,对云资源的性能监测、故障处理、升级更新等进行统一管理。这种方式可以有效实施统一的运维管理标准,提升运维效率,减少运维成本。 集中安全管理:网络安全是企业运营的重中之重。借助 安全云脑 等服务提供的多账号统一安全管控功能,中心IT部门可以针对所有业务单元进行统一的安全运营,包括云上资产管理、安全态势管理、安全信息和事件管理、安全编排与自动响应等。集中化的安全管理可以确保安全策略的一致性,有效防范网络攻击和数据泄露,保护企业的核心资产。 集中合规审计:随着各类信息安全法规和行业标准的出台,合规性成为企业必须关注的重点。借助 CTS 和Config等服务提供的多账号统一合规审计的功能,中心IT部门统一负责企业的合规管理和审计工作,确保各业务单元的云资源符合国家、行业和企业自身的合规标准。这样,可以降低合规风险,避免因不合规而导致的法律责任和声誉损失。 集中身份权限管理:通过 IAM 身份中心提供的多账号统一身份管理与访问控制的功能,中心IT部门可以统一管理企业中使用华为云的用户,一次性配置企业的身份管理系统与华为云的单点登录,以及所有用户对组织下账号的访问权限。管理员集中创建用户,分配登录密码,并对其进行分组管理。集中权限管理加强了对用户权限的控制,防止未经授权的访问,保障系统的安全性。 公共资源管理:企业内部的公共IT资源,如DNS服务器、容器镜像库、CA证书机构、云盘等由中心IT部门统一部署和管理。集中管理可以避免资源的重复建设和闲置浪费,提高资源利用率,降低采购和维护成本。 通过以上各个方面的集中管理,企业可以显著提高IT管理的效率和一致性。首先,集中管理催生了标准化的管理流程和规范,使得各项IT工作更加有序和透明,减少了因管理松散导致的错误和安全漏洞。其次,专业的中心IT团队具备更强的技术能力和经验,能够及时引入先进的技术和最佳实践,为企业提供高水平的IT支持。 集中化IT管理还有效降低了运营成本。通过统一的资源规划和采购规模化,企业可以获得更优惠的价格,减少不必要的开支。集中化的运维和管理,优化了人力资源配置,避免了各业务单元各自为政带来的人力资源浪费。整体而言,企业可以在不增加投入的情况下,获得更高效、更可靠的IT服务。 集中化IT管理还能缩短各业务单元的IT项目交付周期。由于中心IT部门已经建立了完善的基础设施和服务框架,业务单元在需要新系统或应用时,可以快速集成和部署,避免了重复的建设和调试过程。业务单元可以将更多的精力和资源投入到自身的核心业务发展上。这种专业分工,使得业务单元能够更快地响应市场需求,加速产品和服务的创新,提升市场竞争力。 然而,实施集中化IT管理也需要企业在组织架构、管理模式和文化上进行一定的调整。首先,企业需要建立明确的管理机制和流程,明确中心IT部门和业务单元的职责分工,确保双方的沟通顺畅。其次,中心IT部门需要具备服务意识和灵活性,能够根据业务单元的需求,提供个性化的支持和解决方案。最后,企业的高层领导需要对集中化IT管理予以足够的重视和支持,为其推行扫清障碍。 总之,集中化IT管理是一种符合现代企业发展需求的管理模式。通过将分散的IT资源、服务和管理职能集中到中心IT部门,企业能够提高IT管理的效率和一致性,降低运营成本,提升整体竞争力。各个业务单元在这种模式下,可以专注于自身的核心业务,无需为基础设施的部署和运维操心,从而加速业务云化进程,实现业务的快速发展和创新。在推行集中化IT管理的过程中,企业需要统筹规划,协调各方利益,充分发挥集中化管理的优势,为企业的长期健康发展奠定坚实的基础。 父主题: 精益化治理
  • 微服务改造上云 将传统的单体应用进行微服务改造并迁移到云环境是一个复杂的过程。下面是关于如何进行微服务改造和上云的一些基本步骤和考虑事项。 评估现有应用和目标: 首先,对传统单体应用进行全面评估,了解其架构、功能和性能特点。同时,明确希望在云环境中实现的目标,例如可伸缩性、高可用性和灵活性等方面的要求。这个评估阶段可以帮助您确定是否适合将应用进行微服务改造和迁移到云上。 拆分单体应用: 在微服务改造之前,您需要将单体应用拆分为更小的、独立的功能模块。这个过程通常被称为"分解单体"。通过仔细分析应用的业务逻辑和功能,识别出可以独立运行的模块,并将其划分为不同的微服务。每个微服务负责特定的业务功能,且应该是松耦合的,相互之间尽可能地独立。 在拆分过程中,可以采用不同的策略,例如按照业务领域进行拆分(领域驱动设计)、按照功能模块进行拆分等。确保每个微服务具有清晰的职责,并通过清晰的接口定义它们之间的交互方式。 定义服务边界和接口: 拆分后,您需要定义每个微服务的边界和接口。确定每个微服务暴露的外部接口以及它们之间的通信方式(例如使用RESTful API或消息队列)。在定义接口时,确保它们是清晰、一致且易于使用的。这样可以促进团队间的协作,并支持未来的扩展和变更。 另外,考虑采用开放标准和协议,如OpenAPI规范(前身为Swagger)来定义接口。这将使得各个微服务之间的集成更加简单,同时也方便文档生成和代码生成。 设计和实施服务治理: 在微服务架构中,服务治理变得至关重要。您需要考虑如何发现、注册、配置和监控您的微服务。选择适合您的需求的服务注册与发现工具(如Consul、Eureka等),并确保在整个服务生命周期中能够有效地管理、监控和维护微服务。服务注册与发现工具可以帮助您自动化服务的注册和发现过程,并提供服务的健康状态检查和负载均衡等功能。 此外,还应该考虑负载均衡、故障恢复和服务安全等方面的问题。使用负载均衡机制来平衡请求的分发,确保每个微服务能够处理适量的负载。实施故障恢复机制(如断路器模式)来处理故障情况,防止级联故障。同时,通过合适的授权和认证机制来保护微服务的安全性,限制对敏感数据和功能的访问。 引入容器化技术: 微服务架构通常使用容器化技术进行部署和管理,最常见的是使用Docker容器。将每个微服务打包到独立的容器中,以便更好地隔离和部署。使用容器编排工具(如Kubernetes)来自动化容器的部署、扩展和管理,提高系统的可伸缩性和弹性。通过容器化,可以更加灵活地部署和管理微服务。容器化还有助于解决开发环境与生产环境之间的一致性问题。开发团队可以在本地使用相同的容器运行微服务,并确保其在开发和测试阶段的正常运行。然后,将这些容器化的微服务镜像上传到云平台,以供部署和生产使用。 数据管理和持久化: 在单体应用转换为微服务时,您需要考虑数据管理和持久化的问题。每个微服务可能需要有自己的数据库,或者共享同一个数据库。选择适合您的需求的数据库解决方案,并确保数据的一致性和可靠性。在云环境中,您可以考虑使用托管的数据库服务,如华为云RDS、 GaussDB 等。另外,还需要考虑如何处理跨多个微服务的数据事务和数据一致性问题。一种常见的方法是使用分布式事务管理器(如Saga模式),以保证微服务之间的数据操作具有一致性和原子性。 实施监控和日志记录: 对于微服务架构,实施全面的监控和日志记录是非常重要的。使用适当的监控工具和日志系统,收集和分析每个微服务的指标和日志,以及整体系统的性能和故障信息。这将帮助您快速发现和解决潜在的问题,并保证系统的可用性和稳定性。您可以利用云提供商所提供的监控和日志服务,如华为 云监控 、LTS等,来集中管理和分析监控数据和日志。同时,采用可视化和告警机制,使得团队可以实时监控系统的运行状态,并在出现异常情况时能够及时采取措施。 自动化部署和持续集成/持续交付: 微服务架构通常需要频繁地进行部署和更新。为了简化和加快部署过程,可以引入自动化部署和持续集成/持续交付(CI/CD)流程。使用适当的工具和技术,例如Jenkins、GitLab CI/CD等,来实现自动化的构建、测试和部署流程。在自动化部署和CI/CD流程中,可以包括编译代码、运行单元测试和集成测试、构建和推送容器镜像、部署到云环境等一系列步骤。这样可以加快交付速度,减少人为错误,并提供可靠的部署管道。 安全性和权限管理: 在微服务架构中,安全性是一个重要的考虑因素。确保每个微服务都有适当的访问控制和权限管理机制,以防止未授权的访问和数据泄露。可以使用身份验证和授权技术(如OAuth、JWT)来验证请求的合法性,并在微服务之间进行身份传递。同时,采用适当的网络安全措施,如防火墙、SSL/TLS加密等,保护微服务之间的通信。此外,定期进行安全审查和 漏洞扫描 ,确保系统的安全性和可靠性。 渐进式迁移: 将传统单体应用进行微服务改造并迁移到云上是一个复杂的过程,并且可能需要一定的时间和资源。为了降低风险和减少中断,您可以采用渐进式迁移的方法。 首先,选择一个较小且相对独立的模块来进行微服务改造和云迁移。通过这个实验项目,您可以验证架构设计、技术选型和流程的可行性,并获得宝贵的经验教训。在成功迁移第一个模块后,逐步将其他模块进行类似的改造和迁移。渐进式迁移还可以帮助您逐步培养团队的能力和熟悉新的架构和工具。同时,您可以在此过程中收集反馈并不断进行调整和优化,以确保整个改造过程的顺利进行。 总结起来,微服务改造和上云是一个复杂而关键的过程。它需要综合考虑架构设计、拆分、接口定义、服务治理、容器化、数据管理、监控日志、自动化部署、安全性等多个方面。通过详细评估现有应用和目标,拆分单体应用为独立的微服务,引入适当的技术和工具,并采取渐进式迁移的方法,您可以成功地将传统的单体应用改造成高度可伸缩、弹性和可靠的微服务架构,并将其迁移到云环境中。
  • 概述 基于云平台的新技术正驱动着产品和服务创新浪潮。 人工智能与大模型结合,赋予产品更智能的交互和更精准的个性化服务,例如AI客服、智能推荐系统等。 区块链技术则增强了产品和服务的安全性和可信度,可应用于供应链管理、数字身份认证等场景,构建透明可追溯的体系。 数字人技术打造虚拟形象,应用于虚拟主播、在线教育等领域,提供更具沉浸感的用户体验。 大数据分析则帮助企业深入了解用户需求,优化产品和服务,实现精准营销和精细化运营。 物联网技术将设备连接上云,实现数据实时采集和远程控制,催生了智能家居、智慧城市等创新应用。 华为云使得这些新技术唾手可得,企业随时随地都能利用这些新技术进行快速创新和快速试错,大幅加速了创新的步伐,通过这些创新可以帮助企业开发创新的产品和服务、改进业务流程、增强决策能力、提升用户体验,并开创新的商业模式和市场机会。 父主题: 云上创新
  • 人员安全管理 企业需要对IT部门内的员工以会接触到企业敏感数据的员工进行人员安全管理,主要包括安全意识教育、安全能力培训、重点岗位管理和安全违规问责等。 安全意识教育 为了提升全员的信息安全意识,规避信息安全违规风险,保证业务的正常运营,企业可以从意识教育普及、宣传活动开展、承诺书签署三个方面开展安全意识教育 意识教育普及:定期开展信息安全意识教育学习,要求员工持续学习信息安全知识,了解相关政策和制度,知道哪些行为是可以接受,哪些是不能接受的,意识到即使主观上没有恶意,也要对自己的行为负责,并承诺按要求执行。 宣传活动开展:面向全员开展形式多样的信息安全宣传活动,包括信息安全社区运营、信息安全典型案例宣传、信息安全活动周、信息安全动画宣传片等。 承诺书签署:将信息安全纳入《员工商业行为准则》,通过公司统一开展的年度例行学习、考试和签署活动来传递公司对全员在信息安全领域的要求,提高员工信息安全意识。签署信息安全承诺书,承诺遵守公司各项信息安全政策和制度要求。 安全能力培训 参考业界优秀实践,建立完备的信息安全培训体系。在员工入职、在岗、晋升等环节纳入多种形式的安全技能培训,提升员工安全技能。 信息安全基础培训:根据不同角色、岗位制定相应的安全基础能力培训计划。新员工转正前必须通过有关信息安全与隐私保护的上岗培训和考试;在岗员工需根据不同业务角色,选择相应课程进行学习与考试。管理者需参加信息安全必须的培训和研讨。 精准培训:通过大数据分析识别产品研发过程中的典型安全问题和问题关联责任人,并向其精准推送安全典型培训方案(包括案例、培训课程、练习题等),持续改进安全质量。 实战演练:引进业界优秀实践,开发信息安全实战演练平台,开展红蓝对抗,提供场景化的实战演练环境供员工练习和交流,提升员工的安全技能和安全响应能力。 安全能力任职牵引:为了让员工更加自觉、有效地进行信息安全学习,将信息安全要求融入到任职资格标准中。员工在任职晋升过程中需要学习相应的信息安全课程,通过相应的信息安全技能考试,提升自身信息安全能力。 重点岗位管理 为了内部有序管理,消减人员管理风险对业务连续性和安全性带来的潜在影响,建议您对运维工程师等重点岗位实施专项管理。具体如下: 上岗安全审查:针对新上岗人员,开展上岗人员安全审查,确保上岗人员背景和资历符合企业的信息安全要求。 在岗安全培训赋能:围绕信息安全意识、客户网络服务的业务规范、用户数据及隐私保护要求进行信息安全学习和考试,并根据业务变化定期刷新学习和考试大纲。 上岗资格管理:重点岗位员工必须通过信息安全上岗证的考试,并取得证书。通过证书管理平台对已通过安全上岗证考试的员工发放有效期不超过两年的电子证书,证书到期前提醒员工重新参加考试。 离岗安全审查:按照调动、离职安全审查清单,对内部调离、离职人员进行离岗安全审查,包括离岗权限账号的清理或修改等。 安全违规问责 企业需要建立严密的安全责任体系,贯彻违规问责机制。要求每个员工都对自己工作中的行为和结果负责,不仅要对技术和服务负责,也要承担法律的责任。安全问题一旦发生,可能会对企业带来极大影响。因此不管故意还是无意,要以行为和结果为主要依据对员工进行问责。根据安全违规的性质,以及造成的后果确定问责处理等级,分级处理。对触犯法律法规的,移送司法机关处理。直接管理者和间接管理者存在管理不力或知情不作为的,须承担管理责任。违规事件处理根据违规个人态度与调查配合情况予以加重或减轻处理。 父主题: 安全运营
  • 验证 数据校验 数据库的对比方法有数据库内容对比、对象对比、行数对比,文件的对比方法有文件数量对比,大小对比,内容对比。具体的数据对比的方法请参考章节数据验证的内容。 任务验证 大数据任务迁移后,要确保作业能够正常运行、产生准确的结果,并且满足性能要求。一般从如下三方面验证: 验证作业执行的成功率 在任务迁移完成后,对迁移后的大数据任务进行验证。这包括运行作业并检查作业的执行成功率。验证过程中,需要关注作业的状态、日志以及错误和异常情况。对于执行异常的任务,需要仔细检查和调试,找出问题并进行修复。 验证作业执行结果的一致性 验证大数据任务执行结果的一致性,对比新旧大数据平台的作业输出结果数据是否一致。可以使用对比工具、数据校验脚本或手动检查的方式进行验证。如果发现数据不一致的情况,可能需要考虑迁移过程中的数据转换、数据格式或数据处理逻辑的问题,并进行相应的修复和调整。 作业执行的性能验证 在迁移后,验证作业的执行性能,包括运行时间、资源利用率、并发性等。通过监测作业的执行指标和性能指标,可以评估迁移后的作业性能是否符合预期。如果作业的性能有问题,可能需要调整作业的配置参数、优化作业代码或考虑资源调配的问题。 在作业验证过程中,可以使用监控工具、 日志分析 和数据校验等手段,确保迁移后的大数据任务的可靠性和稳定性。 父主题: 大数据迁移
  • 微服务架构优化 我们经常看到一些互联网企业的业务发展非常快,不同业务单元的软件工程师不断增加新的微服务或重复开发实现同样业务功能的微服务,导致微服务架构非常混乱,像毛线团一样,严重影响了TTM,也导致问题定位非常耗时,面对混乱的微服务架构,可以采取以下一些优化策略来改善情况,加速TTM(Time to Market)并提高问题定位效率: 进行现有架构评估:首先,对当前的微服务架构进行全面评估。了解整体架构、服务之间的依赖关系、通信协议和数据流。这将帮助你理清架构的复杂性,并确定需要改进的关键领域。 进行重构和拆分:根据评估结果,考虑对现有的微服务进行重构和拆分。识别那些过于庞大、职责不清晰或高度耦合的服务,将它们拆分成更小、更专注的单元。这样做可以简化系统结构并提高可维护性。 引入服务治理:采用适当的服务治理机制来管理微服务架构。使用服务注册与发现、负载均衡、熔断器等技术来增强服务的可见性、弹性和稳定性。这有助于减少故障和延迟,并提高问题定位的效率。 实施自动化测试:建立全面的自动化测试策略和工具链。通过单元测试、集成测试和端到端测试等各个层面的自动化测试,可以快速捕捉和解决问题,确保修改一个服务不会对其他服务造成意外影响。 强调文档和标准:建立明确的文档和标准,包括架构设计规范、接口规范和开发规范等。这有助于团队成员理解整体架构,并在开发过程中遵循一致的实践。文档和标准也可以帮助新加入团队的成员更快地适应和贡献。 实时监控和日志记录:引入实时监控和日志记录系统,以收集和分析微服务的运行情况和性能指标。这样可以及时发现潜在的问题或异常,并迅速进行定位和解决。同时,合适的报警机制可以帮助你快速响应故障和异常情况。 采用持续交付和部署:使用持续集成/持续交付(CI/CD)工具和流程来自动化构建、测试和部署微服务。这将缩短发布周期,降低发布风险,并加快新功能和修复的上线速度,从而提高TTM。 建立跨团队协作:鼓励不同团队之间的合作和沟通,特别是在微服务架构中。促进知识共享、问题协作和经验交流,可以加速问题定位和解决,并避免重复工作。
  • 保障 在上云迁移的保障阶段,需要执行以下任务来确保顺利过渡到新的云环境: 云平台监控:确保建立有效的监控系统,跟踪云平台的性能、可用性和安全性。设置警报机制,及时发现并解决潜在的问题。 系统监控和运维:设置系统监控和告警,确保及时发现和解决潜在的问题。配置基础设施监控工具,监测服务器、存储、网络等关键指标,并确保日志记录和错误报警机制正常运行。 安全检查和漏洞修复:进行安全检查,查找可能存在的漏洞或弱点,并采取适当的补救措施来加强安全性。更新和修补系统和软件,确保使用的组件和版本都是最新的,并及时应用安全补丁。 备份和灾难恢复策略:评估和设置新的备份和灾难恢复策略,确保数据的安全性和可恢复性。执行定期备份,并进行灾难恢复演练来验证备份的可用性和恢复过程。 优化和调整:根据实际运行情况,进行系统和应用程序的优化和调整。监测性能指标,识别瓶颈和性能问题,并针对性地进行调整和优化,以提升系统的稳定性和响应能力。 培训和支持:提供必要的培训和支持给运维团队,确保熟悉新的云环境和工具。 文档输出:记录并维护文档,以供将来参考和备案。 父主题: 应用迁移上云
  • 大数据 大数据是指规模庞大且复杂的数据集合,对于企业来说,如何收集、存储和分析大数据具有重要意义。以下是大数据如何使能业务创新、与业务结合并推动业务现代化的几个方面: 数据驱动决策:大数据分析可以帮助企业从海量数据中提取有价值的信息和洞察力,为决策提供支持。通过对历史数据和实时数据的分析,企业可以发现市场趋势、需求变化以及潜在风险。这有助于做出准确的决策,提高业务的竞争力。 个性化营销和客户关系管理:大数据技术可以帮助企业更好地了解客户,实现个性化的营销和客户关系管理。通过对客户行为、兴趣和偏好的分析,企业可以精确地进行定制化的产品推荐和营销活动,提高销售转化率和客户满意度。 预测分析和供应链优化:大数据分析可以帮助企业进行预测分析,以便更好地规划生产和供应链。通过对历史销售数据、市场趋势和供应链数据的分析,企业可以进行需求预测、库存优化和交付计划,减少库存成本、提高运营效率并提升供应链的响应能力。 创新产品与服务:大数据可以为企业的产品和服务创新提供有力支持。通过分析大数据,企业可以发现市场上的空白点和机会,掌握用户需求,并基于这些洞察力开发出更具竞争力和创新性的产品和服务。例如,一些公司利用大数据分析医疗记录和基因组数据,提供个性化的医疗解决方案。 父主题: 云上创新
  • 基础设施现代化 容器化改造是将传统应用程序或服务迁移至容器化环境的过程,以下是进行容器化改造的一般步骤: 评估和规划:首先,评估应用程序或服务的特性、依赖关系和架构。确定哪些部分适合容器化,并制定一个改造计划。 容器化平台选择:选择一个适合你的需求的容器化平台。最常见的容器化平台是Docker,但也有其他选择,如Kubernetes等。 容器化应用程序:将应用程序拆分为较小的模块或微服务,并将每个模块打包为独立的容器镜像。使用Dockerfile定义容器镜像的构建过程,包括依赖安装、配置和启动命令。 容器编排与管理:如果需要管理多个容器实例、自动扩展和负载均衡等功能,可以使用容器编排工具,如Kubernetes。通过编写配置文件或使用命令行工具,定义容器的部署和运行方式。 网络和存储配置:配置容器之间的网络通信和访问外部资源的方式。确保容器可以与其他容器、数据库、消息队列等进行交互,并确保数据持久性和可靠性。 安全性和监控:确保容器化环境的安全性,例如限制容器的权限、使用安全的镜像源、进行漏洞扫描等。同时设置监控系统,以便实时监测容器的性能和运行状态。 测试和部署:在容器化改造完成后,进行全面的测试,包括单元测试、集成测试和性能测试。确保应用程序在容器环境中正常运行。然后,使用自动化工具或脚本将容器部署到生产环境中。 持续集成与交付:建立持续集成与交付(CI/CD)流程,以便能够快速、可靠地构建、测试和部署新版本的容器化应用程序。 容器化改造是一个复杂的过程,需要仔细规划和评估。在开始之前,建议深入了解容器化技术和所选平台,并根据具体情况选择合适的工具和方法。 父主题: 应用现代化
  • 概述 根据Flexera在2024年发布的《State of the Cloud Report》报告显示,管理云成本成为企业用云的头号挑战,企业的的云成本平均超过预算15%,平均有27%的公有云成本是浪费的,51%的企业已经成立了专门的FinOps团队,另外有20%的企业计划在未来一年成立FinOps团队。 越来越多的企业在利用云的敏捷高效、创新、弹性扩展优势时,遇到云成本管理方面的一系列难题,主要有如下四个难点: 成本可变导致成本规划困难:传统IT采购后成本固定,上云后这一规则被打破。云资源 按需弹性使用,云成本随着业务动态变化,如高峰流量时云资源占用多、升级 扩容时动态开通新资源等。云成本可变导致静态规划的预算和业务实际产生的 成本偏差大。 去中心化采购导致成本控制难:传统IT采购由采购部门集中采购,可管可控。而上云 后云资源消费贯穿用云整个过程,采购责任也从集中采购变为去中心化采购, 即工程师直接购买资源而非传统的采购人员购买。工程师在消费云资源时成本 意识薄弱,且消费云资源的工程师部门多人数多,使得云成本控制困难。 云服务丰富导致成本优化难:云服务商通常都提供数百个云服务和多样化的计费量纲,各服务也没有统一的调优方案。而且云厂商持续发布新服务、新实例类型和新的优惠。面对云上如此丰富的供应和选择,企业难以开展成本优化工作。 灵活开通导致精细化管控难:云的灵活扩展和支出限制少,有利于业务发展和创 新,但也容易产生资源浪费。如为了追求性能和质量,业务团队配置的资源大 于运行工作负载实际需要,产生过度配置;部分项目新建环境或者扩容实例 后,最后忘记关闭形成闲置等; 企业面对这些问题时,发现难以精细化管理云成本,也难以选择最优的成本优化路径,且优化后的效果难以持续,因此FinOps必须被提上日程。 FinOps是“Finance”和 “DevOps”的结合,推崇业务团队和工程团队(IT团队)之间的沟通和协作,目的是解决企业管理云成本难题。按照FinOps基金会的定义,FinOps是一个运营框架和文化实践,它最大限度地发挥云的业务价值,支持及时的数据驱动决策,并通过工程(IT)、财务和业务团队之间的协作来建立财务问责制。 企业云资源消费贯穿云化转型的整个过程,管理云成本也需要持续迭代优化。FinOps基金会梳理的FinOps框架包含三阶段:成本可视、成本优化和持续成本运营,指导企业对成本进行持续优化,如下图所示。需要注意的是,在成本优化时要做好成本、质量与效率的平衡,避免企业为了极低成本导致业务效率和稳定性受到影响。 图1 FinOps的三个阶段 FinOps框架指导企业从组织、文化、流程等多方面建设成本运营体系,通过多团队协作和基于数据决策,精细化管理云成本:各业务团队成本可视,主动控制不超支不浪费;企业基于数据决策云投资,保障企业核心业务和战略业务方向的支出。企业应用FinOps后,可以持续降低单位业务成本。 需要了解更多关于FinOps的信息等,请直接参考FinOps基金会的网站。 图2 单位业务成本逐步下降 父主题: FinOps
  • 概述 当企业上云规模逐渐变大,在云上有数十上百个应用系统和海量云资源,包括企业自有员工、外包员工及合作伙伴的员工在内的大量用户需要访问和操作这些云资源,量变导致质变,资源闲置、误操作、恶意操作、数据泄露和权限错配等风险将随着用云规模呈现指数级增长。 您需要开始着手构建精益化、集中化和结构化的IT治理体系才能有效控制这些风险,最大化业务收益,保障业务的持续增长。 华为云基于自身的IT治理实践经验和帮助大量客户实施IT治理的经验,总结了如下图所示的云上精益治理体系,对企业在云上的“人才物权法”等要素进行集中化和精益化治理。下图中的组织分级分域管理、集中化IT管理、全方位数据边界、精细化权限控制是华为云Landing Zone解决方案的组成部分,精细化成本运营则属于华为云FinOps解决方案。 图1 云上精益治理体系 父主题: 精益化治理
  • 元宇宙 元宇宙是一个虚拟的数字世界,通过增强现实(AR)、虚拟现实(VR)等技术与现实世界互动。以下是元宇宙如何使能业务创新、与业务结合并推动业务现代化的几个方面: 交互与协作:元宇宙技术可以提供更加沉浸式和互动性的体验,使得用户能够在虚拟环境中进行交互和协作。企业可以利用元宇宙创建虚拟会议、培训和团队合作等场景,实现远程工作和远程协作的效果。这将带来更高效的工作流程和全球范围内的合作机会。 虚拟商店和数字资产:元宇宙为企业提供了创造虚拟商店和销售数字资产的机会。通过元宇宙平台,企业可以展示和销售虚拟产品、数字艺术品和虚拟房地产等。这种数字化的商业模式可以创造新的收入来源,并且具有全球触达的潜力。 虚拟旅游和娱乐:元宇宙可以为旅游和娱乐产业带来革命性的改变。通过虚拟现实技术,用户可以身临其境地参观名胜古迹、参加虚拟音乐会或观看虚拟体育赛事。这将为旅游业和娱乐业带来更广阔的市场和创新的商业模式。 数据收集和个性化体验:元宇宙技术可以收集用户在虚拟环境中的行为数据,从而为企业提供更深入的用户洞察和个性化体验。通过分析用户在虚拟空间中的行为、兴趣和偏好,企业可以更好地定制产品和服务,提高用户满意度和忠诚度。 父主题: 云上创新
  • 可扩展设计 可扩展能力可分层来设计,下图展示了华为云各层级的产品扩展能力全貌。 图1 可扩展性设计示例 应用上云目标架构的各层可扩展方案设计要点如下: 应用层可扩展设计要点 若应用层实现了微服务架构,通过华为云CCE云容器引擎服务实现业务容器化部署,可通过CCE工作负载弹性伸缩能力实现APP业务的水平扩展,随着负载增加,APP业务POD能自动扩展,随着负载的降低,APP业务POD自动减容,支持配套应用性能监控(AOM)实现告警策略自动触发扩容或减容; 若应用层使用ECS进行部署,则可通过华为云弹性伸缩服务AS,设置对应的伸缩策略,随业务实现水平扩缩容。 中间件层可扩展设计要点 消息中间件层:华为云DMS RabbitMQ专享版底层是集群环境,随着消息处理量和负载的增加,可以平滑的扩大规格。 缓存中间件层:华为云DCS Redis主备版随着热数据容量增加可无缝支撑缓存的平滑扩容节点规格。 数据层可扩展设计要点 数据库中间件层: 分布式数据库 中间件采用华为云DDM,DDM本身集群部署,随着数据库业务增加,可平滑扩容DDM集群的规格,应对更大量的数据库处理。 数据库层:华为云RDS数据库可平滑扩展只读数据库的实例,应对大量数据读的场景;配套DDM实现多套实例水平扩容,将大表的数据做水平拆分,均匀拆分到多个数据库实例中,从而提升数据库的容量和性能。此外华为云自研 GaussDB数据库 采用存算分离架构,支持分钟级的横向扩展能力,减少业务中断时间。 父主题: 可扩展性设计
  • 云上可扩展性 云相较于传统IDC非常大的一个优势具备丰富的资源和强大的扩展能力;根据业务场景的不同需求,可以将扩展能力分成如下3类: 纵向(垂直)扩展:适用于单体应用、独立应用、有状态应用等场景下,随着业务不断发展和变化,需要快速升级硬件以应对业务变化。如在进行一些促销活动时,对资源的需求往往比正常要高出多倍,这时企业在云上就可以通过可视化界面或者 OpenAPI 快速升级资源的配置,将资源调整到更高规格的实例上(如更多的 CPU、内存、带宽、磁盘空间等),以应对活动的流量冲击;而在活动过后,又可以将规格收缩回原来的规格,达到降低成本的目的。 横向(水平)扩展:适用于分布式应用、无状态应用、快速变化的应用等场景下,固定数据的资源配比显然已经无法应对业务的快速变化,此时就可以依托于云上丰富的资源和快速的水平伸缩能力来应对。对于企业业务突增、活动促销的场景,用户可以快速通过伸缩策略来扩容和释放资源,同时在业务稳步增长的情形下,也可弹性调整以适配资源与业务。 云上扩缩容可支持如下策略: 定时模式:创建定时任务,在指定时间执行资源扩缩容。 指标模式:基于资源的性能指标(如 CPU 利用率、网络流量均值)创建报警任务,当指标数据满足指定的报警条件时,触发报警并执行资源扩缩容。 固定数量模式:设置最小/最大期望资源数量,当实例数量低于下限/超过上限时,系统会自动添加/移出资源,使得资源数量等于下限/上限。 手动模式:手动进行弹性伸缩,包括手动添加、移出或者删除已有的资源。 父主题: 可扩展性设计
  • 不停服切换方案 应用层切换不停服方案 若只涉及到应用层的切换,可参考章节 停服切换方案 中提到的应用灰度切流方案,切换期间不停服。 数据层或应用整体切换不停服方案 准备工作: 华为云应用层和数据层已完成迁移; 华为云应用层和数据层已完成业务验证,可正常使用。 业务切换: 修改两边的配置,使源端应用层指向源端和目标端的中间件层/数据层,目标端的应用层指向源端和目标端的中间件层/数据层,实现双写。注意:双写的数据一致性由应用逻辑保障; 实时对比源端和目标端数据一致性; 历史数据迁移至华为云数据层; 修改外部DNS 域名 解析地址,将外部流量从源端切换到华为云。 图1 不停服切换方案 父主题: 设计切换方案
  • 安全架构设计简介 云安全和传统IT安全虽然目标都是保护数据和系统安全,但在基础架构、安全责任、安全管理、合规与审计等方面存在显著差异。 在基础架构方面,传统IT安全主要针对企业自建的物理硬件和网络设施,安全措施集中于物理环境和内部网络的防护,包括部署防火墙、入侵检测系统和防病毒软件等。云安全则基于虚拟化技术和云服务商的基础设施,安全防护需要考虑虚拟化层、多租户环境下的数据隔离、API接口安全等新挑战。 在安全责任方面,传统IT环境中,企业对所有的安全层面负全责,涵盖物理硬件、网络、操作系统、应用程序和数据等。而在云环境下,采用的是安全责任共担模型。云服务商负责基础设施层面的安全,包括数据中心的物理安全、网络和虚拟化平台的安全;企业作为云服务的租户,则需要负责其在云上部署的操作系统、应用程序和数据的安全配置和管理。 在安全管理与技术实现方面,传统IT安全更多地依赖于硬件设备,安全策略的实施和更新通常需要手动完成,周期较长。云安全则借助于云服务商提供的丰富安全工具和服务,如身份与访问管理(IAM)、虚拟防火墙、安全组、加密服务等,支持自动化和可编程的安全管理,能够快速响应和调整安全策略,提高了安全管理的效率。 在合规与审计方面,传统IT需要企业自行确保满足相关的安全合规性,需投入大量资源进行审计和认证。云服务商通常已经通过了多项国际安全认证,企业可以借助云服务商的合规基础,但仍需对自身的应用和数据进行合规管理。 华为云对云安全整体设计和实践更侧重于为您提供完善的、多维度的、按需定制和组合的各种安全和隐私保护功能和配置,涵盖基础设施、平台、应用及数据安全等各个层面。同时,不同的云安全服务又进一步为您提供了各类可自主配置的高级安全选项。这些云安全服务需要通过深度嵌入各层云服务的安全特性、安全配置和安全管控来实现,并通过可整合多点汇总分析的、日趋自动化的云安全运营能力来支撑。 综上所述,云安全与传统IT安全的关注点和实现方式存在显著的区别。企业在云化转型的过程中,需要重新审视和调整原有的安全策略和安全架构,充分利用云服务商提供的云原生安全能力,适应云环境下的安全管理模式,保障业务和数据的安全。 父主题: 安全架构设计
  • 整体架构设计 华为云基于自身实践和大量Landing Zone项目的成功交付经验总结了如下图所示的Landing Zone解决方案整体参考架构,涵盖组织与账号管理、身份权限管理、集中网络管理、共享服务管理、统一安全管理、统一合规审计、统一运维管理、统一财务管理和数据边界总共9个领域。 图1 Landing Zone解决方案参考架构 这九大领域的实施需要在特定的账号内完成,比如组织与账号管理是在主账号(管理账号)中完成,而集中网络管理主要是在网络运营账号中完成。下表是九大领域对应的主要账号。 表1 九大领域对应的主要账号 九大领域 对应的主要账号 组织与账号管理 主账号(管理账号) 身份与权限管理 主账号(管理账号) 集中网络管理 网络运营账号 共享服务管理 公共服务账号 统一安全管理 安全运营账号 统一合规审计 安全运营账号、日志账号 统一运维管理 运维监控账号 统一财务管理 主账号(管理账号) 数据边界 主账号(管理账号)、沙箱账号(用于测试各种控制策略) 组织与账号的设计方案在前面已经详细阐述了,后面将分别展开介绍其他8个领域的设计方案。 父主题: Landing Zone参考架构
  • 什么是平台工程 平台工程(Platform Engineering)是一种通过构建和运营自助式内部开发平台(IDP,Internal Developer Platform)来优化软件交付和生命周期管理的工程学科。其目标是通过标准化和自动化的方式,减少开发人员与底层基础设施之间的复杂交互,从而提高开发效率和交付速度。Gartner在2023年和2024年连续将其列为十大重要战略技术趋势,并预测到2026年将有80%的大型软件工程组织将建立平台团队为开发者提供可重用的服务、组件和工具。平台工程对企业带来的价值如下: 提升开发者体验: 平台工程提供自助服务功能,简化了基础设施配置、应用部署和管理等流程,让开发者更专注于业务逻辑的开发,而不是底层基础设施的管理。 加速软件交付: 通过提供预先配置好的环境、自动化流程和可重用的组件,平台工程可以显著缩短软件交付周期,更快地将产品推向市场。 提高运营效率: 平台工程通过自动化和标准化,减少了手动操作和人为错误,提高了运营效率,并降低了运营成本。 增强安全性合规性: 平台工程可以内置安全策略和合规性检查,确保应用和基础设施符合安全标准和法规要求。 促进创新: 平台工程为开发者提供了更灵活、更便捷的开发环境,鼓励他们尝试新技术和新方法,从而促进创新。 父主题: 平台工程
  • 去中心化运营模式 去中心化运营模式是常见运营模式中最简单的一种,如下图所示。在这种运营模式中,所有业务系统都由专门的应用团队独立运营,应用团队不仅负责应用的设计、开发、测试、部署和运维工作,还需要负责业务系统所需IaaS和PaaS资源的部署和运维,同时要确保业务系统的安全性和云资源的成本管理。中心IT团队仅负责制定统一IT标准和IT流程,通过发文的方式让各个业务系统采纳,并监管业务系统的执行情况,但没有办法强制业务系统执行这些标准和流程。在这个运营模式下,基本上不需要专门成立CCoE团队。 图1 去中心化运营模式 去中心化运营模式的优点如下: 敏捷性高:各业务单元根据自身需求快速部署和扩展资源,加快创新速度。 贴近业务:应用团队更了解业务需求,可以更好地定制云解决方案。 责任明确:各业务单元对自己的云环境负责,更容易追溯问题和优化性能。 去中心化运营模式的缺点如下: 缺乏一致性:各业务单元独立部署和运维所需的云环境,缺乏统一的IT标准和安全策略,可能导致标准不统一,安全策略不一致,增加管理难度。 成本增加:缺乏中央协调,容易导致重复建设和资源浪费,进而增加云成本。 缺乏整体视图:难以获得企业整体的云资源使用情况,阻碍战略决策和优化。 基于上述优缺点分析,去中心化运营模式适合那些需要完全控制云资源创建和运维的创新业务系统,这些创新业务系统需要紧贴业务需求进行快速创新和迭代。 父主题: 云运营模式
  • 概述 上云调研不是一次完成的,而是持续整个上云过程,需要进行多次调研,持续迭代,每个阶段调研的信息都不同。本章主要介绍调研分析的思路和方法,在上云的每个阶段都可以参考此方法进行调研。如果上云工作不是企业自己主导,企业也可以基于此调研思路更好地配合第三方进行高效调研。但注意,同一阶段,能合并调研的要尽量合并调研,减少调研次数,尤其是访谈次数。 基础环境的调研:是在云上架构设计之前进行的,包括整体IT技术架构以及IT治理现状和需求。 应用的调研:持续整个上云过程,在评估规划阶段只需要调研业务全景图,而在迁移试点和大规模上云阶段,则需要打开到每个应用系统的详细技术架构,收集每个应用系统的技术组件的详细信息,如组件版本信息,组件相关配置参数等。 大数据调研:先调研大数据的整体技术架构,然后逐步打开调研详细的信息。 每次的调研工作按照以下6步执行: 根据上云阶段,确定调研目的,梳理需要调研的信息。 对齐已有信息,避免重复调研。 对准调研目标,识别还缺哪些信息,为什么要调研这些信息,以及这些信息的获取方式。 基于企业组织架构和分工,判断能提供这些信息的干系人。 制定调研访谈提纲和调研模板,制定沟通策略和计划。 依照干系人认可的授权方式获得需要的信息,并进行信息的整理,完成调研。 图1 调研方法 调研的总体思路是先易后难,先粗后细,持续迭代,具体含义如下: 先易后难(调研的方式):是指调研方法的难易,调研有多种方法,我们要优先选择简单快速的调研方式。 先粗后细(调研的内容):是指调研到的信息详细程度,评估规划阶段获取的信息比较粗,实施阶段获取的信息最为详细。 持续迭代(调研的过程):是指调研不是一次完成的,需要持续迭代,尤其在大规模迁移阶段,详细信息的调研可按迁移批次有序执行。 父主题: 调研评估
  • 两地三中心高可用设计 对于业务连续性要求较高的业务,可以考虑两地三中心的高可用性方案,如下图所示。 提供最高程度的业务连续性和数据可用性,在超大规模地域级自然灾害的时候都能保护数据和业务。 RPO 时间取决于数据库复制间隔; 由于容灾站点一直运行,RTO 依赖容灾切换时间,通常取决于 DNS 缓存刷新时间,一般为分钟级,如果采用 GSLB 自动探测切换可进一步降低故障恢复时间。 图1 三AZ高可用设计 设计要点: 生产数据中心和容灾中心分别部署在华为云 2 个不同 Region。 生产中心采用双AZ部署(双活、热备),容灾中心单AZ。 在生产和容灾中心分别部署RDS数据库实例,数据库 1:1:1 主备复制。 生产和容灾中心产生的配置、日志、快照和备份等,通过 OBS 实现跨区复制。 生产站点某个AZ故障时,切换到另一个AZ,数据库主备切换。 生产站点全体故障时,切换数据库的主备状态,然后将 DNS 授权修改为容灾站点(生产站点 0%,容灾站点为 100%)。 生产站点修复后,数据库切换回主库,DNS 切换回主站点(生产站点 100%,容灾站点为 0%)。 为提高容灾中心利用率,可将只读和数据分析业务放到容灾站点。 高可用容灾能力构建是一个复杂的系统工程,涉及入口流量控制、业务层改造、中间件和数据库的控制,以及整体机制的协同,所以整个体系打造是存在一定门槛的;如果客户缺乏相关的经验,又期望快速构建高可用的容灾体系,可以考虑使用华为云提供的多云高可用服务(Multi-cloud high Availability Service 简称 MAS),它源自华为消费者业务多云应用高可用方案,提供从流量入口、应用层到数据层的端到端的业务故障切换及容灾演练能力,保障故障场景下的业务快速恢复,提升业务连续性。详见华为云MAS高可用服务。 父主题: 可用性设计
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全