了解华为云SRE

华为云SRE(Site Reliability Engineer,站点可用性工程师)是华为云的质量守护者,让华为云稳定可靠是SRE团队的使命,使客户信赖华为云是SRE的目标。

“一切皆服务”之“根”,是质量和稳定性

华为云SRE通过面向云服务全生命周期的质量看护,实现现网可预期的高可用质量结果,这种运维理念以及质量管理体系称之为确定性运维。确定性运维作为华为云运维质量的指导思想,通过全面的质量管理,在现网实现确定性故障率、确定性恢复时长和确定性影响范围。

华为云SRE助力客户提升应用稳定性

华为云SRE积累了大量的软件高可用设计和实践经验,构建出一套适配数字化转型、业务上云的质量管理机制,和客户一起开展面向应用视角的稳定性提升工作,帮助客户在质量、成本、效率中寻找最优方案。

最新资讯

让确定性运维,成为城市安全的底线和高线

华为云政务云运维团队通过一套全面、可靠的政务云运维体系,涵盖了平台架构设计、组织流程、能力构建等多个环节,最大程度上化解城市安全的不确定性,守护云上城市的每一个角落。

跃迁云上管理之道 维享会2023年度会议在云南丽江成功举办

12月22日,维享会·2023年度会议在云南丽江举办 ,本次大会云集专家学者、行业技术先锋和创新企业会员,就维享会2023年度工作总结和2024年度工作计划展开交流。

这场确定性运维公开课,在西安交通大学开讲!

12月11日,华为云确定性运维校园公开课走进西安交通大学,与现场师生一起交流SRE职业发展路径及规划思路,帮助在校学生加深对SRE岗位理解,提前洞察行业发展趋势。

荣誉与认证

在GOITI2023-GOPS全球运维大会·上海站,《华为云确定性运维解决方案》获得2023IT运维领域极具影响力解决方案。

2023IT运维领域极具影响力解决方案

2023IT运维领域极具影响力解决方案

在新华社2022年中国云计算创新活力报告中:华为云品牌力、安全可靠能力排名第一梯队

中国云计算品牌力 安全可靠排名第一梯队

中国云计算品牌力 安全可靠排名第一梯队

在信通院2022年度“云服务稳定安全运行应急演练专项活动”荣获“十佳优秀报告”

首届云服务稳定安全应急演练十佳优秀报告

首届云服务稳定安全应急演练十佳优秀报告

《华为云SRE确定性运维能力体系》荣获2022年信通院云系统稳定性保障体系建设优秀实践案例

云系统稳定性保障体系建设优秀实践案例

云系统稳定性保障体系建设优秀实践案例

《华为云多活高可用MAS解决方案》荣获信通院云系统安全运行案例评选容灾优秀实践案例

云系统容灾优秀实践案例

云系统容灾优秀实践案例

《华为云混沌工程提升服务韧性实践》荣获混沌工程优秀实践案例

混沌工程优秀实践案例

混沌工程优秀实践案例

华为云首批通过信通院云服务安全生产-应急管理平台检验证书

云服务安全生产-应急管理平台检验证书

云服务安全生产-应急管理平台检验证书

华为云首批通过信通院云服务安全生产-应急响应规范检验证书

云服务安全生产-应急响应规范检验证书

云服务安全生产-应急响应规范检验证书

华为云首批通过信通院云服务安全生产-分类分级要求检验证书

云服务安全生产-分类分级要求检验证书

云服务安全生产-分类分级要求检验证书

SRE确定性运维赋能

经验即服务,华为云多年内外部业务运维/运营的经验,外溢成解决方案,支撑客户数字化转型,让运维成为智能世界变革的加速器。

活动规则

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

活动时间: 2020年8月12日-2020年9月11日

活动期间,华为云用户通过活动页面购买云服务,或使用上云礼包优惠券在华为云官网新购云服务,累计新购实付付费金额达到一定额度,可兑换相应的实物礼品。活动优惠券可在本活动页面中“上云礼包”等方式获取,在华为云官网直接购买(未使用年中云钜惠活动优惠券)或参与其他活动的订单付费金额不计入统计范围内;

  • 深耕数字化,一切皆服务

  • 确定性运维规划与设计服务

    基于华为云上SRE运维最佳实践提供确定性运维评估规划和设计服务,实现整体运维能力的提升,端到端运维流程规划提升,帮助企业构建确定性运维体系 ,实现运维组织变革,提升整体运维能力和运维转型。

    了解详情
  • SRE确定性运维专家培训服务

    基于华为云SRE多年的技术沉淀和实践经验总结,培训课程采用理论+案例实战的方式,掌握确定性运维流程体系的构建和优化、软件工程能力提升方法以及系统高可用性设计方案等知识,以赋能企业云上运维。

    了解详情
  • SRE确定性运维高研班培训服务

    通过高可用架构、动态风控管理体系、高度智能运维框架等方法,结合华为云实践,帮助企业构建确定性运维体系及运维规划与设计方案,迈向“高度确定性运维”能力,实现云上业务的安全、稳定、高质量。

    了解详情
  • 确定性运维容器专家培训服务

    了解云原生容器运维的核心理论,从故障的预防、发现、快速恢复等维度阐述容器运维的相关流程及方法论,并结合案例实践以及工具实操内容,快速掌握容器知识,以应对云原生业务快速增长。

    了解详情
  • 确定性运维高可用架构培训服务

    了解系统高可用关键指标,分享华为云高可用设计的方法,探讨业务云上系统的优化方案,并结合企业实践案例,设计适合企业自身的高可用架构,助力企业云上部署。

    了解详情
  • 确定性运维混沌工程培训服务

    了解华为云确定性运维混沌工程核心方法论和工具实操培训,包括:混沌工程的核心理论讲解和华为云混沌工程实践体系(组织、流程、工具),结合华为云混沌工程实践案例,掌握如何提高系统可靠性和稳定性。

    了解详情

维享会,确定性运维经验交流分享会

华为云维享会(简称“维享会”)是华为云联合专家学者、行业技术先锋和业界IT精英们,构建的确定性运维经验交流分享会,链接CTO、CIO和运维总监,探索确定性运维与业务的创新融合,推动行业实践经验和价值分享。


核心目标

① 共识达成:高频次会员交流活动,分享实践经验和技术能力;

② 技术推进:探索运维前沿技术趋势,推进关键技术问题得到解决和升级;

③ 实践产出:面向产业贡献,联合会员共创,编写专刊、白皮书和案例集内容。

精选视频

《云中突击》丨看华为城市云守护者如何练就“真功夫”

作为数字城市安全稳定运行的守护者和美好生活的陪伴者,华为政务云SRE,依托确定性运维体系,用一次次的突击演练,淬炼华为政务云运维坚实守护力,守护数字城市运行每时每刻,共筑数字中国美好未来!

《云上建筑师——致全球运维人》

正如建筑师在立体空间,与繁杂结构中找寻确定性之美,运维工程师也正在智能世界中,为业务创造确定性的价值。运维的边界在扩展,基于确定性运维体系,这群云上建筑师正在破解企业质量、成本、效能的管理难题,让企业上云更加安全可信、稳定可靠、资源高效、业务敏捷!

《突袭》丨一次云上生产环境的大考

华为终端云联合华为云开展了“突袭”演练,对生产环境近5000台云服务器进行软下线。此次演练,充分验证了华为终端云业务在站点级异常情况下的高度稳定可靠。每年,华为云在内部开展超过2000次混沌工程演练,并联合外部客户完成超过20次支付类、证券类、财经类等应用高可用演练。

《在线》——华为云春节保障纪实

2022年春节期间,华为云SRE团队数百人坚守岗位,实时保障全网200+站点。

《华为云SRE确定性运维》英文版

华为云SRE确定性运维面向海内外服务千行百业,用创新技术释放动能,携手业界同仁共同构建“确定性”的运维世界。

《红蓝军演练》——华为云全年上演2000多场“剧本杀”

一年以来,华为云进行了2000多次实战演练 ,涉及2000多名技术工程师220多个云服务,覆盖容灾、冗余、过载、数据备份、误操作等多种演练场景,全面提升了华为云的应急能力。


资料下载

确定性运维实践探索,集产业、技术、实战于一体的技术书籍

专刊

文章推荐:

● 华为云的硬核力量-确定性运维的前世、今生和未来;

● AIOps智能运维经验分享;

● “确定性运维”能力助力云上业务运维体系升级;

● 基于云架构的业务稳定性建设思路;

● 助力客户数字化转型,构建全新的运维体系;

● 美图稳定性和运维保障方案。

文章推荐:

● 关于智能运维中算法落地的一些思考;

● 运维价值度量体系建设方法与实践;

● 终端云智能化运维思考与探索;

● 在组织变革中重塑运维生产力;

● 亿级用户药店平台稳定性保障实践;

● 对系统稳定性的几点思考。

文章推荐:

● 智能运维+可视化:解决运维大数据分析的新思路;

● 通过SLO塑造可靠性;

● 移动云故障快速恢复能力的建设经验分享;

● “TT语音年度盛典”背后的技术保障;

● 浅谈云原生AIOps实践;

● 终端云服务亿级用户业务稳定性保障体系。

文章推荐:

● 精准故障注入方法探索;

● 华为云高可用架构设计 提升云上业务稳定性;

● 数智融合:让运维开发者从“消防员”向“建筑师”转型;

● UGC沙盒创意平台的基建建设之旅。

文章推荐:

● 华为云的硬核力量-确定性运维的前世、今生和未来;

● AIOps智能运维经验分享;

● “确定性运维”能力助力云上业务运维体系升级;

● 基于云架构的业务稳定性建设思路;

● 助力客户数字化转型,构建全新的运维体系;

● 美图稳定性和运维保障方案。

文章推荐:

● 关于智能运维中算法落地的一些思考;

● 运维价值度量体系建设方法与实践;

● 终端云智能化运维思考与探索;

● 在组织变革中重塑运维生产力;

● 亿级用户药店平台稳定性保障实践;

● 对系统稳定性的几点思考。

文章推荐:

● 智能运维+可视化:解决运维大数据分析的新思路;

● 通过SLO塑造可靠性;

● 移动云故障快速恢复能力的建设经验分享;

● “TT语音年度盛典”背后的技术保障;

● 浅谈云原生AIOps实践;

● 终端云服务亿级用户业务稳定性保障体系。

文章推荐:

● 精准故障注入方法探索;

● 华为云高可用架构设计 提升云上业务稳定性;

● 数智融合:让运维开发者从“消防员”向“建筑师”转型;

● UGC沙盒创意平台的基建建设之旅。