了解华为云SRE

华为云SRE(Site Reliability Engineer,站点可用性工程师)是华为云的质量守护者,让华为云稳定可靠是SRE团队的使命,使客户信赖华为云是SRE的目标。

“一切皆服务”之“根”,是质量和稳定性

华为云SRE通过面向云服务全生命周期的质量看护,实现现网可预期的高可用质量结果,这种运维理念以及质量管理体系称之为确定性运维。确定性运维作为华为云运维质量的指导思想,通过全面的质量管理,在现网实现确定性故障率、确定性恢复时长和确定性影响范围。

华为云SRE助力客户提升应用稳定性

华为云SRE积累了大量的软件高可用设计和实践经验,构建出一套适配数字化转型、业务上云的质量管理机制,和客户一起开展面向应用视角的稳定性提升工作,帮助客户在质量、成本、效率中寻找最优方案。

最新资讯

确定性运维公开课走进南开大学 助力IT运维人才发展

2024年4月15日,确定性运维公开课走进天津南开大学活动圆满结束,华为云SRE智能运维架构师李开广现场分享确性运维体系与能力构建、SRE能力培养实践等话题,与学生一起交流探讨。

华为云确定性运维亮相QCon2024,共享AIOps运维创新实践

2024年4月13日,QCon全球软件开发大会2024北京站开启,华为云SRE AI使能专家张曦博士受邀出席分享确定性运维在LLM和Multi-agent在运维领域的探索实践经验。

车联网平台的确定性运维实践 助力业务稳定增效

2024年3月29日,华为云联合重庆汽车行业企业共同举行“数智升级 以变万变——重庆汽车行业技术沙龙”,围绕智能网联的技术趋势和最佳实践进行探讨,华为云SRE专家谢文敏受邀分享。

荣誉与认证

在新华社2022年中国云计算创新活力报告中:华为云品牌力、安全可靠能力排名第一梯队

中国云计算品牌力 安全可靠排名第一梯队

中国云计算品牌力 安全可靠排名第一梯队

在信通院2022年度“云服务稳定安全运行应急演练专项活动”荣获“十佳优秀报告”

首届云服务稳定安全应急演练十佳优秀报告

首届云服务稳定安全应急演练十佳优秀报告

在GOITI2023-GOPS全球运维大会·上海站,《华为云确定性运维解决方案》获得2023IT运维领域极具影响力解决方案。

2023IT运维领域极具影响力解决方案

2023IT运维领域极具影响力解决方案

《华为云SRE确定性运维能力体系》荣获2022年信通院云系统稳定性保障体系建设优秀实践案例

云系统稳定性保障体系建设优秀实践案例

云系统稳定性保障体系建设优秀实践案例

《华为云多活高可用MAS解决方案》荣获信通院云系统安全运行案例评选容灾优秀实践案例

云系统容灾优秀实践案例

云系统容灾优秀实践案例

《华为云混沌工程提升服务韧性实践》荣获混沌工程优秀实践案例

混沌工程优秀实践案例

混沌工程优秀实践案例

华为云首批通过信通院云服务安全生产-应急管理平台检验证书

云服务安全生产-应急管理平台检验证书

云服务安全生产-应急管理平台检验证书

华为云首批通过信通院云服务安全生产-应急响应规范检验证书

云服务安全生产-应急响应规范检验证书

云服务安全生产-应急响应规范检验证书

华为云首批通过信通院云服务安全生产-分类分级要求检验证书

云服务安全生产-分类分级要求检验证书

云服务安全生产-分类分级要求检验证书

SRE确定性运维赋能

经验即服务,华为云多年内外部业务运维/运营的经验,外溢成解决方案,支撑客户数字化转型,让运维成为智能世界变革的加速器。

活动规则

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

活动时间: 2020年8月12日-2020年9月11日

活动期间,华为云用户通过活动页面购买云服务,或使用上云礼包优惠券在华为云官网新购云服务,累计新购实付付费金额达到一定额度,可兑换相应的实物礼品。活动优惠券可在本活动页面中“上云礼包”等方式获取,在华为云官网直接购买(未使用年中云钜惠活动优惠券)或参与其他活动的订单付费金额不计入统计范围内;

  • 深耕数字化,一切皆服务

  • 确定性运维规划与设计服务

    基于华为云上SRE运维最佳实践提供确定性运维评估规划和设计服务,实现整体运维能力的提升,端到端运维流程规划提升,帮助企业构建确定性运维体系 ,实现运维组织变革,提升整体运维能力和运维转型。

    了解详情
  • SRE确定性运维专家培训服务

    基于华为云SRE多年的技术沉淀和实践经验总结,培训课程采用理论+案例实战的方式,掌握确定性运维流程体系的构建和优化、软件工程能力提升方法以及系统高可用性设计方案等知识,以赋能企业云上运维。

    了解详情
  • SRE确定性运维高研班培训服务

    通过高可用架构、动态风控管理体系、高度智能运维框架等方法,结合华为云实践,帮助企业构建确定性运维体系及运维规划与设计方案,迈向“高度确定性运维”能力,实现云上业务的安全、稳定、高质量。

    了解详情
  • 确定性运维容器专家培训服务

    了解云原生容器运维的核心理论,从故障的预防、发现、快速恢复等维度阐述容器运维的相关流程及方法论,并结合案例实践以及工具实操内容,快速掌握容器知识,以应对云原生业务快速增长。

    了解详情
  • 确定性运维高可用架构培训服务

    了解系统高可用关键指标,分享华为云高可用设计的方法,探讨业务云上系统的优化方案,并结合企业实践案例,设计适合企业自身的高可用架构,助力企业云上部署。

    了解详情
  • 确定性运维混沌工程培训服务

    了解华为云确定性运维混沌工程核心方法论和工具实操培训,包括:混沌工程的核心理论讲解和华为云混沌工程实践体系(组织、流程、工具),结合华为云混沌工程实践案例,掌握如何提高系统可靠性和稳定性。

    了解详情

维享会,确定性运维经验交流分享会

华为云维享会(简称“维享会”)是华为云联合专家学者、行业技术先锋和业界IT精英们,构建的确定性运维经验交流分享会,链接CTO、CIO和运维总监,探索确定性运维与业务的创新融合,推动行业实践经验和价值分享。


核心目标

① 共识达成:高频次会员交流活动,分享实践经验和技术能力;

② 技术推进:探索运维前沿技术趋势,推进关键技术问题得到解决和升级;

③ 实践产出:面向产业贡献,联合会员共创,编写专刊、白皮书和案例集内容。

精选视频

《云上建筑师——致全球运维人》

正如建筑师在立体空间,与繁杂结构中找寻确定性之美,运维工程师也正在智能世界中,为业务创造确定性的价值。运维的边界在扩展,基于确定性运维体系,这群云上建筑师正在破解企业质量、成本、效能的管理难题,让企业上云更加安全可信、稳定可靠、资源高效、业务敏捷!

《突袭》丨一次云上生产环境的大考

华为终端云联合华为云开展了“突袭”演练,对生产环境近5000台云服务器进行软下线。此次演练,充分验证了华为终端云业务在站点级异常情况下的高度稳定可靠。每年,华为云在内部开展超过2000次混沌工程演练,并联合外部客户完成超过20次支付类、证券类、财经类等应用高可用演练。

《云中突击》丨看华为城市云守护者如何练就“真功夫”

作为数字城市安全稳定运行的守护者和美好生活的陪伴者,华为政务云SRE,依托确定性运维体系,用一次次的突击演练,淬炼华为政务云运维坚实守护力,守护数字城市运行每时每刻,共筑数字中国美好未来!

《在线》——华为云春节保障纪实

2022年春节期间,华为云SRE团队数百人坚守岗位,实时保障全网200+站点。

《华为云SRE确定性运维》英文版

华为云SRE确定性运维面向海内外服务千行百业,用创新技术释放动能,携手业界同仁共同构建“确定性”的运维世界。

《红蓝军演练》——华为云全年上演2000多场“剧本杀”

一年以来,华为云进行了2000多次实战演练 ,涉及2000多名技术工程师220多个云服务,覆盖容灾、冗余、过载、数据备份、误操作等多种演练场景,全面提升了华为云的应急能力。


资料下载

确定性运维实践探索,集产业、技术、实战于一体的技术书籍

专刊

文章推荐:

● 华为云的硬核力量-确定性运维的前世、今生和未来;

● AIOps智能运维经验分享;

● “确定性运维”能力助力云上业务运维体系升级;

● 基于云架构的业务稳定性建设思路;

● 助力客户数字化转型,构建全新的运维体系;

● 美图稳定性和运维保障方案。

文章推荐:

● 关于智能运维中算法落地的一些思考;

● 运维价值度量体系建设方法与实践;

● 终端云智能化运维思考与探索;

● 在组织变革中重塑运维生产力;

● 亿级用户药店平台稳定性保障实践;

● 对系统稳定性的几点思考。

文章推荐:

● 智能运维+可视化:解决运维大数据分析的新思路;

● 通过SLO塑造可靠性;

● 移动云故障快速恢复能力的建设经验分享;

● “TT语音年度盛典”背后的技术保障;

● 浅谈云原生AIOps实践;

● 终端云服务亿级用户业务稳定性保障体系。

文章推荐:

● 精准故障注入方法探索;

● 华为云高可用架构设计 提升云上业务稳定性;

● 数智融合:让运维开发者从“消防员”向“建筑师”转型;

● UGC沙盒创意平台的基建建设之旅。

文章推荐:

● 华为云的硬核力量-确定性运维的前世、今生和未来;

● AIOps智能运维经验分享;

● “确定性运维”能力助力云上业务运维体系升级;

● 基于云架构的业务稳定性建设思路;

● 助力客户数字化转型,构建全新的运维体系;

● 美图稳定性和运维保障方案。

文章推荐:

● 关于智能运维中算法落地的一些思考;

● 运维价值度量体系建设方法与实践;

● 终端云智能化运维思考与探索;

● 在组织变革中重塑运维生产力;

● 亿级用户药店平台稳定性保障实践;

● 对系统稳定性的几点思考。

文章推荐:

● 智能运维+可视化:解决运维大数据分析的新思路;

● 通过SLO塑造可靠性;

● 移动云故障快速恢复能力的建设经验分享;

● “TT语音年度盛典”背后的技术保障;

● 浅谈云原生AIOps实践;

● 终端云服务亿级用户业务稳定性保障体系。

文章推荐:

● 精准故障注入方法探索;

● 华为云高可用架构设计 提升云上业务稳定性;

● 数智融合:让运维开发者从“消防员”向“建筑师”转型;

● UGC沙盒创意平台的基建建设之旅。

白皮书

● 解读确定性运维“1+N”体系,在标准化运维的基础上开展SRE变革,构建确定性运维能力;

● 构建确定性运维成熟度模型,建立覆盖关键运维活动的流程规范;

● 分享确定性运维体系能力,探索高度确定性运维转型之路,在标准化运维的基础上开展SRE变革,构建确定性运维能力。

● 解读确定性运维“1+N”体系,在标准化运维的基础上开展SRE变革,构建确定性运维能力;

● 构建确定性运维成熟度模型,建立覆盖关键运维活动的流程规范;

● 分享确定性运维体系能力,探索高度确定性运维转型之路,在标准化运维的基础上开展SRE变革,构建确定性运维能力。

本白皮书针对混沌工程在商业银行落地过程中如何构建体系化实践方法论、如何评价实践效果、如何建设企业文化三方面挑战,给出了参考方案。

● 解读混沌工程落地挑战;

● 解读混沌工程落地体系研究;

● 解读混沌工程落地体系要点。

● 从行业发展背景、云上成本关键挑战、FinOps框架和行业财务管理解决方案等方面,阐述企业在深度用云阶段,通过云财务管理精细化管理云成本,降低用云复杂度,充分利用云优势增强核心竞争力,提出了云成本管理过程中难以规划、难以控制、难以调优、容易浪费四大难点,并全面阐述企业实践FinOps的能力要求,帮助企业将成本管理从理念转向落地,构建长效机制,实现持续优化。