伙伴名称

观测云 

所属行业

互联网

概述

上海观测未来信息技术有限公司(简称:观测未来),成立于 2013 年 7 月,是由红杉资本、阿里巴巴、复星集团、张江高科、深创投、华业天成等知名投资机构投资的高新技术企业。

其自研产品「观测云」,首批通过中国信通院颁发的「可观测性平台技术能力」先进级认证,实现对云、云原生、应用及业务的统一监测需求,可为互联网、零售、金融等行业用户提供统一高效的数字化可观测服务。观测云作为一款数字化生产力工具,助力实现用数据驱动的现代软件工程体系,用可观测性改变软件全生命周期管理。 

业务背景

旺小宝此前使用的是针对特定的监控需求设计的开源监控软件,使得监控系统无限增生,这种状况不仅造成了数据孤岛现象,还严重降低了问题定位的效率;且每个分散的监控软件都需要单独配置资源和维护升级,给企业带来了额外成本。为了应对大规模、复杂环境下的监控需求,增强整体效率和企业竞争力,旺小宝希望引入智能一体化的监测系统。 

业务挑战
  • 监控体系碎片化,数据无法联动

    当前采用开源自建 + 云厂商基础监控的混合模式。基础设施层依赖云厂商自带的监控面板,应用层和中间件主要使用 Prometheus + Grafana 进行指标监控,日志分析则维护了一套 ELK (Elasticsearch, Logstash, Kibana) 集群,链路追踪维护了一套Skywalking。各系统之间相对独立,监控数据分散,缺乏统一标签与关联机制,形成严重运维数据孤岛,故障排查需在多个系统间反复切换,平均定位时间长达数小时。 

  • 多云环境复杂,运维缺乏全局视野

    客户内部业务部署横跨多云,各云平台监控接口、指标体系不一致,资源状态难以统一感知,跨云性能瓶颈与网络延迟问题难以快速识别,间接影响各业务的用户满意度。 

  • 排障效率低下,影响业务连续性

    客户部分业务对系统可用性要求较高(如地产开盘、实时盘客场景),但现有监控体系下故障发现滞后、根因分析依赖人工经验,重大故障恢复周期过长,直接影响成交转化与品牌口碑。 

     

  • 运维成本高企,资源浪费严重

    当前监控体系的隐性成本很高,为了维持日志集群和监控存储的高可用,每月在服务器和存储资源上的花费万元左右。同时需要投入1名运维人员的大部分精力来负责监控组件的搭建、扩容、版本升级以及告警规则的维护,人力维护成本远高于硬件成本,难以聚焦核心业务优化。自建的ES集群随着数据量增长经常出现性能瓶颈,运维人员面临24小时修复监控系统的挑战。 

  • 技术与业务脱节,价值难量化

    只有服务器及技术指标的监控,缺乏对真实用户体验(如页面加载慢、接口报错)的直观感知。技术团队无法直观评估API延迟、错误率等指标对营销转化率、用户活跃度等关键业务结果的影响,系统优化缺乏数据支撑,难以驱动业务增长。

     

解决方案
  • 打破数据孤岛,构建统一监控体系:

    部署观测云DataKit采集器,实现基础设施层(300+指标)、应用性能层(APM)、用户体验层(RUM真实用户监控)、日志中心的全栈数据采集;建立业务线、环境、云厂商、服务名等统一标签规范,打通Metrics/Logs/Traces数据关联,构建跨系统的资源拓扑图谱,所有监控数据可在单一平台完成检索、关联与可视化,彻底解决多系统切换问题。 

  • 化繁为简,实现多云环境统一管控

    在华为云等多云环境部署DataKit,自动发现各云平台VM、容器、K8s集群资源,提供跨云资源拓扑大盘,实时呈现全局资源健康状态与依赖关系,支持一键下钻到具体实例;通过预置多云场景监控模板,实现监控配置的统一管理。 

  • 智能排障,压缩故障定位时间:

    无侵入式接入20+微服务应用,自动绘制服务调用拓扑,将Trace、日志、指标关联至单次请求,实现从用户前端到后端数据库的完整链路还原;自动识别故障边界(网络/中间件/应用/代码),告警更加精准,误报率大幅降低。 

  • 降本增效,优化运维资源投入:

    以观测云一体化平台替代原有自建开源监控系统,监控工具维护成本降低60%以上,年度服务器与人力成本显著下降;有效告警占比从不足50%提升至90%以上,大幅减少无效告警带来的运维干扰;同时提供资源利用率分析,帮助旺小宝持续优化云资源投入。 

  • 业务驱动,打通技术到价值的闭环:

    告警自动按业务重要性(P0核心业务/P1重要业务/P2一般业务)分级通知,技术团队可直观评估故障对业务的影响;基于Trace数据定位慢SQL、慢接口,生成可量化的性能优化清单,真正实现技术优化对业务价值的量化贡献。 

使用的华为云服务与关键价值:

观测云采用存算分离架构,将数据存储与计算资源分离,数据持久化在对象存储OBS中,降低 CPU、内存占用,同时不绑定存储节点的计算资源,减少 HDD、SDD 占用,服务综合降本约10%。

OBS 提供 12 个 9 的数据持久性 + 跨区复制/ AZ 内冗余,天然作为 GuanceDB 3.0 的“冷-温”分层存储底座,日志/指标/链路数据“0”丢失。

CCE 集群控制面 3 节点高可用,观测云 DataKit 以 DaemonSet 方式运行,节点故障 30 秒内自动漂移,保障采集侧 99.995% 可用性。 

在本项目中,华为云与观测云团队精诚合作,从深入了解客户的初始需求开始,逐步进行联合方案设计、功能测试,最终协助客户确定了最合适的落地方案。通过这一系列合作,我们成功帮助客户使用观测云,构建了统一的可观测平台。该平台有效解决了运维场景中的核心业务问题,提升了运维和开发效率,为客户带来了实实在在价值。 

客户效益
  • 故障定位效率提升,保障业务连续性

    通过统一的仪表板,运维团队实现了对系统健康状态的“上帝视角”,故障发现时间从30分钟缩短到了5分钟。通过链路追踪(APM)和日志的自动关联,开发人员可以通过一个 TraceID 直接定位到代码堆栈和对应的日志上下文,问题定位(Debug)效率提升了至少 50%。

  • 告警精准度提升,释放运维人力

    借助智能降噪与告警聚合,无效告警占比从62%降至8%,有效告警占比提升至92%。运维团队每日处理告警时间从4小时缩短至30分钟,人力释放超过80%,运维效率提升5倍,团队可聚焦核心业务优化与创新。 

  • 监控成本降低,资源投入更合理

    从总拥有成本(TCO)来看,成本优化约20%。虽然增加了软件订阅费用,但削减了大量的自建监控服务器资源,更重要的是节省了昂贵的运维人力成本。投入产出比(ROI)很高:现在运维团队可以将精力集中在架构优化和业务支持等高价值工作上,而不是消耗在“修监控工具”上。系统的稳定性提升带来的业务价值,远超工具本身的投入。 

  • 技术价值可量化,获得业务认可

    通过将API响应延迟、SQL执行耗时等技术指标与客户留资率、营销转化率等业务结果关联,旺小宝首次实现“技术优化对业务增长”的量化证明。例如,接口响应时间从800ms优化至300ms后,客户留资率提升2.3%,技术团队因此获得业务方高度认可,预算审批通过率提升50%,技术投入进入良性循环。 

  • 多云统一运维,支撑业务扩张

    跨云资源拓扑与统一监控体系的建立,使旺小宝在多云平台的资源状态一目了然,跨云性能瓶颈与网络延迟问题可提前识别与预警,为未来业务快速扩张与多云部署提供坚实的技术底座。 

case_like

成为华为云伙伴


携手共赢
成为合作伙伴