上海观测未来信息技术有限公司(简称:观测未来)为互联网、零售、金融、制造等500余家行业用户提供统一高效的数字化可观测服务,已获得华为云先进云软件伙伴荣誉等。
其自研产品「观测云」,首批通过中国信通院颁发的「可观测性平台技术能力」先进级认证。打造全面统一的可观测性平台,涵盖基础设施监控、应用性能监测、日志管理、用户体验监测等多种功能。通过整合公司技术栈中所有工具和服务的数据,观测云为故障排查、性能优化、用户体验提升和跨团队协作提供了一个统一的事实来源。
在观测云平台,所有数据均采用统一的标签体系进行管理,使得任何与特定问题相关的数据都能够自动关联,用户只需几次点击,即可访问相关数据。通过全面消除盲点,观测云降低了遗漏错误的风险,减轻了持续服务维护的负担,驱动企业持续的将数字技术整合业务,适应不断变化的客户需求。
企业为了实现高效运营和管理,决定建设全球数字化中心,将分散的业务系统与数字化团队统一管理和调配资源。结合公有云、私有云及IDC的混合架构,客户联合观测云打造了一套完善的运维体系与全面的可观测能力,助力企业业务系统稳定高效运行。
建设可观测平台不仅仅是采集指标、打通日志,而是要解决多环境统一覆盖、团队易用性、跨维度数据关联分析这三大核心挑战。否则即使部署了平台,依旧会面临“覆盖不全、推广不动、定位不准”的困境。
1、多云 + IDC 环境下的监控覆盖问题
异构环境复杂:业务同时部署在公有云、私有云、IDC,基础设施标准不统一,监控接入点多,接口和采集协议不同。
监控盲区风险:某些老旧系统或自研中间件没有标准监控接口,导致采集覆盖不足。
统一视角难:不同环境的监控数据分散在各自工具中,难以形成全局统一的健康视图。
合规与安全:跨云、跨区域采集数据时,涉及网络安全、数据出境、合规限制,增加实施复杂度。
2、使用开源软件,监控推广难度高
技术门槛高:开源监控工具(如 Prometheus、Grafana、ELK)需要额外的部署、运维和调优成本,不是所有运维/开发团队都能掌握。
碎片化严重:不同组件各自为政(日志、链路、指标分离),需要二次开发或平台化整合,否则体验零散。
缺乏推广动力:团队成员往往习惯已有的监控方式(例如简单的告警+日志搜索),新平台需要教育成本和额外学习时间。
缺少运维支持:开源方案缺乏商业支持,一旦出现性能瓶颈或故障,问题难以及时解决,导致信任度不足。
3、问题定位难,没有有效的数据佐证,排查效率低
监控孤岛:指标、日志、链路数据缺乏关联,问题排查时需要多套系统来回切换,定位根因耗时长。
缺少上下文:传统监控只看到某个指标异常,但无法追踪到具体请求链路、调用栈或代码层问题。
告警泛滥:没有智能化的聚合和降噪,导致报警风暴,运维人员容易疲劳,反而忽视关键问题。
缺乏数据驱动:缺少历史对比、趋势分析、智能诊断等功能,问题定位完全依赖人工经验,效率低。
通过 OneAgent 统一采集 + 平台统一分析监控 + DQL 可视化健康度 + 模板化推广,实现从建设—使用—推广—优化的闭环,帮助客户快速搭建起覆盖多云与IDC的端到端可观测体系,提升系统稳定性与运维效率。
1、可观测建设
统一采集:通过观测云 OneAgent,覆盖应用、数据库、中间件、容器、网络、操作系统等多维度监控数据,无论是云上、IDC还是私有云环境,都能快速完成接入。
统一分析:采集到的数据在观测云平台内进行清洗、聚合和存储,避免数据孤岛问题,实现跨环境、跨系统的统一分析。
统一监控:平台提供统一的监控视角,将不同环境和不同技术栈的数据纳入同一个指标体系,形成端到端的全链路可观测,减少切换多个监控工具的成本。
2、系统健康度可视化
灵活的数据查询:依托观测云 DQL(Data Query Language),可以快速进行指标、日志、链路的多维度查询与分析。
健康度报告:通过查询结果构建健康度仪表盘或报告,直观展现核心业务系统和各子系统的运行状态、性能指标和异常情况。
问题可见:一旦系统出现性能瓶颈、错误率升高、资源紧张等问题,健康度报告能清晰标注,让运维和研发团队一目了然,减少人工排查成本。
历史趋势对比:支持对比不同时间段的系统运行状态,帮助团队判断是偶发问题还是长期趋势,提升问题解决的准确性。
3、快速部署和推广
模板化配置:采集规则、监控策略、告警规则、可视化看板等都能通过模板快速复用,大幅减少手工配置和重复工作。
快速接入:新业务系统上线时,只需套用对应模板,即可自动完成指标采集、日志接入、告警绑定,降低接入门槛。
快速发现故障:基于标准化的监控和告警机制,可以在问题刚出现时就及时识别并通知相关团队,避免影响扩大。
快速定位根因:借助日志、指标、链路的统一视角,以及平台内的智能诊断和拓扑分析功能,能够在分钟级完成根因定位,提高故障恢复效率。

使用的华为云服务与关键价值:
观测云使用了华为云弹性云服务器(ECS)、华为云弹性伸缩服务(AS)、华为云容器引擎(CCE)以及华为云关系型数据库(RDS)和华为云对象存储服务(OBS)。观测云目前的架构为存算分离架构,对OBS依赖程度较高。
观测云接入华为云的MaaS产品,最新版本已提供AI能力,包括智能体、AI告警和AI故障分析等。

通过稳定性保障 + 系统能力提升 + 成本控制三大价值点,观测云平台不仅帮助企业应对复杂多云与 IDC 混合环境的挑战,还能持续推动IT系统的稳定、高效与可持续发展。
截止目前客户中台系统已上线7套、测试中10套、开发对接中18套,同时已接入后端监控32套、前端监控33套。生产系统监控包括:循环二手车,ITSM,企业精密FOM等第一批自研系统及OA、IHR、海外CRM、铁三角等核心app。
观测云为客户提供以下价值:
1、系统稳定性保障
故障及时发现:通过观测云端到端的全链路可观测能力,实时监控系统运行状态,异常波动、错误率升高、延迟变长等问题都能第一时间触发告警。
根因快速定位:依托指标、日志、链路的关联分析能力,能够从“告警 → 故障链路 → 异常节点 → 具体错误日志”快速完成问题溯源,避免跨系统排查带来的效率低下。
应用性能优化:持续追踪应用请求链路,识别性能瓶颈(如慢查询、接口延迟、依赖异常),为应用优化提供数据支撑。
稳定性与体验双提升:在保障系统稳定性的同时,也显著降低了业务中断风险,提升用户的访问体验和满意度。
2、系统能力逐步提升
健康度报告驱动改进:基于观测云的 DQL 分析能力,生成系统健康度报告,清晰展现各子业务系统运行情况。
快速发现潜在问题:通过健康度评分、异常趋势、性能对比等结果,能够在问题未演变成故障前发现风险。
多维度对比优化:支持日、周、月等不同周期的健康度对比,帮助业务部门进行持续改进,避免“救火式”运维。
部门协同改进:健康度报告为各个子业务部门提供了统一的数据视角,推动跨部门协同优化,从而整体提升企业 IT 系统能力。
3、资源成本控制
多环境统一分析:覆盖公有云、私有云、IDC 的基础资源数据,统一纳入观测云平台分析,避免信息割裂。
资源利用率优化:通过观测数据发现闲置资源并进行回收,避免浪费,同时识别繁忙资源并进行弹性扩容,防止业务因资源不足而受影响。
成本精细化管理:按部门、应用、服务维度拆分资源使用情况,帮助企业实现成本透明化,提升 IT 投资效益。
双重优化:既优化了本地 IDC 的硬件资源利用,又降低了云上的弹性资源开销,实现整体 TCO(Total Cost of Ownership,总拥有成本)的下降。