数据治理中心 DATAARTS STUDIO-通过监控指标分析性能瓶颈:分析性能瓶颈
分析性能瓶颈
通过查看内存、反压等监控性能指标,确定性能下降的原因,以及瓶颈位于源端还是目的端。

- 内存占用100%
当作业的内存占用达到100%时,意味着内存资源不足,需要扩大作业的内存配置或降低对内存的需求。
内存使用率达到100%时的实时作业监控指标:
图4 作业内存耗尽时的监控指标状态图5 作业内存排查与调优策略针对内存问题,优先通过增加任务配置中的并发数来解决,增加并发可减轻每个taskmanager上的内存压力。
增大并发后如果内存占用率仍比较大,可以根据不同的链路做组件级的参数调优,详情请参考各个链路的参数调优介绍,包括:
- 减小数据缓存的大小和时间。
- 加快缓存数据的flush速度。
- 对目的端的表结构进行优化,以提高写入性能。
- 增加单个taskmanager的处理内存,注意不要造成Migration资源组的资源使用率统计不准确。
- 对读写速率限流,适合数据量不大对作业稳定性需求较高的场景。
特殊场景:
- 作业持续反压100
长时间作业反压100%,表明可能是目的端写入性能瓶颈,原因可能为:
- 作业目的端配置或者建表不合理,性能仍有优化空间。
- 目的端集群压力过大。
图6 作业反压调优策略图7 正常反压监控图图8 作业反压持续100监控图针对作业配置或建表不合理的场景,可以参考各个链路参数调优指导中关于目的端的介绍。
针对目的端集群压力较大的场景需要及时联系目的端数据库运维或开发者调整集群状态。
- 作业反压正常(binlog激增)
作业反压正常可能为源端抽取性能瓶颈,大部分场景为业务量上涨导致源端binlog激增。部分作业会存在网络问题导致数据抽取速率不足,时延上升。
源端binlog激增时的MySQ L实例 监控:
图9 binlog激增MySQL监控图-1