云服务器内容精选

华为云首页用户手册

Doris监控集群

表格存储服务 CLOUDTABLE-Doris集群支持的监控指标:BE节点支持的监控指标

BE节点支持的监控指标 BE节点监控指标如表2所示。表2 BE节点支持的监控指标指标名称显示名称含义取值范围监控周期（原始指标） doris_be_active_scan_context_count 由外部直接打开的scanner的个数 - ≥0 60s doris_be_add_batch_task_queue_size 接收batch的线程池的队列大小 - ≥0 60s doris_be_brpc_endpoint_stub_count 已创建的brpc stub的数量(BE) 这些stub用于BE之间的交互 ≥0 60s doris_be_brpc_function_endpoint_stub_count 已创建的brpc stub的数量(Remote RPC) 这些stub用于和Remote RPC之间交互 ≥0 60s doris_be_cache_usage_LastestSuccessChannelCache LRU ChannelCache使用率 LRU DataPageCache使用率 [0%,100%] 60s doris_be_cache_usage_ratio_DataPageCache LRU DataPageCache使用率 - [0%,100%] 60s doris_be_cache_usage_ratio_IndexPageCache LRU IndexPageCache使用率 - [0%,100%] 60s doris_be_cache_usage_ratio_SegmentCache LRU SegmentCache使用率 - [0%,100%] 60s doris_be_cache_hit_ratio_DataPageCache LRU DataPageCache命中率数据Cache,直接影响查询效率 [0%,100%] 60s doris_be_cache_hit_ratio_IndexPageCache LRU IndexPageCache命中率索引Cache,直接影响查询效率 [0%,100%] 60s doris_be_cache_hit_ratio_LastestSuccessChannelCache LRU ChannelCache命中率 - [0%,100%] 60s doris_be_cache_hit_ratio_SegmentCache LRU SegmentCache命中率 - [0%,100%] 60s doris_be_chunk_pool_local_core_alloc_count ChunkAllocator中,从绑定的core的内存队列中分配内存的次数 - ≥0 60s doris_be_chunk_pool_other_core_alloc_count ChunkAllocator中,从其他的core的内存队列中分配内存的次数 - ≥0 60s doris_be_chunk_pool_reserved_bytes ChunkAllocator中预留的内存大小 - ≥0 Byte 60s doris_be_chunk_pool_system_alloc_cost_ns SystemAllocator申请内存的耗时累计值,通过斜率可以观测内存分配的耗时 ≥0 ns 60s doris_be_chunk_pool_system_alloc_count SystemAllocator申请内存的次数 - ≥0 60s doris_be_chunk_pool_system_free_cost_ns SystemAllocator释放内存的耗时累计值通过斜率可以观测内存释放的耗时 ≥0 ns 60s doris_be_chunk_pool_system_free_count SystemAllocator释放内存的次数 - ≥0 60s doris_be_compaction_bytes_total_base Base Compaction的数据量累计值 ≥0 Byte 60s doris_be_compaction_bytes_total_cumulative Cumulative Compaction的数据量累计值 ≥0 60s doris_be_compaction_deltas_total_base Base Compaction处理的rowset个数累计值 ≥0 60s doris_be_compaction_deltas_total_cumulative Cumulative Compaction处理的rowset个数累计值 ≥0 60s doris_be_compaction_waitting_permits 正在等待Compaction令牌的数量 - ≥0 60s doris_be_data_stream_receiver_count 数据接收端Receiver的数量 - ≥0 60s doris_be_data_stream_receiver_count 数据接收端Receiver的数量同doris_be_data_stream_receiver_count ≥0 60s doris_be_fragment_request_duration_us 所有fragment intance的执行时间累计值,通过斜率观测 instance 的执行耗时 ≥0 us 60s doris_be_fragment_requests_total 执行过的fragment instance的数量累计值 ≥0 60s doris_be_load_channel_count 当前打开的load channel个数数值越大,说明当前正在执行的导入任务越多 ≥0 60s doris_be_mem_consumption_tablet_meta tablet_meta模块的当前总内存开销 - ≥0 60s doris_be_mem_consumption_load load模块的当前总内存开销 - ≥0 Byte 60s doris_be_memory_allocated_bytes TcMalloc占用的虚拟内存的大小 - ≥0 Byte 60s doris_be_memory_pool_bytes_total 所有MemPool当前占用的内存大小 - ≥0 Byte 60s doris_be_memtable_flush_duration_us memtable写入磁盘的耗时累计值,通过斜率可以观测写入延迟 ≥0 us 60s doris_be_memtable_flush_total memtable写入磁盘的个数累计值,通过斜率可以计算写入文件的频率 ≥0 60s doris_be_meta_request_duration_read 访问RocksDB中的meta的读取耗时 - ≥0 us 60s doris_be_meta_request_duration_write 访问RocksDB中的meta的写入耗时 - ≥0 us 60s doris_be_meta_request_total_read 访问RocksDB中的meta的读取次数累计值 ≥0 60s doris_be_meta_request_total_write 访问RocksDB中的meta的写入次数累计值 ≥0 60s doris_be_plan_fragment_count 当前已接收的fragment instance的数量观测是否出现instance堆积 ≥0 60s doris_be_process_fd_num_limit_hard BE进程的文件句柄数硬限 - ≥0 60s doris_be_process_fd_num_limit_soft BE进程的文件句柄数软限 - ≥0 60s doris_be_process_fd_num_used BE进程已使用的文件句柄数 - ≥0 60s doris_be_process_thread_num BE进程线程数 - ≥0 60s doris_be_query_cache_memory_total_byte Query Cache占用字节数 - ≥0 Byte 60s doris_be_query_cache_partition_total_count 当前Partition Cache缓存个数 - ≥0 60s doris_be_query_cache_sql_total_count 当前SQL Cache缓存个数 - ≥0 60s doris_be_query_scan_bytes 读取数据量的累计值只统计读取Olap表的数据量 ≥0 Byte 60s doris_be_query_scan_bytes_per_second 读取速率 - ≥0 Byte/s 60s doris_be_query_scan_rows 读取行数累计值,只统计读取Olap表的数据量,通过斜率观测查询速率 ≥0 60s doris_be_result_block_queue_count 当前查询结果缓存中的fragment instance个数该队列仅用于被外部系统直接读取时使用 ≥0 60s doris_be_result_buffer_block_count 当前查询结果缓存中的query个数该数值反映当前BE中有多少查询的结果正在等待FE消费 ≥0 60s doris_be_routine_load_task_count 当前正在执行的routine load task个数 - ≥0 60s doris_be_rowset_count_generated_and_in_use 自上次启动后,新增的并且正在使用的rowset id个数 - ≥0 60s doris_be_scanner_thread_pool_queue_size 用于OlapScanner的线程池的当前排队数量 - ≥0 60s doris_be_segment_read_segment_read_total 读取的segment的个数累计值 ≥0 60s doris_be_segment_read_segment_row_total 读取的segment的行数累计值,该数值也包含了被索引过滤的行数 ≥0 60s doris_be_send_batch_thread_pool_queue_size 导入时用于发送数据包的线程池的排队个数 - ≥0 60s doris_be_send_batch_thread_pool_thread_num 导入时用于发送数据包的线程池的线程数 - ≥0 60s doris_be_small_file_cache_count 当前BE缓存的小文件数量 - ≥0 60s doris_be_streaming_load_current_processing 当前正在运行的stream load任务数仅包含curl命令发送的任务 ≥0 60s doris_be_streaming_load_duration_ms 所有stream load任务执行时间的耗时累计值 ≥0 60s doris_be_streaming_load_requests_total stream load任务数累计值,通过斜率可观测任务提交频率 ≥0 60s doris_be_stream_load_pipe_count 当前stream load数据管道的个数包括stream load和routine load任务 ≥0 60s doris_be_stream_load_load_rows stream load最终导入的行数包括stream load和routine load任务 ≥0 60s doris_be_stream_load_receive_bytes stream load接收的字节数包括stream load从http接收的数据,以及routine load从kafka 读取的数据 ≥0 Byte 60s doris_be_tablet_base_max_compaction_score 当前最大的Base Compaction Score 该数值实时变化,有可能丢失峰值数据;数值越高,表示compaction堆积越严重 ≥0 60s doris_be_tablet_cumulative_max_compaction_score 当前最大的Cumulative Compaction Score - ≥0 60s doris_be_thrift_connections_total_heartbeat 心跳服务的连接数累计值 ≥0 60s doris_be_thrift_connections_total_backend BE服务的连接数累计值 ≥0 60s doris_be_thrift_current_connections_heartbeat 心跳服务的当前连接数 - ≥0 60s doris_be_thrift_current_connections_backend BE服务的当前连接数 - ≥0 60s doris_be_timeout_canceled_fragment_count 因超时而被取消的fragment instance数量这个值可能会被重复记录 ≥0 60s doris_be_stream_load_txn_request_begin stream load开始事务数包括stream load和routine load任务 ≥0 60s doris_be_stream_load_txn_request_commit stream load执行成功的事务数包括stream load和routine load任务 ≥0 60s doris_be_stream_load_txn_request_rollback stream load执行失败的事务数包括stream load和routine load任务 ≥0 60s doris_be_unused_rowsets_count 当前已废弃的rowset的个数这些rowset正常情况下会被定期删除 ≥0 60s doris_be_load_bytes 通过tablet sink发送的数量累计值,可观测导入数据量 ≥0 Byte 60s doris_be_load_rows 通过tablet sink发送的行数累计值,可观测导入数据量 ≥0 Byte 60s doris_be_fragment_thread_pool_queue_size 当前查询执行线程池等待队列的长度 - ≥0 60s doris_be_compaction_used_permits Compaction任务已使用的令牌数量用于反映Compaction的资源消耗量 ≥0 60s doris_be_upload_total_byte rowset数据量累计值 - ≥0 60s

表格存储服务 CLOUDTABLE Doris监控集群
表格存储服务 CLOUDTABLE-Doris集群支持的监控指标:FE节点支持的监控指标

FE节点支持的监控指标 FE节点监控指标如表1所示。表1 FE节点支持的监控指标指标名称显示名称含义取值范围监控周期（原始指标） doris_fe_image_clean_failed 清理历史元数据镜像文件失败的次数不应失败,如失败,需人工介入 ≥0 60s doris_fe_image_clean_success 清理历史元数据镜像文件成功的次数 - ≥0 60s doris_fe_image_push_success 将元数据镜像文件推送给其他FE节点的成功的次数 - ≥0 60s doris_fe_image_write_failed 生成元数据镜像文件失败的次数不应失败,如失败,需人工介入 ≥0 60s doris_fe_image_write_success 生成元数据镜像文件成功的次数 - ≥0 60s doris_fe_max_journal_id 当前FE节点最大元数据日志ID 如果是Master FE,则是当前写入的最大ID,如果是非Master FE,则代表当前回放的元数据日志最大ID;用于观察多个FE之间的id是否差距过大,过大则表示元数据同步出现问题 ≥0 60s doris_fe_max_tablet_compaction_score 所有BE节点中最大的compaction score值该值可以观测当前集群最大的 compaction score,以判断是否过高,如过高则可能出现查询或写入延迟 ≥0 60s doris_fe_qps 当前FE每秒查询数量(仅统计查询请求) QPS ≥0 60s doris_fe_query_err 错误查询的累积值 - ≥0 60s doris_fe_query_err_rate 每秒错误查询数 - ≥0 60s doris_fe_query_latency_ms_99 查询请求延迟的99分位的查询延迟 - ≥0 ms 60s doris_fe_query_latency_ms_999 查询请求延迟的999分位的查询延迟 - ≥0 ms 60s doris_fe_query_olap_table 查询内部表(OlapTable)的请求个数 - ≥0 60s doris_fe_query_total 所有查询请求数 - ≥0 60s doris_fe_report_queue_size BE的各种定期汇报任务在FE端的队列长度该值反映了汇报任务在 Master FE 节点上的阻塞程度,数值越大,表示FE处理能力不足 ≥0 60s doris_fe_request_total 所有通过MySQL端口接收的操作请求(包括查询和其他语句) - ≥0 60s doris_fe_routine_load_error_rows 集群内所有Routine Load作业的错误行数总和 - ≥0 60s doris_fe_routine_load_receive_bytes 集群内所有Routine Load作业接收的数据量大小 - ≥0 Byte 60s doris_fe_routine_load_rows 集群内所有Routine Load作业接收的数据行数 - ≥0 60s doris_fe_rps 当前FE每秒请求数量(包含查询以及其他各类语句) 和 QPS 配合来查看集群处理请求的量 ≥0 60s doris_fe_scheduled_tablet_num Master FE节点正在调度的tablet数量包括正在修复的副本和正在均衡的副本;该数值可以反映当前集群,正在迁移的 tablet 数量;如果长时间有值,说明集群不稳定 ≥0 60s doris_fe_tablet_status_count_added Master FE节点被调度过的tablet数量 - ≥0 60s doris_fe_tablet_status_count_in_sched Master FE节点被重复调度的tablet数量 - ≥0 60s doris_fe_tablet_status_count_not_ready Master FE节点未满足调度触发条件的tablet数量 - ≥0 60s doris_fe_tablet_status_count_total Master FE节点的被检查过的tablet数量 - ≥0 60s doris_fe_tablet_status_count_unhealthy Master FE节点累积的被检查过的不健康的tablet数量 - ≥0 60s doris_fe_txn_counter_begin 提交的事务数量 - ≥0 60s doris_fe_txn_counter_failed 失败的事务数量 - ≥0 60s doris_fe_txn_counter_reject 被拒绝的事务数量如当前运行事务数大于阈值,则新的事务会被拒绝 ≥0 60s doris_fe_txn_counter_success 成功的事务数量 - ≥0 60s doris_fe_txn_exec_latency_ms_99 99分位的事务执行耗时 - ≥0 ms 60s doris_fe_txn_exec_latency_ms_999 999分位的事务执行耗时 - ≥0 ms 60s doris_fe_txn_publish_latency_ms_99 99分位的事务publish耗时 - ≥0 ms 60s doris_fe_txn_publish_latency_ms_999 999分位的事务publish耗时 - ≥0 ms 60s jvm_heap_size_bytes_max 最大堆内存观测JVM内存使用情况 ≥0 Byte 60s jvm_heap_size_bytes_committed 已申请的堆内存观测JVM内存使用情况 ≥0 Byte 60s jvm_heap_size_bytes_used 已使用的堆内存观测JVM内存使用情况 ≥0 Byte 60s jvm_non_heap_size_bytes_committed 已申请的堆外内存 - ≥0 Byte 60s jvm_non_heap_size_bytes_used 已使用堆外内存 - ≥0 Byte 60s jvm_old_gc_coun 老年代GC次数观测是否出现长时间的FullGC ≥0 60s jvm_old_gc_time 老年代GC耗时观测是否出现长时间的FullGC ≥0 ms 60s jvm_old_size_bytes_used 老年代内存占用 - ≥0 Byte 60s jvm_old_size_bytes_peak_used 老年代内存占用峰值 - ≥0 Byte 60s jvm_old_size_bytes_max 老年代内存最大值 - ≥0 Byte 60s jvm_thread_new_count 线程数峰值观测JVM线程数是否合理 ≥0 60s jvm_thread_new_count new状态的线程数观测JVM线程数是否合理 ≥0 60s jvm_thread_runnable_count runnable状态的线程数观测JVM线程数是否合理 ≥0 60s jvm_thread_blocked_count blocked状态的线程数观测JVM线程数是否合理 ≥0 60s jvm_thread_waiting_count waiting状态的线程数观测JVM线程数是否合理 ≥0 60s jvm_thread_terminated_coun terminated状态的线程数观测JVM线程数是否合理 ≥0 60s jvm_young_gc_count 新生代GC次数累计值 ≥0 60s jvm_young_gc_time 新生代GC耗时累计值 ≥0 ms 60s jvm_young_size_bytes_used 新生代内存占用 - ≥0 Byte 60s jvm_young_size_bytes_peak_used 新生代内存占用峰值 - ≥0 Byte 60s jvm_young_size_bytes_max 新生代内存最大值 - ≥0 Byte 60s doris_fe_cache_added_partition 新增的Partition Cache数量累计值 ≥0 60s doris_fe_cache_added_sql 新增的SQL Cache数量累计值 ≥0 60s doris_fe_cache_hit_partition 命中Partition Cache数 - ≥0 60s doris_fe_cache_hit_sql 命中SQL Cache数 - ≥0 60s doris_fe_connection_total 当前FE的MySQL端口连接数用于监控查询连接数。如果连接数超限,则新的连接将无法接入 ≥0 60s doris_fe_counter_hit_sql_block_rule 被SQL BLOCK RULE拦截的查询数量 - ≥0 60s doris_fe_edit_log_clean_failed 清理历史元数据日志失败的次数不应失败,如失败,需人工介入 ≥0 60s doris_fe_edit_log_clean_success 清理历史元数据日志成功的次数 - ≥0 60s doris_fe_edit_log_read 元数据日志读取次数的计数通过斜率观察元数据读取频率是否正常 ≥0 60s doris_fe_edit_log_write 元数据日志写入次数的计数通过斜率观察元数据读取频率是否正常 ≥0 60s doris_fe_image_push_failed 将元数据镜像文件推送给其他FE节点的失败的次数 - ≥0 60s

表格存储服务 CLOUDTABLE Doris监控集群