华为云用户手册

  • 变更影响 在切换集群可用区前,您需要了解以下关键影响和操作建议,以便合理规划变更,最小化业务影响。 性能影响 切换可用区不会中断业务,但是数据迁移会消耗IO性能,且切换过程中单节点下线可能影响集群性能。 建议在业务低峰期提高数据迁移速率以缩短任务耗时,并在业务高峰期前降低迁移速率以减轻对集群性能的影响。数据迁移速率由“indices.recovery.max_bytes_per_sec”参数决定,该参数值默认是“CPU核数 x 32MB”(如4核CPU默认128MB)。该参数取值范围为40MB至1000MB,可根据业务需求调整。 PUT /_cluster/settings { "transient": { "indices.recovery.max_bytes_per_sec": "1000MB" } } 请求处理影响 节点替换过程中,发送到该节点的请求可能会失败。为了降低影响可以采用如下措施: 通过终端节点服务或独享型负载均衡器访问集群,确保请求自动路由到可用节点。 在客户端实现指数退避重试机制(建议配置3次重试)。 在业务低峰期进行规格变更。 变更过程特性 切换可用区任务一旦启动就无法中止,直到任务成功或失败才会结束。
  • 切换可用区时长 切换可用区的时长估算公式如下: 变更时长(分钟)= 15(分钟)x 待切换的节点个数 + 数据迁移时长(分钟) 其中:15分钟为初始化等非数据迁移操作的基准耗时,是经验值。 数据迁移时长(分钟)= 待切换节点的数据总量(MB)÷ [ 数据节点的CPU核数 x 32(MB/s)x 60(秒)] 其中: 32MB/s表示每个CPU核每秒可处理32MB数据,是经验值。 以上公式为理想状态下的理论估算值,实际迁移速率受集群负载影响。
  • 查看切换任务 在切换可用区页面的“任务记录”列表,可以查看当前切换任务。 展开任务列表,单击“查看进度”查看详细的切换进度。 当“任务状态”为“失败”时,可以重试任务或者直接终止任务。 重试切换任务:在任务列表的操作列,单击“重试”,重新切换可用区。 终止切换任务:在任务列表的操作列,单击“终止”,结束切换可用区。 当任务终止后,如果原节点还未切换成功,可以通过替换OpenSearch集群指定节点尝试恢复节点。 当部分节点已完成可用区(AZ)切换时,集群的可用区分布状态已发生改变。此时如果终止切换任务,系统可能无法基于原始参数重新下发指令,请避免在此状态下终止任务。
  • 变更规格时长 变更节点规格的时长估算公式如下: 变更时长(分钟)= 10(分钟)x 节点总个数 + 数据恢复时长(分钟) 其中: 10分钟为初始化等非数据恢复操作的基准耗时,是经验值。 节点总个数是集群的数据节点、Master节点、Client节点和冷数据节点数量之和。 数据恢复时长(分钟)= 数据总量(MB)÷ [ 数据节点的CPU核数 x 32(MB/s)x 60(秒)] 其中: 32MB/s表示每个CPU核每秒可处理32MB数据,是经验值。 以上公式为理想状态下的理论估算值,实际恢复速率受集群负载影响。 变更节点存储类型的时长估算公式如下: 变更时长(分钟)= 15(分钟)x 节点总个数 + 数据迁移时长(分钟) 其中: 15分钟为初始化等非数据迁移操作的基准耗时,是经验值。 节点总个数是集群的数据节点、Master节点、Client节点和冷数据节点数量之和。 数据迁移时长(分钟)= 数据总量(MB)÷ [ 数据节点的CPU核数 x 32(MB/s)x 60(秒)] 其中: 32MB/s表示每个CPU核每秒可处理32MB数据,是经验值。 以上公式为理想状态下的理论估算值,实际迁移速率受集群负载影响。
  • 变更影响 在变更集群规格前,您需要了解以下关键影响和操作建议,以便合理规划变更,最小化业务影响。 性能影响(仅变更节点存储类型受影响) 变更节点存储类型不会中断业务,但是该过程的数据迁移会消耗IO性能,且变更过程中单节点下线可能影响集群性能。 建议在业务低峰期提高数据迁移速率以缩短任务耗时,并在业务高峰期前降低迁移速率以减轻对集群性能的影响。数据迁移速率由“indices.recovery.max_bytes_per_sec”参数决定,该参数值默认是“CPU核数 x 32MB”(如4核CPU默认128MB)。该参数取值范围为40MB至1000MB,可根据业务需求调整。 PUT /_cluster/settings { "transient": { "indices.recovery.max_bytes_per_sec": "1000MB" } } 请求处理影响 下线单个节点通常不会中断业务,但在节点下线过程中,发送到该节点的请求可能会失败。为了降低影响可以采用如下措施: 通过终端节点服务或独享型负载均衡器访问集群,确保请求自动路由到可用节点。 在客户端实现指数退避重试机制(建议配置3次重试)。 在业务低峰期进行规格变更。 索引副本影响 如果集群中的索引没有设置副本,节点下线期间该分片数据将不可用,相关业务可能会中断。建议在变更前为所有重要索引添加副本。 Kibana和Cerebro组件影响 变更节点存储类型时,系统会重建Kibana和Cerebro,在此期间服务将暂时不可用。变更节点规格时,如果Kibana和Cerebro运行于被下线的节点上会导致访问失败,此时刷新页面或重新登录,系统会自动重新调度到可用节点。 变更过程特性 规格变更任务一旦启动就无法中止,直到任务成功或失败才会结束。任务失败通常只影响单个节点,在有副本的情况下业务不受影响,但需要及时修复失败节点。 当需要紧急进行规格变更时,您也可以提交工单联系技术支持进行变更评估和检查。
  • 功能介绍 云搜索服务 的向量检索引擎集成了暴力检索、图索引(HNSW)、乘积量化、IVF-HNSW等多种向量索引,支持欧式、内积、余弦、汉明等多种相似度计算方式,召回率和检索性能均优于开源引擎。能够满足高性能、高精度、低成本、多模态等多种应用场景及需求。 向量检索支持原生OpenSearch的所有能力,包括分布式、多副本、错误恢复、快照、权限控制等;兼容所有原生OpenSearch生态,包括集群监测工具Cerebro,可视化工具Kibana,实时数据采集工具Logstash等;提供Python/Java/Go/C++等多种客户端语言支持。
  • 原理说明 向量检索从本质上讲,其思维框架和传统的检索方法没有区别。为了提升向量检索的性能,通常需要解决以下两个问题: 减少候选向量集 和传统的文本检索类似,向量检索也需要某种索引结构来避免在全量的数据上做匹配,传统文本检索是通过倒排索引来过滤掉无关文档,而向量检索是通过对向量建立索引结构来绕过不相关的向量,减小需要考察的范围。 降低单个向量计算的复杂度 向量检索支持漏斗模型,先对所有向量进行量化和近似计算,筛选出一定量接近检索目标的数据集,然后基于筛选的数据集进行精细的计算和排序。本方法不需要对所有向量都进行复杂的计算,可以有效提高检索效率。 向量检索即在一个给定的向量数据集中,按照某种度量方式,检索出与查询向量相近的K个向量(K-Nearest Neighbor,KNN),但由于KNN计算量过大,通常只关注近似近邻(Approximate Nearest Neighbor,ANN)问题。
  • 节点监控指标列表 表2 云搜索 服务节点支持的监控指标 指标ID 指标名称 指标含义 取值范围 单位 进制 测量对象(维度) 监控周期(原始指标) jvm_heap_usage JVM堆使用率 节点JVM堆内存使用率。 0~100 % 不涉及 CSS 集群-云服务节点 1分钟 cpu_usage CPU利用率 CPU利用率。 0~100 % 不涉及 CS S集群-云服务节点 1分钟 disk_util 最大磁盘使用率 节点的磁盘使用率。 0~100 % 不涉及 CSS集群-云服务节点 1分钟 load_average 节点Load值 操作系统中1分钟平均排队任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 open_file_descriptors 已打开的文件描述符数 节点已打开的文件描述符数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 max_file_descriptors 最大允许的文件描述符数 最大允许的文件描述符数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_write_queue Write队列中总排队任务数 写入线程池中的排队任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_search_queue Search队列中总排队任务数 搜索线程池中的排队任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_force_merge_queue ForceMerge队列中总排队任务数 强制合并线程池中的排队任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_write_rejected Write队列中总的已拒绝任务数 写入线程池中的已拒绝任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_search_rejected Search队列中总的已拒绝任务数 搜索线程池中的已拒绝任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_force_merge_rejected ForceMerge队列中总的已拒绝任务数 强制合并线程池中的已拒绝任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_write_threads Write线程池总大小 写入线程池的大小。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_search_threads Search线程池总大小 搜索线程池的大小。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_force_merge_threads ForceMerge线程池总大小 强制合并线程池的大小。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_flush_queue Flush队列中总排队任务数 Flush线程池中的排队任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_flush_rejected Flush队列中总的已拒绝任务数 Flush线程池中的已拒绝任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_flush_threads Flush线程池总大小 Flush线程池的大小。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_generic_queue Generic队列中总排队任务数 Generic线程池中的排队任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_generic_rejected Generic队列中总的已拒绝任务数 Generic线程池中的已拒绝任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_generic_threads Generic线程池总大小 Generic线程池的大小。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_management_queue Management队列中总排队任务数 Management线程池中的排队任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_management_rejected Management队列中总的已拒绝任务数 Management线程池中的已拒绝任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_management_threads Management线程池总大小 Management线程池的大小。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_refresh_queue Refresh队列中总排队任务数 Refresh线程池中的排队任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_refresh_rejected Refresh队列中总的已拒绝任务数 Refresh线程池中的已拒绝任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_refresh_threads Refresh线程池总大小 Refresh线程池的大小。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_obs_searcher_queue OBS Searcher队列中总排队任务数 OBS Searcher线程池中的排队任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_obs_searcher_rejected OBS Searcher队列中总的已拒绝任务数 OBS Searcher线程池中的已拒绝任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_obs_searcher_threads OBS Searcher线程池总大小 OBS Searcher线程池的大小。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_obs_queue OBS队列中总排队任务数 OBS线程池中的排队任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_obs_rejected OBS队列中总的已拒绝任务数 OBS线程池中的已拒绝任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_obs_threads OBS线程池总大小 OBS线程池的大小。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_obs_upload_queue OBS Upload队列中总排队任务数 OBS Upload线程池中的排队任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_obs_upload_rejected OBS Upload队列中总的已拒绝任务数 OBS Upload线程池中的已拒绝任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_obs_upload_threads OBS Upload线程池总大小 OBS Upload线程池的大小。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_obs_download_queue OBS Download队列中总排队任务数 OBS Download线程池中的排队任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_obs_download_rejected OBS Download队列中总的已拒绝任务数 OBS Download线程池中的已拒绝任务数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 thread_pool_obs_download_threads OBS Download线程池总大小 OBS Download线程池的大小。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 free_fs_size 文件系统可用大小 CSS集群的文件系统可用大小。 ≥ 0 byte 1024 CSS集群-云服务节点 1分钟 total_fs_size 文件系统总大小 CSS集群的文件系统总大小。 ≥ 0 byte 1024 CSS集群-云服务节点 1分钟 jvm_old_gc_count JVM老年代总GC次数 “老年代”垃圾回收的运行次数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 jvm_old_gc_time JVM老年代总GC时间 执行“老年代”垃圾回收所花费的时间。 ≥ 0 ms 不涉及 CSS集群-云服务节点 1分钟 jvm_young_gc_count JVM年轻代总GC次数 “年轻代”垃圾回收的运行次数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 jvm_young_gc_time JVM年轻代GC时间 执行“年轻代”垃圾回收所花费的时间。 ≥ 0 ms 不涉及 CSS集群-云服务节点 1分钟 mem_free_in_bytes 可用内存空间 节点未使用的内存容量。 ≥ 0 byte 1024 CSS集群-云服务节点 1分钟 mem_free_percent 可用内存比例 节点未使用的内存比例。 0~100 % 不涉及 CSS集群-云服务节点 1分钟 mem_used_in_bytes 已用内存空间 节点已使用的内存容量。 ≥ 0 byte 1024 CSS集群-云服务节点 1分钟 current_opened_http_count 当前已打开HTTP连接数 节点当前打开的HTTP连接数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 total_opened_http_count 全部打开的HTTP连接数 节点全部打开的HTTP连接数。 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 disk_read_requests_rate 磁盘读IOPS CSS集群节点的磁盘每秒读取数据的请求总次数。 ≥ 0 request/s 不涉及 CSS集群-云服务节点 1分钟 disk_write_requests_rate 磁盘写IOPS CSS集群节点的磁盘每秒写数据的请求总次数。 ≥ 0 request/s 不涉及 CSS集群-云服务节点 1分钟 disk_read_bytes_rate 磁盘读带宽 CSS集群节点的磁盘每秒读出数据量。 ≥ 0 Byte/s 1024 CSS集群-云服务节点 1分钟 disk_write_bytes_rate 磁盘写带宽 CSS集群节点的磁盘每秒写入数据量。 ≥ 0 Byte/s 1024 CSS集群-云服务节点 1分钟 shards_count 分片数量 CSS集群节点的分片数量 ≥ 0 Count 不涉及 CSS集群-云服务节点 1分钟 vector_index_off_heap_used_in_bytes 向量索引堆外内存使用量 CSS集群节点向量索引查询加载的堆外内存使用量。 ≥ 0 byte 1024 CSS集群-云服务节点 1分钟 vector_index_off_heap_usage 向量索引堆外内存使用率 CSS集群节点向量索引查询加载的堆外内存使用率。 0~100 % 不涉及 CSS集群-云服务节点 1分钟
  • 集群监控指标列表 累计值:从节点启动时开始叠加数值,当节点重启后清零重新累计。 表1 云搜索服务支持的监控指标 指标ID 指标名称 指标含义 取值范围 单位 进制 测量对象(维度) 监控周期(原始指标) status 集群健康状态 该指标用于统计测量监控对象的状态。 0:集群是100%可用的。 1:数据是完整的,部分副本缺失。高可用性在某种程度上弱化,存在风险,请及时关注集群情况。 2:数据缺失,集群使用时将出现异常。 3:没有获取到集群状态。 0、1、2、3 不涉及 不涉及 CSS集群 1分钟 disk_util 最大磁盘使用率 CSS集群中各个节点的磁盘使用率的最大值。 0~100 % 不涉及 CSS集群 1分钟 max_jvm_heap_usage 最大JVM堆使用率 CSS集群中各个节点的JVM堆使用率的最大值。 0~100 % 不涉及 CSS集群 1分钟 max_jvm_young_gc_time 最大JVM Young GC耗时 CSS集群中各个节点的JVM Young GC耗时累计值的最大值。 ≥ 0 ms 不涉及 CSS集群 1分钟 max_jvm_young_gc_count 最大JVM Young GC次数 CSS集群中各个节点的JVM Young GC次数累计值的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 max_jvm_old_gc_time 最大JVM Old GC耗时 CSS集群中各个节点的JVM Old GC耗时累计值的最大值。 ≥ 0 ms 不涉及 CSS集群 1分钟 max_jvm_old_gc_count 最大JVM Old GC次数 CSS集群中各个节点的JVM Old GC次数累计值的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 total_fs_size 文件系统总大小 CSS集群的文件系统总大小。 ≥ 0 byte 1024 CSS集群 1分钟 free_fs_size 文件系统可用大小 CSS集群的文件系统可用大小。 ≥ 0 byte 1024 CSS集群 1分钟 max_cpu_usage 最大CPU利用率 CSS集群中各个节点的CPU利用率的最大值。 0~100 % 不涉及 CSS集群 1分钟 max_cpu_time_of_jvm_process 最大JVM进程使用的CPU时间 CSS集群中各个节点JVM进程使用CPU的时间累计值的最大值。 ≥ 0 ms 不涉及 CSS集群 1分钟 max_virtual_memory_size_of_jvm_process 最大JVM进程使用的虚拟内存大小 CSS集群中各个节点JVM进程可使用的虚拟内存大小的最大值。 ≥ 0 byte 1024 CSS集群 1分钟 max_current_opened_http_count 最大当前打开的HTTP连接数 CSS集群中各个节点打开且尚未关闭的HTTP连接数的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 max_total_opened_http_count 最大全部打开的HTTP连接数 CSS集群中各个节点打开过的HTTP连接数累计值的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 indices_count 索引数量 CSS集群的索引数量。 ≥ 0 Count 不涉及 CSS集群 1分钟 total_shards_count 分片数量 CSS集群的分片数量。 ≥ 0 Count 不涉及 CSS集群 1分钟 primary_shards_count 主分片数量 CSS集群的主分片数量。 ≥ 0 Count 不涉及 CSS集群 1分钟 docs_count 文档数量 CSS集群的文档数量。 ≥ 0 Count 不涉及 CSS集群 1分钟 docs_deleted_count 被删除的文档数量 CSS集群的被删除的文档数量。 ≥ 0 Count 不涉及 CSS集群 1分钟 nodes_count 节点数量 CSS集群的节点数量。 ≥ 0 Count 不涉及 CSS集群 1分钟 data_nodes_count 数据节点数量 CSS集群的数据节点数量。 ≥ 0 Count 不涉及 CSS集群 1分钟 coordinating_nodes_count 协调节点数量 CSS集群的协调节点数量。 ≥ 0 Count 不涉及 CSS集群 1分钟 master_nodes_count Master节点数量 CSS集群的Master节点数量。 ≥ 0 Count 不涉及 CSS集群 1分钟 ingest_nodes_count Client节点数量 CSS集群的Client节点数量。 ≥ 0 Count 不涉及 CSS集群 1分钟 max_load_average 最大节点Load值 CSS集群中各个节点在操作系统中1分钟平均排队任务数的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_cpu_usage 平均CPU使用率 CSS集群中各节点CPU利用率的平均值。 0~100 % 不涉及 CSS集群 1分钟 avg_load_average 平均节点Load值 CSS集群中各节点在操作系统中1分钟平均排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_jvm_heap_usage 平均JVM堆使用率 CSS集群中各节点JVM堆内存使用率的平均值。 0~100 % 不涉及 CSS集群 1分钟 max_open_file_descriptors 已打开的最大文件描述符数 CSS集群中各个节点已打开的文件描述符数的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_open_file_descriptors 已打开的平均文件描述符数 CSS集群中各节点已打开的文件描述符数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_max_file_descriptors 最大允许的文件描述符数 CSS集群中各节点最大允许的文件描述符数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_open_file_descriptors 已打开的文件描述符数 CSS集群中各节点已打开的文件描述符数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_write_queue Write队列中总排队任务数 写入线程池中的排队任务数。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_search_queue Search队列中总排队任务数 CSS集群中各节点在搜索线程池中的排队任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_force_merge_queue ForceMerge队列中总排队任务数 CSS集群中各节点在强制合并线程池中的排队任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_write_rejected Write队列中总的已拒绝任务数 CSS集群中各节点在写入线程池中的已拒绝任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_search_rejected Search队列中总的已拒绝任务数 CSS集群中各节点在搜索线程池中的已拒绝任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_force_merge_rejected Forcemerge队列中总的已拒绝任务数 CSS集群中各节点在强制合并线程池中的已拒绝任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 max_thread_pool_search_queue Search队列中最大排队任务数 CSS集群中各个节点在搜索线程池中的排队任务数的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 max_thread_pool_force_merge_queue ForceMerge队列中最大排队任务数 CSS集群中各个节点在强制合并线程池中的排队任务数的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_write_threads Write线程池总大小 CSS集群中各节点写入线程池的大小之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_search_threads Search线程池总大小 CSS集群中各节点搜索线程池的大小之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_force_merge_threads ForceMerge线程池总大小 CSS集群中各节点强制合并线程池的大小之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_write_queue Write队列中平均排队任务数 CSS集群中各节点在写入线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_search_queue Search队列中平均排队任务数 CSS集群中各节点在搜索线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_force_merge_queue ForceMerge队列中平均排队任务数 CSS集群中各节点在强制合并线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_search_threads Search线程池平均大小 CSS集群中各节点搜索线程池的大小的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_write_threads Write线程池平均大小 CSS集群中各节点写入线程池的大小的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_force_merge_threads ForceMerge线程池平均大小 CSS集群中各节点强制合并线程池的大小的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_write_rejected Write队列中平均已拒绝任务数 CSS集群中各节点写入线程池中的已拒绝任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_flush_queue Flush队列中总排队任务数 CSS集群中各个节点在Flush线程池中的排队任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_flush_rejected Flush队列中总的已拒绝任务数 CSS集群中各节点在Flush线程池中的已拒绝任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 max_thread_pool_flush_queue Flush队列中最大排队任务数 CSS集群中各个节点在Flush线程池中的排队任务数的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_flush_threads Flush线程池总大小 CSS集群中各节点Flush线程池的大小之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_flush_queue Flush队列中平均排队任务数 CSS集群中各节点在Flush线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_flush_threads Flush线程池平均大小 CSS集群中各节点在Flush线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_generic_queue Generic队列中总排队任务数 CSS集群中各个节点在Generic线程池中的排队任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_generic_rejected Generic队列中总的已拒绝任务数 CSS集群中各节点在Generic线程池中的已拒绝任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 max_thread_pool_generic_queue Generic队列中最大排队任务数 CSS集群中各个节点在Generic线程池中的排队任务数的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_generic_threads Generic线程池总大小 CSS集群中各节点Generic线程池的大小之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_generic_queue Generic队列中平均排队任务数 CSS集群中各节点在Generic线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_generic_threads Generic线程池平均大小 CSS集群中各节点在Generic线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_management_queue Management队列中总排队任务数 CSS集群中各个节点在Management线程池中的排队任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_management_rejected Management队列中总的已拒绝任务数 CSS集群中各节点在Management线程池中的已拒绝任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 max_thread_pool_management_queue Management队列中最大排队任务数 CSS集群中各个节点在Management线程池中的排队任务数的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_management_threads Management线程池总大小 CSS集群中各节点Management线程池的大小之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_management_queue Management队列中平均排队任务数 CSS集群中各节点在Management线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_management_threads Management线程池平均大小 CSS集群中各节点在Management线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_refresh_queue Refresh队列中总排队任务数 CSS集群中各个节点在Refresh线程池中的排队任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_refresh_rejected Refresh队列中总的已拒绝任务数 CSS集群中各节点在Refresh线程池中的已拒绝任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 max_thread_pool_refresh_queue Refresh队列中最大排队任务数 CSS集群中各个节点在Refresh线程池中的排队任务数的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_refresh_threads Refresh线程池总大小 CSS集群中各节点Refresh线程池的大小之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_refresh_queue Refresh队列中平均排队任务数 CSS集群中各节点在Refresh线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_refresh_threads Refresh线程池平均大小 CSS集群中各节点在Refresh线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_obs_searcher_queue OBS Searcher队列中总排队任务数 CSS集群中各个节点在OBS Searcher线程池中的排队任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_obs_searcher_rejected OBS Searcher队列中总的已拒绝任务数 CSS集群中各节点在OBS Searcher线程池中的已拒绝任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 max_thread_pool_obs_searcher_queue OBS Searcher队列中最大排队任务数 CSS集群中各个节点在OBS Searcher线程池中的排队任务数的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_obs_searcher_threads OBS Searcher线程池总大小 CSS集群中各节点OBS Searcher线程池的大小之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_obs_searcher_queue OBS Searcher队列中平均排队任务数 CSS集群中各节点在OBS Searcher线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_obs_searcher_threads OBS Searcher线程池平均大小 CSS集群中各节点在OBS Searcher线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_obs_queue OBS队列中总排队任务数 CSS集群中各个节点在OBS线程池中的排队任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_obs_rejected OBS队列中总的已拒绝任务数 CSS集群中各节点在OBS线程池中的已拒绝任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 max_thread_pool_obs_queue OBS队列中最大排队任务数 CSS集群中各个节点在OBS线程池中的排队任务数的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_obs_threads OBS线程池总大小 CSS集群中各节点OBS线程池的大小之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_obs_queue OBS队列中平均排队任务数 CSS集群中各节点在OBS线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_obs_threads OBS线程池平均大小 CSS集群中各节点在OBS线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_obs_upload_queue OBS Upload队列中总排队任务数 CSS集群中各个节点在OBS Upload线程池中的排队任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_obs_upload_rejected OBS Upload队列中总的已拒绝任务数 CSS集群中各节点在OBS Upload线程池中的已拒绝任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 max_thread_pool_obs_upload_queue OBS Upload队列中最大排队任务数 CSS集群中各个节点在OBS Upload线程池中的排队任务数的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_obs_upload_threads OBS Upload线程池总大小 CSS集群中各节点OBS Upload线程池的大小之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_obs_upload_queue OBS Upload队列中平均排队任务数 CSS集群中各节点在OBS Upload线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_obs_upload_threads OBS Upload线程池平均大小 CSS集群中各节点在OBS Upload线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_obs_download_queue OBS Download队列中总排队任务数 CSS集群中各个节点在OBS Download线程池中的排队任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_obs_download_rejected OBS Download队列中总的已拒绝任务数 CSS集群中各节点在OBS Download线程池中的已拒绝任务数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 max_thread_pool_obs_download_queue OBS Download队列中最大排队任务数 CSS集群中各个节点在OBS Download线程池中的排队任务数的最大值。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_thread_pool_obs_download_threads OBS Download线程池总大小 CSS集群中各节点OBS Download线程池的大小之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_obs_download_queue OBS Download队列中平均排队任务数 CSS集群中各节点在OBS Download线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_thread_pool_obs_download_threads OBS Download线程池平均大小 CSS集群中各节点在OBS Download线程池中的排队任务数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 min_free_fs_size 最小可用存储空间 CSS集群中各个节点可用存储空间的最小值。 ≥ 0 byte 1024 CSS集群 1分钟 avg_jvm_old_gc_count JVM老年代平均GC次数 CSS集群中各个节点“老年代”垃圾回收的运行次数的累计值的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_jvm_old_gc_time JVM老年代平均GC时间 CSS集群中各个节点执行“老年代”垃圾回收所花费的时间累计值的平均值。 ≥ 0 ms 不涉及 CSS集群 1分钟 avg_jvm_young_gc_count JVM年轻代平均GC次数 CSS集群中各个节点“年轻代”垃圾回收的运行次数的累计值的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_jvm_young_gc_time JVM年轻代平均GC时间 CSS集群中各个节点执行“年轻代”垃圾回收所花费的时间累计值的平均值。 ≥ 0 ms 不涉及 CSS集群 1分钟 avg_max_file_descriptors 最大允许的文件描述符数-平均值 CSS集群中各节点最大允许的文件描述符数的平均值。 ≥ 0 Count 不涉及 CSS集群 1分钟 avg_mem_free_in_bytes 平均可用内存空间 CSS集群中各节点未使用的内存容量的平均值。 ≥ 0 byte 1024 CSS集群 1分钟 avg_mem_free_percent 平均可用内存比例 CSS集群中各节点未使用的内存比例的平均值。 0~100 % 不涉及 CSS集群 1分钟 avg_mem_used_in_bytes 平均已用内存空间 CSS集群中各节点已使用的内存容量的平均值。 ≥ 0 byte 1024 CSS集群 1分钟 avg_mem_used_percent 平均已用内存比例 CSS集群中各节点已使用的内存比例的平均值。 0~100 % 不涉及 CSS集群 1分钟 max_mem_free_in_bytes 最大可用内存空间 CSS集群中各个节点未使用的内存容量的最大值。 ≥ 0 byte 1024 CSS集群 1分钟 max_mem_free_percent 最大可用内存比例 CSS集群中各个节点未使用的内存比例的最大值。 0~100 % 不涉及 CSS集群 1分钟 max_mem_used_in_bytes 最大已用内存空间 CSS集群中各个节点已使用的内存容量的最大值。 ≥ 0 byte 1024 CSS集群 1分钟 max_mem_used_percent 最大已用内存比例 CSS集群中各个节点已使用的内存比例的最大值。 0~100 % 不涉及 CSS集群 1分钟 sum_jvm_old_gc_count JVM老年代总GC次数 CSS集群中各个节点“老年代”垃圾回收的运行次数的累计值之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_jvm_old_gc_time JVM老年代总GC时间 CSS集群中各个节点执行“老年代”垃圾回收所花费的时间累计值之和。 ≥ 0 ms 不涉及 CSS集群 1分钟 sum_jvm_young_gc_count JVM年轻代总GC次数 CSS集群中各个节点“年轻代”垃圾回收的运行次数的累计值之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_jvm_young_gc_time JVM年轻代总GC时间 CSS集群中各个节点执行“年轻代”垃圾回收所花费的时间累计值之和。 ≥ 0 ms 不涉及 CSS集群 1分钟 sum_current_opened_http_count 当前已打开HTTP连接数 CSS集群中各个节点打开且尚未关闭的HTTP连接数之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_total_opened_http_count 历史已打开HTTP连接数 CSS集群中各个节点打开过的HTTP连接数累计值之和。 ≥ 0 Count 不涉及 CSS集群 1分钟 IndexingLatency 平均索引延迟 分片完成索引操作所需的平均时间。 ≥ 0 ms 不涉及 CSS集群 1分钟 IndexingRate 平均索引速率 入库TPS,集群每秒平均索引操作数。 ≥ 0 Count 不涉及 CSS集群 1分钟 SearchLatency 平均查询延迟 分片完成搜索操作所需的平均时间。 ≥ 0 ms 不涉及 CSS集群 1分钟 SearchRate 平均查询速率 查询QPS,集群每秒平均查询操作数。 ≥ 0 Count 不涉及 CSS集群 1分钟 task_max_running_time 最大Task运行时长 该指标为集群运行的所有查询、写入Task中,运行时长最长的task耗时。 ≥ 0 ms 不涉及 CSS集群 1分钟 number_of_pending_tasks Pending Task排队任务数 CSS集群中待Master处理的task的排队任务数。 ≥ 0 Count 不涉及 CSS集群 1分钟 sum_disk_read_requests_rate 磁盘读总IOPS CSS集群所有节点的磁盘每秒读取数据的请求总次数。 ≥ 0 request/s 不涉及 CSS集群 1分钟 sum_disk_write_requests_rate 磁盘写总IOPS CSS集群所有节点的磁盘每秒写数据的请求总次数。 ≥ 0 request/s 不涉及 CSS集群 1分钟 sum_disk_read_bytes_rate 磁盘读总带宽 CSS集群所有节点的磁盘每秒读出数据量。 ≥ 0 Byte/s 1024 CSS集群 1分钟 sum_disk_write_bytes_rate 磁盘写总带宽 CSS集群所有节点的磁盘每秒写入数据量。 ≥ 0 Byte/s 1024 CSS集群 1分钟 avg_vector_index_off_heap_used_in_bytes 平均向量索引堆外内存使用量 CSS集群各节点的向量索引查询加载的堆外内存使用量的平均值。 ≥ 0 byte 1024 CSS集群 1分钟 avg_vector_index_off_heap_usage 平均向量索引堆外内存使用率 CSS集群各节点的向量索引查询加载的堆外内存使用率的平均值。 只有触发向量索引的查询才会触发对应向量索引的查询加载的堆外内存使用率。 0~100 % 不涉及 CSS集群 1分钟 max_vector_index_off_heap_used_in_bytes 最大向量索引堆外内存使用量 CSS集群各节点的向量索引查询加载的堆外内存使用量的最大值。 ≥ 0 byte 1024 CSS集群 1分钟 max_vector_index_off_heap_usage 最大向量索引堆外内存使用率 CSS集群各节点的向量索引查询加载的堆外内存使用率的最大值。 只有触发向量索引的查询才会触发对应向量索引的查询加载的堆外内存使用率。 0~100 % 不涉及 CSS集群 1分钟 vector_index_circuit_breaker_status 向量索引熔断状态 向量索引的熔断状态。 0:未熔断。 1:熔断状态,请及时关注集群堆外内存使用率是否超阈值。 0、1 不涉及 不涉及 CSS集群 1分钟 request_count 请求总次数 CSS集群所有节点的请求总次数。 ≥ 0 Count 不涉及 CSS集群 1分钟 successfully_request_count 请求成功次数 CSS集群所有节点的请求成功次数。 判断依据:状态码为200 ≥ 0 Count 不涉及 CSS集群 1分钟 failed_request_count 请求失败次数 CSS集群所有节点的请求失败次数。 判断依据:状态码为非200 ≥ 0 Count 不涉及 CSS集群 1分钟 limited_request_count 请求限流次数 CSS集群所有节点的请求被限流次数。 判断依据:状态码为429 ≥ 0 Count 不涉及 CSS集群 1分钟 cold_data_storage 冷数据存储量 CSS集群冷数据存储总量,是集群的索引冷冻后存放到OBS的数据总量,每小时统计一次。该OBS是CSS服务的OBS桶,用户无法在OBS控制台查看。 ≥ 0 byte 1024 CSS集群 1分钟 number_of_index_creation_failures 索引创建失败次数 CSS集群中索引创建失败的次数。 ≥ 0 Count 不涉及 CSS集群 1分钟 shard_doc_exceed_threshold_count 文档数超过阈值的分片数量 CSS集群中文档数超过阈值的分片数量。 ≥ 0 Count 不涉及 CSS集群 1分钟 write_fail_alias_error 因别名异常导致的写入失败次数 在CSS集群中,因为索引别名异常而导致的写入失败的总次数。 Elasticsearch集群仅7.6.2和7.10.2版本支持该监控指标。 ≥ 0 Count 不涉及 CSS集群 1分钟 write_fail_documents_count_exceed 因文档数超限导致的写入失败次数 在CSS集群中,因为索引文档数超过限制而导致的写入失败的总次数。 Elasticsearch集群仅7.6.2和7.10.2版本支持该监控指标。 ≥ 0 Count 不涉及 CSS集群 1分钟 write_fail_fields_count_exceed 因字段数超限导致的写入失败次数 在CSS集群中,因为索引字段数超过限制而导致的写入失败的总次数。 Elasticsearch集群仅7.6.2和7.10.2版本支持该监控指标。 ≥ 0 Count 不涉及 CSS集群 1分钟 write_fail_shards_count_exceed 因集群分片总数超限导致的写入失败次数 在CSS集群中,因为集群分片总数超限而导致的写入失败的总次数。 Elasticsearch集群仅7.6.2和7.10.2版本支持该监控指标。 ≥ 0 Count 不涉及 CSS集群 1分钟 write_fail_index_blocks_write 因索引配置禁止写入导致的写入失败次数 在CSS集群中,因为索引配置禁止写入而导致的写入失败的总次数。 Elasticsearch集群仅7.6.2和7.10.2版本支持该监控指标。 ≥ 0 Count 不涉及 CSS集群 1分钟 write_fail_mapping_malformed 因字段类型不正确导致的写入失败次数 在CSS集群中,因为索引字段类型不正确导致的写入失败的总次数。 Elasticsearch集群仅7.6.2和7.10.2版本支持该监控指标。 ≥ 0 Count 不涉及 CSS集群 1分钟 remote_sync_task_count 主从同步作业数量 在CSS集群中,主从同步作业的个数。 Elasticsearch集群仅7.6.2和7.10.2版本支持该监控指标。 ≥ 0 Count 不涉及 CSS集群 1分钟 remote_sync_failed_task_count 主从同步失败作业数量 在CSS集群中,主从同步作业的失败个数。 Elasticsearch集群仅7.6.2和7.10.2版本支持该监控指标。 ≥ 0 Count 不涉及 CSS集群 1分钟 remote_sync_diff_bytes_of_primary_shards 主分片主从同步作业待同步数据量 在CSS集群中,所有主分片中主从同步作业待同步的数据量之和。 Elasticsearch集群仅7.6.2和7.10.2版本支持该监控指标。 ≥ 0 byte 1024 CSS集群 1分钟 remote_sync_finished_bytes_of_primary_shards 主分片主从同步作业已同步数据量 在CSS集群中,所有主分片中主从同步作业已同步的数据量之和。 Elasticsearch集群仅7.6.2和7.10.2版本支持该监控指标。 ≥ 0 byte 1024 CSS集群 1分钟 remote_sync_diff_docs_of_primary_shards 主分片主从同步作业待同步文档数 在CSS集群中,所有主分片中主从同步作业待同步的文档个数之和。 Elasticsearch集群仅7.6.2和7.10.2版本支持该监控指标。 ≥ 0 Count 不涉及 CSS集群 1分钟 remote_sync_diff_bytes 主从同步作业待同步数据量 在CSS集群中,所有分片中主从同步作业待同步的数据量之和。 Elasticsearch集群仅7.6.2和7.10.2版本支持该监控指标。 ≥ 0 byte 1024 CSS集群 1分钟 remote_sync_finished_bytes 主从同步作业已同步数据量 在CSS集群中,所有分片中主从同步作业已同步的数据量之和。 Elasticsearch集群仅7.6.2和7.10.2版本支持该监控指标。 ≥ 0 byte 1024 CSS集群 1分钟 remote_sync_diff_docs 主从同步作业待同步文档数 在CSS集群中,所有分片中主从同步作业待同步的文档个数之和。 Elasticsearch集群仅7.6.2和7.10.2版本支持该监控指标。 ≥ 0 Count 不涉及 CSS集群 1分钟 index_storage 索引数据量 在CSS集群中,所有索引的数据量之和。 ≥ 0 byte 1024 CSS集群 1分钟 backup_failed_task_count 备份失败任务个数 在CSS集群中,快照备份任务的失败个数。 ≥ 0 Count 不涉及 CSS集群 1分钟 ism_fail_count 索引生命周期失败任务数 在CSS集群中,索引生命周期失败的任务数。 Elasticsearch集群仅7.10.2版本支持该监控指标。 ≥ 0 Count 不涉及 CSS集群 1分钟 disk_total 磁盘总量 在CSS集群中,所有节点数据盘大小之和。 ≥ 0 byte 1024 CSS集群 1分钟 number_of_unassigned_shards 未分配的分片数量 在CSS集群中,未分配的分片总数。 ≥ 0 Count 不涉及 CSS集群 1分钟
  • 约束限制 备份与恢复索引功能上线之前(即2018年3月10日之前)创建的集群,无法创建快照。 集群快照会导致CPU、磁盘IO上升等影响,建议在业务低峰期进行操作。 当集群处于“不可用”状态时,快照功能中除了恢复快照功能外,其他快照信息或功能只能查看,无法进行编辑。 备份与恢复过程中,支持集群扩容(如果是恢复至本集群,则本集群不支持扩容)、访问Kibana、查看监控、删除其他快照的操作。不支持重启此集群、删除此集群、删除正在创建或恢复的快照、再次创建或恢复快照的操作。当此集群正在进行创建快照或者恢复快照过程中,同时的自动创建快照任务将被取消。 CSS集群第一次快照是全量,后面再备份快照是在之前的快照基础上增量,CSS是增量快照逻辑,快照之间的文件会相互依赖。 在配置了存算分离的集群中,冻结且关闭的索引数据不支持备份。
  • SecuredHttpClientConfigCallback代码示例 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 import org.apache.http.client.CredentialsProvider; import org.apache.http.impl.nio.client.HttpAsyncClientBuilder; import org.apache.http.nio.conn.ssl.SSLIOSessionStrategy; import org.elasticsearch.client.RestClientBuilder; import org.elasticsearch.common.Nullable; import java.util.Objects; class SecuredHttpClientConfigCallback implements RestClientBuilder.HttpClientConfigCallback { @Nullable private final CredentialsProvider credentialsProvider; /** * The {@link SSLIOSessionStrategy} for all requests to enable SSL / TLS encryption. */ private final SSLIOSessionStrategy sslStrategy; /** * Create a new {@link SecuredHttpClientConfigCallback}. * * @param credentialsProvider The credential provider, if a username/password have been supplied * @param sslStrategy The SSL strategy, if SSL / TLS have been supplied * @throws NullPointerException if {@code sslStrategy} is {@code null} */ SecuredHttpClientConfigCallback(final SSLIOSessionStrategy sslStrategy, @Nullable final CredentialsProvider credentialsProvider) { this.sslStrategy = Objects.requireNonNull(sslStrategy); this.credentialsProvider = credentialsProvider; } /** * Get the {@link CredentialsProvider} that will be added to the HTTP client. * * @return Can be {@code null}. */ @Nullable CredentialsProvider getCredentialsProvider() { return credentialsProvider; } /** * Get the {@link SSLIOSessionStrategy} that will be added to the HTTP client. * * @return Never {@code null}. */ SSLIOSessionStrategy getSSLStrategy() { return sslStrategy; } /** * Sets the {@linkplain HttpAsyncClientBuilder#setDefaultCredentialsProvider(CredentialsProvider) credential provider}, * * @param httpClientBuilder The client to configure. * @return Always {@code httpClientBuilder}. */ @Override public HttpAsyncClientBuilder customizeHttpClient(final HttpAsyncClientBuilder httpClientBuilder) { // enable SSL / TLS httpClientBuilder.setSSLStrategy(sslStrategy); // enable user authentication if (credentialsProvider != null) { httpClientBuilder.setDefaultCredentialsProvider(credentialsProvider); } return httpClientBuilder; } }
  • ESSecuredClientWithCerDemo代码示例 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 import org.apache.commons.io.IOUtils; import org.apache.http.auth.AuthScope; import org.apache.http.auth.UsernamePasswordCredentials; import org.apache.http.client.CredentialsProvider; import org.apache.http.impl.client.BasicCredentialsProvider; import org.apache.http.HttpHost; import org.apache.http.nio.conn.ssl.SSLIOSessionStrategy; import org.elasticsearch.action.search.SearchRequest; import org.elasticsearch.action.search.SearchResponse; import org.elasticsearch.client.RequestOptions; import org.elasticsearch.client.RestClient; import org.elasticsearch.client.RestClientBuilder; import org.elasticsearch.client.RestHighLevelClient; import org.elasticsearch.index.query.QueryBuilders; import org.elasticsearch.search.SearchHit; import org.elasticsearch.search.SearchHits; import org.elasticsearch.search.builder.SearchSourceBuilder; import java.io.FileInputStream; import java.io.IOException; import java.security.KeyStore; import java.security.SecureRandom; import javax.net.ssl.HostnameVerifier; import javax.net.ssl.KeyManagerFactory; import javax.net.ssl.SSLContext; import javax.net.ssl.SSLSession; import javax.net.ssl.TrustManagerFactory; public class ESSecuredClientWithCerDemo { private static final String KEY_STORE_PWD = ""; private static final String TRUST_KEY_STORE_PWD = ""; private static final String CA_JKS_PATH = "ca.jks"; private static final String CLIENT_JKS_PATH = "client.jks"; private static final String ELB_ADDRESS = "127.0.0.1"; private static final int ELB_PORT = 9200; private static final String CSS_USERNAME = "user"; private static final String CSS_PWD = ""; public static void main(String[] args) { // 建立客户端 RestHighLevelClient client = initESClient(ELB_ADDRESS, CSS_USERNAME, CSS_PWD); try { // 查询 match_all,相当于 {\"query\": {\"match_all\": {}}} SearchRequest searchRequest = new SearchRequest(); SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder(); searchSourceBuilder.query(QueryBuilders.matchAllQuery()); searchRequest.source(searchSourceBuilder); // query SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT); System.out.println("query result: " + searchResponse.toString()); SearchHits hits = searchResponse.getHits(); for (SearchHit hit : hits) { System.out.println(hit.getSourceAsString()); } System.out.println("query success"); Thread.sleep(2000L); } catch (InterruptedException | IOException e) { e.printStackTrace(); } finally { IOUtils.closeQuietly(client); } } private static RestHighLevelClient initESClient(String clusterAddress, String userName, String password) { final CredentialsProvider credentialsProvider = new BasicCredentialsProvider(); credentialsProvider.setCredentials(AuthScope.ANY, new UsernamePasswordCredentials(userName, password)); SSLContext ctx = null; try { KeyStore ks = getKeyStore(CLIENT_JKS_PATH, KEY_STORE_PWD, "JKS"); KeyManagerFactory kmf = KeyManagerFactory.getInstance("SunX509"); kmf.init(ks, KEY_STORE_PWD.toCharArray()); KeyStore tks = getKeyStore(CA_JKS_PATH, TRUST_KEY_STORE_PWD, "JKS"); TrustManagerFactory tmf = TrustManagerFactory.getInstance("SunX509"); tmf.init(tks); ctx = SSLContext.getInstance("SSL", "SunJSSE"); ctx.init(kmf.getKeyManagers(), tmf.getTrustManagers(), new SecureRandom()); } catch (Exception e) { e.printStackTrace(); } SSLIOSessionStrategy sessionStrategy = new SSLIOSessionStrategy(ctx, new HostnameVerifier() { @Override public boolean verify(String arg0, SSLSession arg1) { return true; } }); SecuredHttpClientConfigCallback httpClientConfigCallback = new SecuredHttpClientConfigCallback(sessionStrategy, credentialsProvider); RestClientBuilder builder = RestClient.builder(new HttpHost(clusterAddress, ELB_PORT, "https")) .setHttpClientConfigCallback(httpClientConfigCallback); RestHighLevelClient client = new RestHighLevelClient(builder); return client; } private static KeyStore getKeyStore(String path, String pwd, String type) { KeyStore keyStore = null; FileInputStream is = null; try { is = new FileInputStream(path); keyStore = KeyStore.getInstance(type); keyStore.load(is, pwd.toCharArray()); } catch (Exception e) { e.printStackTrace(); } finally { IOUtils.closeQuietly(is); } return keyStore; } }
  • 通过Curl命令接入集群 在云搜索服务管理控制台,单击左侧导航栏的“集群管理”。 在集群管理列表页面,单击需要访问的集群名称,进入集群基本信息页面。 在左侧菜单栏选择“负载均衡”,获取并记录负载均衡实例的“私有IP”、“IPv6地址”或“公网IP”,以及监听器配置的“前端协议/端口”。 如果ELB绑定了公网,则不推荐接入非安全模式的集群。非安全模式的集群使用HTTP通信且不需要安全认证即可访问,如果对接公网访问存在安全风险。 在ECS服务器中执行如下Curl命令测试能否通过独享型负载均衡实例接入集群。 表7 不同集群的接入命令 集群安全模式 ELB最终对外提供的服务形态 接入集群的Curl命令 非安全 无认证 curl http://IP:port 单向认证 curl --cacert ./ca.crt https://IP:port 双向认证 curl --cacert ./ca.crt --cert ./client.crt --key ./client.key https://IP:port 安全+HTTP 密码认证 curl http://IP:port -u user:pwd 单向认证+密码认证 curl --cacert ./ca.crt https://IP:port -u user:pwd 双向认证+密码认证 curl --cacert ./ca.crt --cert ./client.crt --key ./client.key https://IP:port -u user:pwd 安全+HTTPS 单向认证+密码认证 curl --cacert ./ca.crt https://IP:port -u user:pwd 双向认证+密码认证 curl --cacert ./ca.crt --cert ./client.crt --key ./client.key https://IP:port -u user:pwd 表8 变量说明 变量名 说明 IP 负载均衡实例的IP地址。 port 监听器配置的“前端协议/端口”。 user 集群的用户名,仅安全集群需要配置。 pwd 用户名对应的密码,仅安全集群需要配置。 当可以正常返回集群信息时,表示连接成功。
  • 集群对接负载均衡器 登录云搜索服务管理控制台。 在“集群管理”页面选择需要对接负载均衡器的集群,单击集群名称进入集群“基本信息”页面。 在左侧菜单栏,选择“负载均衡”,打开负载均衡开关,在弹窗中配置负载均衡基础信息。 表4 配置负载均衡 参数 说明 负载均衡器 选择前面创建的独享型负载均衡器。CSS集群属于托管资源,所选的负载均衡器必须开启“跨VPC后端”能力才能正常使用。 委托 选择 IAM 委托,当前账号授权CSS服务访问和使用ELB资源。 当首次配置委托时,可以单击“自动创建委托”新建委托“css_elb_agency”直接使用。 当已有自动创建的委托时,可以单击“委托一键授权”,自动删除委托中“ELB Administrator”系统角色或“ELB FullAccess”系统策略的权限,并自动新增如下自定义策略授权委托到最小化权限。 "elb:loadbalancers:list", "elb:loadbalancers:get", "elb:certificates:list", "elb:healthmonitors:*", "elb:members:*", "elb:pools:*", "elb:listeners:*" 执行“自动创建委托”和“委托一键授权”的用户需要如下最小权限。 "iam:agencies:listAgencies", "iam:roles:listRoles", "iam:agencies:getAgency", "iam:agencies:createAgency", "iam:permissions:listRolesForAgency", "iam:permissions:grantRoleToAgency", "iam:permissions:listRolesForAgencyOnProject", "iam:permissions:revokeRoleFromAgency", "iam:roles:createRole" 使用委托的用户需要如下最小权限。 "iam:agencies:listAgencies", "iam:agencies:getAgency", "iam:permissions:listRolesForAgencyOnProject", "iam:permissions:listRolesForAgency" 图1 开启负载均衡 单击“确定”,开启负载均衡。 在“监听器配置”区域,您可以单击右侧配置监听器的相关信息。 表5 配置监听器 参数 配置说明 前端协议 客户端与负载均衡监听器建立流量分发连接的协议。支持选择“HTTP”或“HTTPS”。 根据实际业务需要选择协议。 前端端口 客户端与负载均衡监听器建立流量分发连接的端口。 根据实际业务需要自定义。 SSL解析方式 客户端到服务器端认证方式。仅“前端协议”选择“HTTPS”才需要配置。 根据实际业务需要选择解析方式。 服务器证书 服务器证书用于SSL握手协商,需提供证书内容和私钥。仅“前端协议”选择“HTTPS”才需要配置服务器证书。 选择准备并上传自签名证书创建的服务器证书。 CA证书 CA证书又称客户端CA公钥证书,用于验证客户端证书的签发者。仅“SSL解析方式”选择“双向认证”时,才需要配置CA证书。 选择准备并上传自签名证书创建的CA证书。 在开启HTTPS双向认证功能时,只有当客户端能够出具指定CA签发的证书时,HTTPS连接才能成功。 图2 配置监听器 (可选)在监听器配置区域,单击“访问控制”后的“设置”跳转到负载均衡器的监听器列表,单击监听器访问控制列的“设置”,配置允许通过负载均衡实例访问集群的IP地址组,不设置的话默认允许所有的IP地址访问。 在健康检查区域,您可以查看各个节点IP的健康检查结果。 表6 健康检查结果状态说明 健康检查结果 说明 正常 节点IP连接正常。 异常 节点IP连接,不可用
  • 创建独享型负载均衡器 登录弹性负载均衡管理控制台。 参考创建独享型负载均衡器,创建独享型负载均衡器。CSS集群对接独享型负载均衡器所需要关注的参数如表3所示,其他参数请根据实际需要填写。 表3 独享型负载均衡器的配置说明 参数 配置说明 取值样例 实例类型 选择“独享型”。 独享型 计费模式 性能独享型负载均衡器的收费类型。 按需计费 区域 选择CSS集群所在的区域。 - 跨VPC后端 开启跨VPC后端才能连接CSS集群。 开启 网络类型 负载均衡器对外提供服务所使用的网络类型。 CSS服务支持“IPv4私网”和“IPv6网络”。 当选择“IPv6网络”时,CSS服务对接负载均衡器后,集群对接的负载均衡实例会显示“私有IP”和“IPv6地址”。只有当独享型负载均衡器绑定了“共享带宽”,才会显示“公网IP”。 当选择“IPv4私网”时,CSS服务对接负载均衡器后,集群对接的负载均衡实例会显示“私有IP”和“公网IP”。 说明: CSS服务仅“华东二”区域支持“IPv6网络”,其他区域只支持“IPv4私网”。 IPv4私网 所属VPC 所属虚拟私有云。无论选择哪种网络类型,均需配置此项。 需要选择和CSS集群同一VPC。 - 子网 选择创建负载均衡实例的子网。无论选择哪种网络类型,均需配置此项。 需要选择和CSS集群同一子网。 - 规格 建议选择功能和性能更优的应用型规格。 应用型(HTTP/HTTPS) “小型 I”
  • 约束限制 如果ELB绑定了公网,则不推荐接入非安全模式的集群。非安全模式的集群使用HTTP通信且不需要安全认证即可访问,如果对接公网访问存在安全风险。 开启了HTTPS访问的安全模式的集群不支持HTTP类型的前端协议认证,如果需要使用HTTP类型的前端协议,需要将集群的“安全模式”变更为“非安全模式”,具体操作请参见更改Elasticsearch集群安全模式。在变更安全模式前,请先关闭“负载均衡”,安全模式变更完成后再开启“负载均衡”。
  • 场景描述 使用独享型负载均衡器接入集群具有如下优点: 非安全模式集群也支持集成弹性负载均衡服务的能力。 支持用户使用自定义证书进行HTTPS双向认证。 支持7层流量监控及告警配置,方便用户随时查看监控情况。 不同安全模式的集群对接独享型负载均衡器共有8种不同的服务形态,不同服务形态对应的ELB能力如表1所示,8种组合的配置概览如表2所示。 表1 不同集群对应的ELB能力 集群安全模式 ELB最终对外提供的服务形态 ELB负载均衡 ELB流量监控 ELB双向认证 非安全 无认证 支持 支持 不支持 单向认证 双向认证 支持 支持 支持 安全+HTTP 密码认证 支持 支持 不支持 单向认证+密码认证 双向认证+密码认证 支持 支持 支持 安全+HTTPS 单向认证+密码认证 双向认证+密码认证 支持 支持 支持 表2 不同集群对接ELB的配置概览 集群安全模式 ELB最终对外提供的服务形态 ELB监听器 ELB监听器 ELB监听器 后端服务器组 后端服务器组 后端服务器组 前端协议 前端端口 SSL解析方式 后端协议 健康检查端口 健康检查路径 非安全 无认证 HTTP 9200 无认证 HTTP 9200 / 单向认证 HTTPS 9200 单向认证 HTTP 9200 双向认证 HTTPS 9200 双向认证 HTTP 9200 安全+HTTP 密码认证 HTTP 9200 无认证 HTTP 9200 /_opendistro/_security/health 单向认证+密码认证 HTTPS 9200 单向认证 HTTP 9200 双向认证+密码认证 HTTPS 9200 双向认证 HTTP 9200 安全+HTTPS 单向认证+密码认证 HTTPS 9200 单向认证 HTTPS 9200 双向认证+密码认证 HTTPS 9200 双向认证 HTTPS 9200 CSS集群对接独享型负载均衡的操作步骤如下: 如果规划ELB监听器的前端协议是HTTPS,则需要准备签名证书并上传至ELB管理控制台:准备并上传自签名证书 在ELB管理控制台创建独享型负载均衡器:创建独享型负载均衡器 集群开启负载均衡:集群对接负载均衡器 通过独享型负载均衡实例接入集群:通过Curl命令接入集群 本文还提供了通过独享型负载均衡实例接入集群的Java客户端代码示例:通过负载均衡器的HTTPS双向认证方式接入集群的代码示例(Java)
  • 变更影响 在缩容前,您需要了解以下关键影响和操作建议,以便合理规划变更,最小化业务影响。 性能影响 缩容过程会将待下线节点的分片数据迁移至剩余节点,此过程会消耗IO性能,建议在业务低峰期执行。 建议在业务低峰期提高数据迁移速率以缩短任务耗时,并在业务高峰期前降低迁移速率以减轻对集群性能的影响。数据迁移速率由“indices.recovery.max_bytes_per_sec”参数决定,该参数值默认是“CPU核数 x 32MB”(如4核CPU默认128MB)。该参数取值范围为40MB至1000MB,可根据业务需求调整。 PUT /_cluster/settings { "transient": { "indices.recovery.max_bytes_per_sec": "1000MB" } } 集群负载变化 缩容后,剩余节点需承载原下线节点的数据分片和业务请求,可能导致CPU、内存、磁盘I/O压力增大,影响查询/写入性能。如果分片分配不均,可能加剧热点节点问题。建议缩容前评估剩余节点的资源和分片容量是否足以支撑当前业务量。 变更过程特性 缩容任务一旦启动就无法中止,直到任务成功或失败才会结束。
  • 缩容时长 集群缩容的时长估算公式如下: 缩容时长(分钟)= 5(分钟)x 缩容的节点个数 + 数据迁移时长(分钟) 其中:5分钟为初始化等非数据迁移操作的基准耗时,是经验值。 数据迁移时长(分钟)= 待缩容节点的数据总量(MB)÷ [ 数据节点的CPU核数 x 32(MB/s)x 60(秒)] 其中: 32MB/s表示每个CPU核每秒可处理32MB数据,是经验值。 以上公式为理想状态下的理论估算值,实际迁移速率受集群负载影响。
  • 通过自建Cerebro访问集群 使用自建Cerebro访问集群时,需要确保自建Cerebro与集群的网络是互通的。 获取集群的访问地址。不同网络配置的访问地址获取方式请参见网络配置。 启动自建Cerebro,填写集群的访问地址对接CSS集群。 安全模式的集群填写:https://访问地址:9200 安全模式的集群要输入集群的用户名和密码才能登录。 非安全模式的集群填写:http://访问地址:9200
  • 场景描述 表1 集群内核监控介绍 集群内核监控增强 描述 支持的集群版本 相关文档 P99时延监控 开源Elasticsearch在监控search请求时仅提供了平均延迟指标,这不足以准确反映集群的实际搜索性能。为了改进这一点,CSS服务新增了P99延迟监控特性,能够有效地监控集群search请求的第99百分位延迟。 Elasticsearch 7.6.2、Elasticsearch 7.10.2、 监控P99时延 HTTP状态码 通过HTTP对Elasticsearch的访问会收到响应和相应的状态码,但开源的Elasticsearch原生不支持对这些状态码进行统计,导致无法精确掌握接口调用的具体状况,用户也无法通过监控了解集群的整个请求情况。为了改进这一点,CSS服务新增了HTTP状态码监控功能,能够获取HTTP状态码统计信息。 Elasticsearch 7.6.2、Elasticsearch 7.10.2、 监控HTTP状态码
  • 监控HTTP状态码 根据集群版本选择监控HTTP状态码的命令。 Elasticsearch 7.6.2集群执行如下命令,获取HTTP状态码统计。 GET /_nodes/http_stats 返回样例: { "_nodes" : { "total" : 1, "successful" : 1, "failed" : 0 }, "cluster_name" : "css-8362", "nodes" : { "F9IFdQPARaOJI7oL7HOXtQ" : { "http_code" : { "200" : 114, "201" : 5, "429" : 0, "400" : 7, "404" : 0, "405" : 0 } } } } Elasticsearch 7.10.2集群执行如下命令,获取HTTP状态码统计。 GET _nodes/stats/http 返回样例: { ...... "cluster_name" : "css-2985", "nodes" : { ...... "omvR9_W-TsGApraMApREjA" : { ...... "http" : { "current_open" : 4, "total_opened" : 37, "http_code" : { "200" : 25, "201" : 7, "429" : 0, "400" : 3, "404" : 0, "405" : 0 } } } } }
  • 监控P99时延 执行以下命令,获取当前集群的P99时延。 GET /search/stats/percentile 返回示例如下: { "overall" : { "1.0" : 2.0, "5.0" : 2.0, "25.0" : 6.5, "50.0" : 19.5, "75.0" : 111.0, "95.0" : 169.0, "99.0" : 169.0, "max" : 169.0, "min" : 2.0 }, "last_one_day" : { "1.0" : 2.0, "5.0" : 2.0, "25.0" : 6.5, "50.0" : 19.5, "75.0" : 111.0, "95.0" : 169.0, "99.0" : 169.0, "max" : 169.0, "min" : 2.0 }, "latest" : { "1.0" : 26.0, "5.0" : 26.0, "25.0" : 26.0, "50.0" : 26.0, "75.0" : 26.0, "95.0" : 26.0, "99.0" : 26.0, "max" : 26.0, "min" : 26.0 } } 表2 返回参数说明 参数 说明 overall 表示集群从启动到当前时间的统计数值。 last_one_day 表示最近一天的统计数值。 latest 表示从上次重置到当前时间的统计数值。 P99时延的计算是近似值,不提供精确值,越靠近两端的统计值越准确,即99%的时延比50%的时延更准确。 当重启集群时,P99时延的数据将被清空,会从集群重启成功后重新计算。 监控集群P99时延的命令还可以设置其他配置项。 可以自定义监控的百分百数值。 例如执行如下命令,显示1%、50%和90%的时延数据。 GET /search/stats/percentile { "percents": [1, 50, 90] } 支持手动重置latest统计值。 执行以下命令,重置latest统计值。 POST /search/stats/reset 如下所示,返回“ok”,表示重置成功。 { "nodes" : { "css-c9c8-ess-esn-1-1" : "ok" } }
  • 集群列表介绍 集群列表会展示当前账号下同一集群类型的所有集群。当集群数量较多时,会翻页显示,支持查看任何状态下的集群。 集群列表默认按时间顺序排列,时间最近的集群显示在最前端。 在集群列表页单击“导出”可以下载全量的集群列表信息。 表1 集群列表说明 参数 描述 名称/ID 展示集群的名称和ID。单击集群名称可进入集群“基本信息”页面,展现了集群的基本信息。集群ID是系统自动生成的,是集群在服务中的唯一标识。 集群状态 展示集群的运行状态。 可用:正常运行的集群。 创建中:正在创建中的集群。 处理中:重启中、扩容中、备份中或恢复中的集群。 异常:创建失败或不可用的集群。 警告: 当集群处于“不可用”状态时,支持删除集群,也支持将集群正常状态时创建的快照恢复至其他集群。但是无法扩容集群、访问Kibana、创建快照或将快照恢复至此集群。建议不要执行导入数据的操作,避免数据丢失。您可以查看监控或重启集群处理异常,当依旧执行失败时,请及时联系技术支持。 任务状态 展示重启集群、扩容集群、缩容集群等任务的状态。 版本 展示集群版本号和镜像版本号。 例如版本是“7.10.2(7.10.2_x.x.x_x.x.x)”,则“7.10.2”是版本号,括号内的“7.10.2_x.x.x_x.x.x”是镜像版本号。 注意: 当集群的创建时间比较早时,数据库可能未记录其镜像信息,导致页面无法显示集群的镜像版本号。 当版本号下方显示“EOS”时,表示当前版本已经停止服务,集群存在较高风险,建议及时升级集群版本,操作指导请参见升级Elasticsearch集群版本。 创建时间 展示集群的创建时间。 企业项目 展示集群所归属的企业项目。 安全模式 展示集群是否启用安全模式,安全模式的集群需要通过安全认证才能访问。 内网访问地址 展示集群的内网访问地址和端口号,您可以使用此参数接入集群。集群有多个节点时,此处显示多个节点的内网访问地址和端口号。 终端节点服务地址 展示集群绑定的终端节点服务的IP地址或内网 域名 。 计费模式 展示集群的计费模式,是“按需计费”还是“包年/包月”。 关联集群 展示与当前集群存在关联的集群名称和ID。 关联集群作为当前集群的父集群存在,当前集群是其子集群。例如, KooSearch 服务依赖Elasticsearch向量数据库,此时KooSearch服务即为Elasticsearch集群的关联集群。 当集群存在关联关系时,对关联集群进行以下操作时,系统将同步对当前集群执行对应操作:删除集群、退订服务、续费操作及计费模式变更。 当集群存在关联关系时,当前集群禁止单独执行以下操作:更改集群安全模式、删除集群、退订、续费、变更计费模式。 通过单击关联集群的名称,可以直接跳转至其详情页面查看具体配置及运行信息。 操作 展示集群可执行的操作入口,包含监控信息、重启、删除等其他更多操作。当某一操作无法执行时,按钮将置灰。
  • 通过公网地址访问Kibana登录Elasticsearch集群 仅安全模式的集群支持通过Kibana公网访问地址访问Kibana。 在Kibana公网访问特性上线之前(即2020年6月前)创建的Elasticsearch安全集群,不支持开启Kibana公网访问。 Kibana公网访问配置的白名单依赖ELB的白名单能力。更新白名单后,白名单对新建的连接是实时生效的,但对于已存在的长连接,可能会出现去掉的白名单IP地址还能访问Kibana的场景,这是因为要等长连接断开后才生效,预计1分钟左右。 当关闭Kibana公网访问后再重新打开,Kibana的公网地址可能会发生变化,请谨慎操作。 登录云搜索服务管理控制台。 开启Elasticsearch集群的Kibana公网访问。支持在创建集群的时候就配置Kibana公网访问,或者在集群创建完之后再开启Kibana公网访问。 在创建集群时配置Kibana公网访问:操作指导请参见创建Elasticsearch集群(旧版)。 集群创建完之后再开启Kibana公网访问: 在集群管理页面,单击需要配置Kibana公网访问的集群名称,进入集群基本信息页面。 左侧菜单栏选择“Kibana公网访问”,在“Kibana公网访问”右侧单击开关,打开Kibana公网访问功能。 在开启Kibana公网访问页面,配置相关参数。如果集群已配置Kibana公网访问,此时也支持修改相关配置。 表2 配置Kibana公网访问 参数 说明 带宽 设置公网访问的带宽。 取值范围:1-100。 单位:Mbit/s。 访问控制开关 如果关闭访问控制开关,则允许任何IP通过公网IP访问集群Kibana。如果开启访问控制开关,则只允许白名单列表中的IP通过公网IP访问集群Kibana。 白名单 设置允许访问的IP地址或网段,中间用英文逗号隔开。仅当打开“访问控制开关”时才需要配置。 建议开启白名单。 说明: Kibana公网访问配置的白名单依赖ELB的白名单能力。更新白名单后,白名单对新建的连接是实时生效的,但对于已存在的长连接,可能会出现去掉的白名单IP地址还能访问Kibana的场景,这是因为要等长连接断开后才生效,预计1分钟左右。 配置完成后,单击“确定”。 待集群的Kibana公网访问开通以后,在Kibana公网访问页面获取“kibana公网访问地址”。 图1 获取Kibana公网访问地址 在浏览器中,输入“kibana公网访问地址”即可进入Kibana登录界面。 在登录页面输入用户名和密码,单击“Log In”进入Kibana操作界面。用户名默认为admin,密码为创建集群时设置的管理员密码。 登录成功后,可在Kibana界面进行相关操作访问Elasticsearch集群。
  • 更多功能:支持自定义Kibana Base Path公网地址 Elasticsearch 7.10.2版本的Kibana在开通Kibana公网访问后,支持自定义Kibana的Base Path。此时,用户既能使用系统默认的Base Path公网地址访问集群Kibana,也能使用自定义的Base Path公网地址访问集群Kibana。 仅适用于已开通Kibana公网访问的Elasticsearch 7.10.2版本(镜像版本号不低于7.10.2_24.3.3_x.x.x)的集群。 只有集群管理员admin账号在Global Tenant下才能配置自定义Base Path,配置的Base Path可用于全局的Kibana范围。 登录云搜索服务控制台。 在Elasticsearch集群管理列表,选择对应集群,单击操作列的“Kibana”。 使用管理员账号登录Kibana页面。 账户名:admin(默认管理员账户名) 密码:创建安全模式的集群时,设置的管理员密码。 登录成功后,在Kibana操作界面的左侧导航栏选择“Stack Management”。 在Stack Management页面左侧选择“Advanced Settings”。 在Settings页面,自定义Base Path Alias的参数值。该值必须以“/”开头,不能以“/”结尾,允许多层路径,但长度不能超过255字符。 图3 自定义Base Path 配置完成后,单击“Save changes”保存配置。大约10秒后,配置即可生效。 通过地址“Kibana公网访问地址+Base Path Alias”访问Kibana。 例如,Elasticsearch集群的“Kibana公网访问地址”是“https://xx.xx.xx.xx:5601”,配置的“Base Path Alias”是“/test”,则可以通过地址“https://100.93.4.30:5601/test”公网访问集群Kibana。
  • 通过控制台访问Kibana登录Elasticsearch集群 登录云搜索服务管理控制台。 在“集群管理”页面选择需要登录的集群,单击“操作”列中的“Kibana”进入Kibana登录界面。 非安全模式的集群:将直接进入Kibana操作界面。 安全模式的集群:需要在登录页面输入用户名和密码,单击“Log In”进入Kibana操作界面。用户名默认为admin,密码为创建集群时设置的管理员密码。 登录成功后,可在Kibana界面进行相关操作访问集群。
  • 通过内网地址访问Kibana登录Elasticsearch集群 同一VPC下的服务器才能通过Elasticsearch集群的内网访问地址访问Kibana。 登录云搜索服务管理控制台。 在集群管理页面,单击集群名称,进入集群基本信息页面。 在集群基本信息页面,获取集群的内网访问地址。 图2 获取内网地址 将集群的内网访问地址的端口号从“9200”改为“5601”,即为Kibana的内网地址。例如,集群的“内网访问IPv4地址”是“192.168.0.***:9200”,则Kibana的内网地址为“192.168.0.***:5601”。 在服务器中,输入Kibana的内网地址即可进入Kibana登录界面。 非安全模式的集群:将直接进入Kibana操作界面。 安全模式的集群:需要在登录页面输入用户名和密码,单击“Log In”进入Kibana操作界面。用户名默认为admin,密码为创建集群时设置的管理员密码。 登录成功后,可在Kibana界面进行相关操作访问Elasticsearch集群。
  • 替换指定节点时长 替换指定节点的时长估算公式如下: 变更时长(分钟)= 15(分钟)+ 数据迁移时长(分钟) 其中:15分钟为初始化等非数据迁移操作的基准耗时,是经验值。 数据迁移时长(分钟)= 数据总量(MB)÷ [ 数据节点的CPU核数 x 32(MB/s)x 60(秒)] 其中: 32MB/s表示每个CPU核每秒可处理32MB数据,是经验值。 以上公式为理想状态下的理论估算值,实际迁移速率受集群负载影响。
  • 变更影响 在替换指定节点前,您需要了解以下关键影响和操作建议,以便合理规划变更,最小化业务影响。 性能影响 替换指定节点不会中断业务,但是数据迁移会消耗IO性能,且替换过程中单节点下线可能影响集群性能。 建议在业务低峰期提高数据迁移速率以缩短任务耗时,并在业务高峰期前降低迁移速率以减轻对集群性能的影响。数据迁移速率由“indices.recovery.max_bytes_per_sec”参数决定,该参数值默认是“CPU核数 x 32MB”(如4核CPU默认128MB)。该参数取值范围为40MB至1000MB,可根据业务需求调整。 PUT /_cluster/settings { "transient": { "indices.recovery.max_bytes_per_sec": "1000MB" } } 请求处理影响 节点替换过程中,发送到该节点的请求可能会失败。为了降低影响可以采用如下措施: 通过终端节点服务或独享型负载均衡器访问集群,确保请求自动路由到可用节点。 在客户端实现指数退避重试机制(建议配置3次重试)。 在业务低峰期进行规格变更。 变更过程特性 替换指定节点任务一旦启动就无法中止,直到任务成功或失败才会结束。任务失败通常只影响单个节点,在有副本的情况下业务不受影响,但需要及时修复失败节点。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全