华为云用户手册

  • 首次使用NLP 如果您是首次使用NLP的用户,建议您学习并了解如下信息: 功能介绍 通过功能介绍章节的内容,了解NLP不同功能的具体介绍,主要包括 机器翻译 (Machine Translation,简称MT)功能。 入门使用 NLP以开放API的方式提供给用户,您可以参考《快速入门》学习并使用NLP服务。 使用方式 如果您是一个开发工程师,熟悉代码编写,想要直接调用NLP的API或SDK使用服务,您可以参考《API参考》或《SDK参考》获取详情。 由浅入深学习 您可以参考成长地图,由浅入深学习使用NLP。
  • 问题现象 VS Code连接开发环境时报错“Connection permission denied (publickey). Please make sure the key file is correctly selected and the file permission is correct. You can view the instance keypair information on ModelArts console.”
  • 解决方案 排查/home/ma-user权限,建议将该目录权限设置为755或750,权限不能过于宽松,以保证用户隔离和安全。修改方法如下。 chmod 755 /home/ma-user chmod 750 /home/ma-user 排查密钥是否是和实例绑定的一致。 停止实例,进入实例详情页。 更新密钥:单击“认证”旁边的编辑按钮,然后单击“立即创建”创建并选择新密钥。 重新使用VS Code连接实例,选择新创建的密钥。
  • 原因分析及处理方法 查看训练作业的“日志”,出现报错“MoxFileNotExistsException(resp, 'file or directory or bucket not found.')”。 原因:Moxing在进行文件复制时,未找到train_data_obs目录。 处理建议:修改train_data_obs目录为正确地址,重新启动训练作业。 另外在Moxing下载OBS对象过程中,不要删除相应OBS目录下的对象,否则Moxing在下载到被删除的对象时会下载失败。 查看训练作业的“日志”,出现报错“CUDA capability sm_80 is not compatible with the current PyTorch installation.The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70'”。 原因:训练作业使用的镜像CUDA版本只支持sm_37、sm_50、sm_60和sm_70的加速卡,不支持sm_80。 处理建议:使用自定义镜像创建训练作业,并安装高版本的cuda以及对应的PyTorch版本。 查看训练作业的“日志”,出现报错“ERROR:root:label_map.pbtxt cannot be found. It will take a long time to open every annotation files to generate a tmp label_map.pbtxt.”。 如果使用的是订阅的算法,建议先检查数据的标签是否有问题。 如果使用的是物体检测类算法,建议检查数据的label框是否为非矩形。 物体检测类算法仅支持矩形label框。 查看训练作业的“日志”,出现报错“RuntimeError: The server socket has failed to listen on any local network address. The server socket has failed to bind to [::]:29500 (errno: 98 - Address already in use). The server socket has failed to bind to 0.0.0.0:29500 (errno: 98 - Address already in use).”。 原因:训练作业的端口号有冲突。 处理建议:更改代码中的端口号,重启训练作业。 查看训练作业的“日志”,出现报错“WARNING: root: Retry=7, Wait=0.4, Times tamp=1697620658.6282516”。 原因:Moxing版本太低。 处理建议:联系技术支持将Moxing版本升级至2.1.6及以上版本。
  • 处理方法 按照报错提示,需要排查以下几个问题: 检查moxing.file.copy_parallel()的第一个参数中是否有文件,否则会出现报错:No files to copy 文件存在,请执行2。 文件不存在,请忽略该报错继续执行后续操作。 检查复制的OBS的路径是否与开发环境或训练作业在同一个区域。 进入ModelArts管理控制台,查看其所在区域。然后再进入OBS管理控制台,查看您使用的OBS桶所在的区域。查看是否在同一区域。 是,请执行3。 否,请在ModelArts同一区域的OBS中新建桶和文件夹,并将所需的数据上传至此OBS桶中。 检查OBS的路径是否正确,是否写为了“obs://xxx”。可使用如下方式判断OBS路径是否存在。 mox.file.exists('obs://bucket_name/sub_dir_0/sub_dir_1') 路径存在,请执行4。 路径不存在,请更换为一个可用的OBS路径。 检查使用的资源是否为CPU,CPU的“/cache”与代码目录共用10G,可能是空间不足导致,可在代码中使用如下命令查看磁盘大小。 os.system('df -hT') 磁盘空间满足,请执行5。 磁盘空间不足,请您使用GPU资源。 如果是在Notebook使用MoXing复制数据不成功,可以在Terminal界面中使用df -hT命令查看空间大小,排查是否因空间不足导致,可在创建Notebook时使用EVS挂载。
  • 支持的数据库类型 目前,DRS实时灾备支持的数据库类型,如下表所示。 表1 灾备方案 业务数据库 灾备数据库 相关文档 本地自建MySQL数据库 E CS 自建MySQL数据库 其他云上MySQL数据库 RDS for MySQL RDS for MySQL MySQL到MySQL单主灾备 MySQL到MySQL双主灾备 TaurusDB MySQL到TaurusDB单主灾备 DDM DDM DDM到DDM单主灾备 TaurusDB TaurusDB TaurusDB到TaurusDB单主灾备 TaurusDB到TaurusDB双主灾备
  • 实例监控指标 数据复制服务 性能监控指标,如表1所示。 表1 数据复制服务支持的监控指标 指标ID 指标名称 指标含义 取值范围 单位 进制 测量对象 监控周期(原始指标) cpu_util CPU使用率 该指标用于统计测量对象的CPU使用率,以比率为单位。 0-100 % 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 mem_util 内存使用率 该指标用于统计测量对象的内存使用率。 0-100 % 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 network_incoming_bytes_rate 网络输入吞吐量 该指标用于统计平均每秒从测量对象的所有网络适配器输入的流量。 ≥ 0 byte/s 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 network_outgoing_bytes_rate 网络输出吞吐量 该指标用于统计平均每秒从测量对象的所有网络适配器输出的流量。 ≥ 0 byte/s 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 disk_read_bytes_rate 磁盘读吞吐量 该指标用于统计每秒从磁盘读取的字节数。 ≥ 0 byte/s 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 disk_write_bytes_rate 磁盘写吞吐量 该指标用于统计每秒写入磁盘的字节数。 ≥ byte/s 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 disk_util 磁盘利用率 该指标用于统计测量对象的磁盘利用率。 0-100 % 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 extract_bytes_rate 读源库吞吐量 该指标用于统计每秒从源库读取表数据或者WAL的字节数。 ≥ 0 byte/s 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 extract_rows_rate 读源库频率 该指标用于统计每秒从源库读取表数据或者WAL的行数。 ≥ 0 row/s 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 extract_latency 源库WAL抽取延迟 该指标用于统计当前从源库抽取WAL的延迟。 ≥ 0 ms 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 apply_bytes_rate 写目标库吞吐量 该指标用于统计每秒向目标库写入数据的字节数。 ≥ 0 byte/s 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 apply_rows_rate 写目标库频率 该指标用于统计每秒向目标库写入数据的行数。 ≥ 0 row/s 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 apply_transactions_rate DML TPS 该指标用于统计每秒向目标库写入的DML事务数。 ≥ 0 transaction/s 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 apply_ddls_number或apply_ddls_rate 说明: apply_ddls_rate在2022年12月之后替换为apply_ddls_number。 DDL TPS 该指标用于统计向目标库写入的DDL事务总数。 ≥ 0 transaction 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 apply_latency 数据同步延迟 该指标用于统计当前数据向目标库回放延迟。 ≥ 0 ms 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 apply_average_execute_time 事务平均执行时间 该指标用于统计当前一个事务在目标库的平均执行时间(一个事务的RT=执行时间+提交时间)。 ≥ 0 ms 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 apply_average_commit_time 事务平均提交时间 该指标用于统计当前一个事务在目标库的平均提交时间(一个事务的RT=执行时间+提交时间)。 ≥ 0 ms 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 apply_current_state 同步状态 该指标用于表示当前内核数据的同步状态(10:异常,1:空闲,2:执行DML,3:执行DDL),不代表任务状态。 10:异常 1:空闲 2:执行DML 3:执行DDL 不涉及 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 apply_thread_workers 同步线程数量 该指标用于表示当前数据同步的工作线程数量。 ≥ 0 Counts 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟 apply_job_status 任务状态 该指标用于表示当前任务所处的状态(0:正常,1:异常,2:暂停)。 0:正常 1:异常 2:暂停 不涉及 不涉及 测量对象:弹性云服务器 监控实例类型:实时迁移、实时同步和实时灾备实例 1分钟
  • TEMPORARY | TEMP参数使用说明 LOCAL/VOLATILE临时表通过每个会话独立的以pg_temp开头的schema来保证只对当前会话可见,因此,不建议用户在日常操作中手动删除以pg_temp,pg_toast_temp开头的schema。 如果建表时不指定TEMPORARY/TEMP关键字,而指定表的schema为当前会话的pg_temp_开头的schema,则此表会被创建为临时表。 LOCAL临时表的所有相关元数据同普通表类似,都存储在系统表内,而VOLATILE临时表会将除schema外的相关表结构元数据直接存储在内存中。所以相对本地临时表而言,VOLATILE临时表有更多约束: 当前CN或DN重启之后,对应实例上的内存数据丢失,相关volatile临时表会失效。 VOLATILE临时表当前不支持ALTER/GRANT等修改表结构相关操作。 VOLATILE临时表和LOCAL临时表共用一种临时schema,所以在同一session中,VOLATILE临时表和LOCAL临时表不能存在同名表。 VOLATILE临时表信息不存储在系统表内,所以无法通过对系统表执行DML语句查询到VOLATILE相关元数据。 VOLATILE临时表仅支持普通的行存、列存表,不支持delta表、时序表、冷热表。 不支持基于VOLATILE临时表创建视图。 不支持创建临时表时指定tablespace(VOLATILE临时表默认tablespace均为pg_volatile)。 创建VOLATILE临时表时不支持指定约束:CHECK约束、UNIQUE约束、主键约束、触发器约束、EXCLUDE约束、PARTIAL CLUSTER约束。 GLOBAL临时表的所有相关元数据同普通表类似,都存储在系统表内。 GLOBAL临时表与LOCAL临时表不同的是,会话退出时元数据不会删除,但会话的数据会删除。不同会话的数据独立,但共享同一份GLOBAL临时表的元数据。 全局临时表的schema与普通表类似,不是以pg_temp开头的schema,但与LOCAL/VOLATILE临时表不同,所以可以与LOCAL/VOLATILE临时表同名。 全局临时表仅支持普通的行存、列存表,不支持delta表、时序表、冷热表。 不支持操作其他逻辑集群的全局临时表。
  • DISTRIBUTE BY参数使用说明 指定表如何在节点之间分布或者复制。 取值范围: REPLICATION:表的每一行存在所有数据节点(DN)中,即每个数据节点都有完整的表数据。 ROUNDROBIN:表的每一行被轮番地发送给各个DN,因此数据会被均匀地分布在各个DN中。(ROUNDROBIN仅8.1.2及以上版本支持) HASH (column_name ) :对指定的列进行Hash,通过映射,把数据分布到指定DN。 当指定DISTRIBUTE BY HASH (column_name)参数时,创建主键和唯一索引必须包含“ column_name”列。 当被参照表指定DISTRIBUTE BY HASH (column_name)参数时,参照表的外键必须包含“ column_name”列。 如果TO GROUP指定为复制表节点组(8.1.2及以上版本支持),DISTRIBUTE BY必须指定为REPLICATION。如果没有指定DISTRIBUTE BY,创建的表会自动设置为复制表。 单节点集群(单机部署)由于只有单DN,因此分布规则会被忽略,也不支持针对分布规则的修改。 默认值:由GUC参数default_distribution_mode控制。 当default_distribution_mode=roundrobin时,DISTRIBUTE BY的默认值按如下规则选取: 若建表时包含主键/唯一约束,则选取HASH分布,分布列为主键/唯一约束对应的列。 若建表时不包含主键/唯一约束,则选取ROUNDROBIN分布。 当default_distribution_mode=hash时,DISTRIBUTE BY的默认值按如下规则选取: 若建表时包含主键/唯一约束,则选取HASH分布,分布列为主键/唯一约束对应的列。 若建表时不包含主键/唯一约束,但存在数据类型支持作分布列的列,则选取HASH分布,分布列为第一个数据类型支持作分布列的列。 若建表时不包含主键/唯一约束,也不存在数据类型支持作分布列的列,选取ROUNDROBIN分布。 以下数据类型支持作为分布列: INTEGER TYPES:TINYINT,SMALLINT,INT,BIGINT,NUMERIC/DECIMAL CHARACTER TYPES:CHAR,BPCHAR,VARCHAR,VARCHAR2,NVARCHAR2,TEXT DATE/TIME TYPES:DATE,TIME,TIMETZ,TIMESTAMP,TIMESTAMPTZ,INTERVAL,SMALLDATETIME 在建表时,选择分布列和分区键可对SQL查询性能产生重大影响。因此,需要根据一定策略选择合适的分布列和分区键。 选择合适的分布列 对于采用散列(Hash)方式的数据分布表,一个合适的分布列应将一个表内的数据,均匀分散存储在多个DN内,避免出现数据倾斜现象(即多个DN内数据分布不均)。请按照如下原则判定合适的分布列: 判断是否已发生数据倾斜现象。 连接数据库,执行如下语句,查看各DN内元组数目。命令中的斜体部分tablename,请填入待分析的表名。 SELECT a.count,b.node_name FROM (SELECT count(*) AS count,xc_node_id FROM tablename GROUP BY xc_node_id) a, pgxc_node b WHERE a.xc_node_id=b.node_id ORDER BY a.count DESC; 如果各DN内元组数目相差较大(如相差数倍、数十倍),则表明已发生数据倾斜现象,请按照下面原则调整分布列。 重新选择分布列,可通过ALTER TABLE语句调整分布列,选择原则如下: 分布列的列值应比较离散,以便数据能够均匀分布到各个DN。例如,考虑选择表的主键为分布列,如在人员信息表中选择身份证号码为分布列。 在满足上面原则的情况下,考虑选择查询中的连接条件为分布列,以便Join任务能够下推到DN中执行,且减少DN之间的通信数据量。 如果找不到一个合适的分布列,使数据能够均匀分布到各个DN,那么可以考虑使用REPLICATION或ROUNDROBIN的数据分布方式。由于REPLICATION的数据分布方式会在每个DN中存放完整的数据,因此在表较大且找不到合适的分布列时,推荐使用ROUNDROBIN的数据分布方式。(ROUNDROBIN分布方式8.1.2及以上版本支持) 选择合适的分区键 数据分区功能,可根据表的一列或者多列,将要插入表的记录分为若干个范围(这些范围在不同的分区里没有重叠)。然后为每个范围创建一个分区,用来存储相应的数据。 调整分区键,使每次查询结果尽可能存储在相同或者最少的分区内(称为“分区剪枝”),通过获取连续I/O大幅度提升查询性能。 实际业务中,经常将时间作为查询对象的过滤条件,因此,可考虑选择时间列为分区键,键值范围可根据总数据量、一次查询数据量调整。
  • LIKE参数使用说明 新表与源表之间在创建动作完毕之后是完全无关的。在源表做的任何修改都不会传播到新表中,并且也不可能在扫描源表的时候包含新表的数据。 被复制的列和约束并不使用相同的名字进行融合。如果明确的指定了相同的名字或者在另外一个LIKE子句中,将会报错。 源表上的字段缺省表达式或者ON UPDATE表达式只有在指定INCLUDING DEFAULTS时,才会复制到新表中。缺省是不包含缺省表达式的,即新表中的所有字段的缺省值都是NULL。 源表上的CHECK约束仅在指定INCLUDING CONSTRAINTS时,会复制到新表中,而其他类型的约束永远不会复制到新表中。非空约束总是复制到新表中。此规则同时适用于表约束和列约束。 如果指定了INCLUDING INDEXES,则源表上的索引也将在新表上创建,默认不建立索引。 如果指定了INCLUDING STORAGE,则复制列的STORAGE设置会复制到新表中,默认情况下不包含STORAGE设置。 如果指定了INCLUDING COMMENTS,则源表列、约束和索引的注释会复制到新表中。默认情况下,不复制源表的注释。 如果指定了INCLUDING PARTITION,则源表的分区定义会复制到新表中,同时新表将不能再使用PARTITION BY子句。默认情况下,不拷贝源表的分区定义。 如果指定了INCLUDING RELOPTIONS,则源表的存储参数(即源表的WITH子句)会复制到新表中。默认情况下,不复制源表的存储参数。 WITH中的'PERIOD','TTL'为partition相关参数,LIKE INCLUDING RELOPTIONS不会复制到新表中,若要复制需INCLUDING PARTITION。 如果指定了INCLUDING DISTRIBUTION,则源表的分布信息会复制到新表中,包括分布类型和分布列,同时新表将不能再使用DISTRIBUTE BY子句。默认情况下,不拷贝源表的分布信息。 如果指定了INCLUDING DROPCOLUMNS,则源表被删除的列信息会被复制到新表中。默认情况下,不复制源表的删除列信息。 INCLUDING ALL包含了INCLUDING DEFAULTS、INCLUDING CONSTRAINTS、INCLUDING INDEXES、INCLUDING STORAGE、INCLUDING COMMENTS、INCLUDING PARTITION、INCLUDING RELOPTIONS、INCLUDING DISTRIBUTION和INCLUDING DROPCOLUMNS的内容。 如果指定了EXCLUDING,则表示不包括指定的参数。 如果是OBS冷热表,INCLUDING PARTITION后新表所有分区均为本地热分区。 如果源表包含serial、bigserial、smallserial类型,或者源表字段的默认值是sequence,且sequence属于源表(通过CREATE SEQUENCE ... OWNED BY创建),这些Sequence不会关联到新表中,新表中会重新创建属于自己的sequence。这和之前版本的处理逻辑不同。如果用户希望源表和新表共享Sequence,需要首先创建一个共享的Sequence(避免使用OWNED BY),并配置为源表字段默认值,这样创建的新表会和源表共享该Sequence。 不建议将其他表私有的Sequence配置为源表字段的默认值,尤其是其他表只分布在特定的NodeGroup上,这可能导致CREATE TABLE ... LIKE执行失败。另外,如果源表配置其他表私有的Sequence,当该表删除时Sequence也会连带删除,这样源表的Sequence将不可用。如果用户希望多个表共享Sequence,建议创建共享的Sequence。
  • 语法格式 1 2 3 4 5 6 7 8 9 10 11 12 CREATE [ [ GLOBAL | LOCAL | VOLATILE ] { TEMPORARY | TEMP } | UN LOG GED ] TABLE [ IF NOT EXISTS ] table_name { ({ column_name data_type [ compress_mode ] [ COLLATE collation ] [ column_constraint [ ... ] ] | table_constraint | LIKE source_table [ like_option [...] ] } [, ... ])| LIKE source_table [ like_option [...] ] } [ WITH ( {storage_parameter = value} [, ... ] ) ] [ ON COMMIT { PRESERVE ROWS | DELETE ROWS } ] [ COMPRESS | NOCOMPRESS ] [ DISTRIBUTE BY { REPLICATION | ROUNDROBIN | { HASH ( column_name [,...] ) } } ] [ TO { GROUP groupname | NODE ( nodename [, ... ] ) } ] [ COMMENT [=] 'text' ]; 其中列约束column_constraint为: 1 2 3 4 5 6 7 8 9 10 11 [ CONSTRAINT constraint_name ] { NOT NULL | NULL | CHECK ( expression ) | DEFAULT default_expr | ON UPDATE on_update_expr | COMMENT 'text' | UNIQUE [ NULLS [NOT] DISTINCT | NULLS IGNORE ] index_parameters | PRIMARY KEY index_parameters | REFEREN CES reftable [ ( refcolumn ) ] } [ DEFERRABLE | NOT DEFERRABLE | INITIALLY DEFERRED | INITIALLY IMMEDIATE ] 其中列的压缩可选项compress_mode为: 1 { DELTA | PREFIX | DICTIONARY | NUMSTR | NOCOMPRESS } 其中表约束table_constraint为: 1 2 3 4 5 6 [ CONSTRAINT constraint_name ] { CHECK ( expression ) | UNIQUE [ NULLS [NOT] DISTINCT | NULLS IGNORE ] ( column_name [, ... ] ) index_parameters | PRIMARY KEY ( column_name [, ... ] ) index_parameters | PARTIAL CLUSTER KEY ( column_name [, ... ] ) } [ DEFERRABLE | NOT DEFERRABLE | INITIALLY DEFERRED | INITIALLY IMMEDIATE ] 其中like选项like_option为: 1 { INCLUDING | EXCLUDING } { DEFAULTS | CONSTRAINTS | INDEXES | STORAGE | COMMENTS | PARTITION | RELOPTIONS | DISTRIBUTION | DROPCOLUMNS | ALL } 其中索引参数index_parameters为: 1 [ WITH ( {storage_parameter = value} [, ... ] ) ]
  • 注意事项 列存表支持的数据类型请参考列存表支持的数据类型。 创建列存和HDFS分区表的数量建议不超过1000个。 表中的主键约束和唯一约束必须包含分布列。 不支持修改已有表的分布列数据类型。 行存REPLICATION分布表不支持将系统列设置为主键。 如果在建表过程中数据库系统发生故障,系统恢复后可能无法自动清除之前已创建的、大小为0的磁盘文件。此种情况出现概率小,不影响数据库系统的正常运行。 列存表支持PARTIAL CLUSTER KEY、主键和唯一表级约束,不支持外键表级约束。 列存表的字段约束只支持NULL、NOT NULL和DEFAULT常量值。 列存表支持delta表,受表级参数enable_delta控制是否开启,受参数deltarow_threshold控制进入delta表的阈值。不推荐使用列存带Delta表,否则会出现由于来不及merge而导致的磁盘膨胀以及性能劣化等问题。 冷热表仅支持列存分区表,依赖于可用的OBS服务。 冷热表仅支持默认表空间为default_obs_tbs,如需新增obs表空间可联系技术支持。 如需创建列存表,需显式设置orientation属性为column,存算分离版本如需创建本地表(数据全部存储在EVS盘),需显式指定colversion=2.0。 创建表后,不支持通过ALTER TABLE语法将非V3表切换为V3表(即colversion为2.0不支持切为3.0)。 V3表(即colversion=3.0,存算分离表,以下简称V3表)不支持设置delta表和列存二级分区。 V3表不支持设置为Hstore表、冷热表、时序表。 V3表不支持创建全局临时表和临时表,创建的临时表会自动转化为colversion=2.0的临时表。 不建议创建普通表时指定自定义TABLESPACE。 创建行存表时应避免指定COMPRESS压缩属性。 创建HASH分布的表对象时,要确保数据分布均匀(10G以上数据量的表,倾斜率控制在10%以内)。 创建REPLICATION分布的表对象,要确保表数据量控制在100万行以内。 创建HSTORE表时,必须确保数据库GUC参数设置满足以下条件: autovacuum设置为on。 autovacuum_max_workers_hstore取值大于0。 autovacuum_max_workers取值大于autovacuum_max_workers_hstore的取值。 针对存在时间字段的大表(数据量5000万行以上),必须设计成分区表,根据查询特征合理设计分区间隔。 针对有大批量数据增删改的表,索引个数建议控制在3个以内,最多不超过5个。 更多开发设计规范参见总体开发设计规范。
  • 标识符命名规范 数据库标识符是用来唯一标识数据库中对象(如表、列、索引等)的名称。在数据库中,标识符在SQL查询语句中经常被用来引用数据库对象,确保数据库操作的准确性和一致性。合理命名和使用标识符非常重要, GaussDB (DWS)标识符的命名需遵守如下规范: 标识符需要由字母(a-z)、下划线(_)、数字(0-9)或$组成。 标识符建议以字母(a-z)或下划线(_)开头。 标识符长度不超过63个字符。 标识符不能是保留的SQL关键字,非保留关键字请慎用。 数据库字符集为GBK、UTF8、SQL_ASCII时标识符支持中文汉字,其中UTF8、SQL_ASCII字符集下,一个中文汉字占3个字符,最多支持21个中文汉字;GBK字符集下,一个中文汉字占2个字符,最多支持31个中文汉字。Latin1字符集不支持中文汉字命名。字符集格式在创建数据库时指定,详情参见CREATE DATABASE。
  • 操作步骤 下载SDK和Demo源码 按照“SDK下载”章节,下载Electron SDK的ZIP包(如hwmsdk-electron-70.16.5.zip)。 解压ZIP包,得到如下文件及目录。 图1 SDK包目录结构 环境准备 1.Nodejs 2. 如确认Nodejs已经安装,请先配置npm镜像 安装依赖前先配置npm镜像,以提高安装速度,执行以下命令: npm config set registry http://registry.npm.taobao.org/ npm config set electron_mirror https://npm.taobao.org/mirrors/electron/ 1. 如果已经安装node,请先确定自己node版本是32位还是64位,可以执行cmd/shell命令查看node版本的位数,结果:x64为64位, ia32为32位。 $ node -p "process.arch" 2. 如果没有安装node,可到nodejs官网下载对应版本。 3. 如果上述镜像地址不能访问,则更换registry、electron_mirror地址,可正常使用Electron Demo,如下 registry=https://registry.npmmirror.com/ electron_mirror=https://npmmirror.com/mirrors/electron/ 4. 如果命令报错npm error `electron_mirror` is not a valid npm option,可在%HOMEDRIVE%%HOMEPATH%目录下.npmrc文件手动添加,如:registry=http://registry.npm.taobao.org/ electron_mirror=https://npm.taobao.org/mirrors/electron/ 申请App ID,并替换Demo中的App ID App ID申请步骤请参考“App ID鉴权介绍”。申请审批完成后将获得一个App ID。 将"hwmsdk-electron\packages\hwmsdk-electron-demo\src\demoConfig.js"中的DEFAULT_APPID替换为申请到的App ID。如下图所示: 图2 替换App ID 运行Electron Demo 1.运行hwmsdk-electron目录下编译Demo工程的bat或sh脚本。脚本会安装相应的环境,拷贝sdk库和HwmUisdk.node,将ts转为js,并触发编译,然后运行demo。 如果需要运行Windows 32位demo,node版本是32位,执行run_demo_win32.bat 如果需要运行Windows 64位demo,node版本是64位,执行run_demo_x64.bat 如果需要运行Mac demo,执行run_demo_mac.sh bat或sh脚本的作用: 编译ts接口,生成js和types文件。 将对应平台的的SDK文件拷贝到对应的目录下("sdk/win32"、"sdk/x64"、"sdk/mac")。 运行Demo。 图3 Electron Demo主界面 使用Electron Demo 点击“Init”初始化SDK。(ExePath只有64位Demo才需要填) 图4 初始化SDK ExePath是Windows SDK的HwmSdk所在的绝对路径,示例路径:“D:\path\to\hwmsdk-electron-demo-win-x64-100.5.5\hwmsdk-electron-x64\resources\sdk\x64\HwmSdk\HwmSdk.exe”。 图5 登录 图6 创建会议
  • 环境要求 在Electron Demo的编译运行过程中请满足如下环境要求。 表1 Windows环境要求 环境和工具名称 版本要求 说明 操作系统 Windows 10专业版 硬件要求: CPU:i5-2400四核 3.1GHz及以上 内存:4GB及以上 Python 3.x 可选,仅在需要重新编译addon插件时才需要 Microsoft Visual Studio Visual Studio 2017 可选,仅在需要重新编译addon插件时才需要 Node.js 16.20.0及以上,64位 NA Electron 13.6.7及以上 NA 测试资源及App ID申请 NA 请参见“开发前准备”。 Node.js和Electron的版本配套关系,请参考https://www.electronjs.org/zh/docs/latest/tutorial/electron-timelines 表2 Mac环境要求 环境和工具名称 版本要求 说明 操作系统 MacOS 10.15 NA XCode 12.0及以上 NA Node.js 16.20.0及以上 NA Electron 13.6.7至24.8.8 NA 测试资源及App ID申请 NA 请参见“开发前准备”。
  • 步骤一:创建云服务资源 创建2个VPC和2个子网。 具体方法请参见创建虚拟私有云和子网。 创建2个ECS。 具体方法请参见自定义购买ECS。 创建1个ER。 创建企业路由器,具体方法请参见创建企业路由器。 将2个VPC分别接入ER中,即在ER中添加VPC连接。 创建VPC连接时开启“配置连接侧路由”选项,则不用手动在VPC路由表中配置静态路由,VPC连接添加完成后即可实现两个VPC网络互通。 添加“虚拟私有云(VPC)”连接,具体方法请参见在企业路由器中添加VPC连接。 通过ER构建组网的网络规划和具体方法,请参见通过企业路由器实现同区域VPC互通。
  • 资源规划说明 本示例中, 虚拟私有云VPC 和子网、弹性 云服务器ECS 、企业路由器ER和VPC流日志等资源只要位于同一个区域内即可,可用区可以任意选择,无需保持一致。 以下资源规划详情仅为示例,您可以根据需要自行修改。 表1 资源规划总体说明 资源类型 资源数量 说明 虚拟私有云VPC和子网 VPC:2 子网:2 VPC名称:请根据实际情况设置,本示例为VPC-A和VPC-B。 IPv4网段:请根据实际情况设置,本示例VPC-A为192.168.0.0/16,VPC-B为172.16.0.0/16。 子网名称:请根据实际情况设置,本示例分别为Subnet-A01和Subnet-B01。 子网IPv4网段:请根据实际情况设置,本示例Subnet-A01为192.168.0.0/24,Subnet-B01为172.16.0.0/24。 路由表:创建VPC时系统会自动创建一个默认路由表,本示例中VPC-A的默认路由表为rtb-VPC-A,VPC-B的默认路由表为rtb-VPC-B。 弹性云服务器ECS 2 本示例中,共需要2个ECS,配置说明如下: 名称:根据实际情况设置,本示例分别为ECS-01、ECS-02。 实例规格类型:请根据实际情况设置,确保规格可以满足业务需求即可。 镜像:请根据实际情况设置,本示例为公共镜像Huawei Cloud EulerOS 2.0 标准版 64位。 系统盘:通用型SSD盘,40GB。 数据盘:本示例未选购数据盘,请您根据实际业务需求选购数据盘。 网络: 虚拟私有云:选择您的虚拟私有云,本示例ECS-01为VPC-A,ECS-02为VPC-B。 子网:选择子网,本示例ECS-01子网为Subnet-A01,ECS-02子网为Subnet-B01。 安全组:本示例中,2个ECS属于同一个安全组Sg-X,需要确保表2中的规则均已正确添加即可。 如果2个ECS属于不同的安全组,则除了分别在不同安全组配置表2中的规则外,还需要添加以下规则: 比如ECS-01属于Sg-X,ECS-02属于Sg-A,则需要在Sg-X和Sg-A中额外添加表3中的规则,允许ECS-01和ECS-02流量互通。 弹性公网IP:选择“暂不购买”。 私有IP地址:ECS-01为192.168.0.66,ECS-02为172.16.0.31。 企业路由器 1 名称:请根据实际情况填写,本示例为ER-X。 ASN:请根据网络规划填写,本示例企业路由器的AS号为64513。 默认路由表关联:开启 默认路由表传播:开启 自动接受共享连接:请根据实际情况选择,本示例选择“开启”。 连接,本示例需要在企业路由器中添加2个VPC连接: VPC-A连接:er-attach-vpc-A VPC-B连接:er-attach-vpc-B ER流日志 1 名称:请根据实际情况设置,本示例为flowlog-ER。 资源类型:本示例为虚拟私有云(VPC)。 选择资源:请根据实际情况选择,本示例选择VPC-A对应的连接er-attach-vpc-A。 日志组:请选择已有或者新创建日志组,以下为本示例详细设置。 日志组名称:请根据实际情况设置,本示例为lts-group-ER。 日志存储时间(天):请根据实际情况设置,本示例为30。 日志流:请选择已有或者新创建日志流,以下为本示例详细设置。 日志组名称:选择当前的日志组,本示例为lts-group-ER。 日志流名称:请根据实际情况设置,本示例为lts-topic-ER。 日志存储:建议开启,以便用于日志搜索分析。 日志存储时间(天):请根据实际情况设置,本示例为30。 表2 安全组Sg-X规则说明 方向 策略 类型 协议端口 源地址/目的地址 描述 入方向 允许 IPv4 TCP: 22 源地址:0.0.0.0/0 放通安全组内ECS的SSH(22)端口,用于远程登录Linux ECS。 入方向 允许 IPv4 TCP: 3389 源地址:0.0.0.0/0 放通安全组内ECS的RDP(3389)端口,用于远程登录Windows ECS。 入方向 允许 IPv4 全部 源地址:当前安全组Sg-X 针对IPv4,用于安全组内ECS之间网络互通。 入方向 允许 IPv6 全部 源地址:当前安全组Sg-X 针对IPv6,用于安全组内ECS之间网络互通。 出方向 允许 IPv4 全部 目的地址:0.0.0.0/0 针对IPv4,用于安全组内ECS访问外部,允许流量从安全组内ECS流出。 出方向 允许 IPv6 全部 目的地址:::/0 针对IPv6,用于安全组内ECS访问外部,允许流量从安全组内ECS流出。 本示例中,入方向源地址设置为0.0.0.0/0表示允许所有外部IP远程登录云服务器,如果将22或3389端口暴露到公网,可能存在网络安全风险,建议您将源IP设置为已知的IP地址,比如设置为您的本地PC地址。 表3 安全组Sg-X和Sg-A规则说明 安全组 方向 策略 类型 协议端口 源地址 描述 Sg-X 入方向 允许 IPv4 全部 安全组:Sg-A 针对IPv4,允许来自Sg-A内ECS的流量访问Sg-X内的ECS。 Sg-A 入方向 允许 IPv4 全部 安全组:Sg-X 针对IPv4,允许来自Sg-X内ECS的流量访问Sg-A内的ECS。
  • 对接OBS 在“spark/conf/spark-defaults.conf”中添加以下配置: # 对接OBS固定配置,Endpoint需要根据区域进行配置 spark.hadoop.fs.obs.impl=org.apache.hadoop.fs.obs.OBSFileSystem spark.hadoop.fs.AbstractFileSystem.obs.impl=org.apache.hadoop.fs.obs.OBS spark.hadoop.fs.obs.endpoint=obs.xxx.huawei.com # 指定访问OBS凭证获取类为LakeFormationObsCredentialProvider spark.hadoop.fs.obs.credentials.provider=com.huawei.cloud.dalf.lakecat.client.obs.LakeFormationObsCredentialProvider # 可选参数,关闭OBS文件系统缓存,长任务需要增加该配置,避免缓存中的临时AKSK失效 spark.hadoop.fs.obs.impl.disable.cache=true Endpoint:不同服务不同区域的Endpoint不同。您可以从地区和终端节点中获取。 将上述配置添加到core-site.xml文件中亦可生效,添加时需要去除“spark.hadoop”前缀。
  • 集成SQL鉴权插件 使用鉴权插件必须实现并指定自定义用户信息获取类,详细操作请参考自定义用户信息获取类。 在spark-default.conf配置文件中添加如下配置: com.huawei.cloud.dalf.lakecat.client.spark.v31.authorizer.LakeFormationSparkSQLExtension spark.sql.extensions=com.huawei.cloud.dalf.lakecat.client.spark.authorizer.LakeFormationSparkSQLExtension 集成权限插件后,如果当前用户(通过自定义用户信息获取类指定)无对应元数据权限,在执行SQL时将抛出异常。 当前用户如果拥有 IAM LakeFormation:policy:create权限,且当前用户(可通过自定义用户信息获取类指定)和认证信息(可通过自定义认证信息获取类指定)为统一用户,将跳过SQL鉴权。 当前,过滤相关功能暂未支持,包括库、表、行过滤,列掩码等。
  • 对接通用配置 在“spark/conf/spark-defaults.conf”中添加以下配置: # 项目ID,必选参数,此处配置值仅作为参考 spark.hadoop.lakeformation.project.id=项目ID # LakeFormation实例ID,可选参数,通过LakeFormation实例界面获取,如不填写则连接到默认实例,此处配置值仅作为参考 spark.hadoop.lakeformation.instance.id=LakeFormation实例ID #访问lakeformation IAM认证AK信息,可选参数,如果为自定义认证信息获取类可忽略 spark.hadoop.lakeformation.authentication.access.key=AK信息 #访问lakeformation IAM认证SK信息,可选参数,如果为自定义认证信息获取类可忽略 spark.hadoop.lakeformation.authentication.secret.key=SK信息 #访问lakeformation IAM认证信息securitytoken,可选参数,搭配临时AK/SK使用,如果使用永久AK/SK或自定义认证信息获取类可忽略 spark.hadoop.lakeformation.authentication.security.token=securitytoken信息 其中项目ID为必选配置,其他为可选配置,根据实际情况进行填写。 项目ID:可参考获取项目ID获取。 LakeFormation实例ID:可参考如何获取LakeFormation实例ID获取。 AK/SK信息可参考如何获取AK/SK获取。 securitytoken可参考通过token获取临时访问密钥和securitytoken获取。 将上述配置添加到hive-site.xml或core-site.xml中亦可生效,添加时需要去除“spark.hadoop”前缀。
  • MRS 集群创建限制 表1 MRS集群创建约束说明 限制项 说明 网络要求 MRS集群必须创建在VPC子网内。 创建MRS集群时,支持自动创建安全组,也可选择已有的安全组。 MRS集群使用的安全组请勿随意放开权限,避免被恶意访问。 为保证集群运行正常,集群节点及集群网络可达的网络区域请勿规划使用以下IP:10.10.10.10、10.10.10.11、1.1.1.1。 浏览器 建议使用推荐的浏览器登录MRS管理界面。 Google Chrome:36.0及更高版本 Edge:随Windows操作系统更新。 数据存储 MRS集群节点仅用于存储用户业务数据,非业务数据建议保存在 对象存储服务 或其他弹性云服务器中。 MRS集群节点仅用于运行MRS集群内服务,其他客户端应用程序、用户业务程序建议申请独立弹性云服务器部署。 请根据业务需要规划集群节点的磁盘,如果需要存储大量业务数据,请及时增加云硬盘数量或存储空间,以防止存储空间不足影响节点正常运行。 MRS集群扩容(包含存储能力和计算能力)可通过增加Core节点或者Task节点的方式实现。 密码要求 MRS不会保存您设置的登录Master节点的初始密码,请您设置并保管好密码。为避免被恶意攻击,建议设置复杂度高的密码。 技术支持 集群处于非人为异常状态时,可以联系技术支持人员,技术支持人员征得您同意后会请您提供密码,登录MRS集群进行问题排查。 集群处于异常状态时,MRS仍然会收取集群费用。建议您及时联系技术支持人员处理集群异常。
  • MRS安全增强 MRS作为一个海量数据管理和分析的平台,具备高安全性。MRS主要从以下几个方面保障用户的数据和业务运行安全。 网络隔离 整个系统部署在公有云上的虚拟私有云中,提供隔离的网络环境,保证集群的业务、管理的安全性。结合虚拟私有云的子网划分、路由控制、安全组等功能,为用户提供高安全、高可靠的网络隔离环境。 资源隔离 MRS服务支持资源专属区内部署,专属区内物理资源隔离,用户可以在专属区内灵活地组合计算存储资源,包括专属计算资源+共享存储资源、共享计算资源+专属存储资源、专属计算资源+专属存储资源。 主机安全 MRS支持与公有 云安全 服务集成,支持 漏洞扫描 、安全防护、应用防火墙、 堡垒机 、网页防篡改等。针对操作系统和端口部分,华为云提供如下安全措施: 操作系统内核安全加固 操作系统权限控制 操作系统端口管理 应用安全 通过如下措施保证大数据业务正常运行: 身份鉴别和认证 Web应用安全 访问控制 审计安全 密码安全 数据安全 针对海量用户数据,提供如下措施保障客户数据的机密性、完整性和可用性。 容灾:MRS支持将数据备份到OBS(对象存储服务)中,支持跨区域的高可靠性。 备份:MRS支持针对DBService、NameNode、LDAP的元数据备份和对HDFS、HBase的业务数据备份。 数据完整性 通过数据校验,保证数据在存储、传输过程中的数据完整性。 用户数据保存在HDFS上,HDFS默认采用CRC32C校验数据的正确性。 HDFS的DataNode节点负责存储校验数据,如果发现客户端传递过来的数据有异常(不完整)就上报异常给客户端,让客户端重新写入数据。 客户端从DataNode读数据的时候会同步检查数据是否完整,如果发现数据不完整,尝试从其它的DataNode节点上读取数据。 数据保密性 MRS分布式文件系统在Apache Hadoop版本基础上,提供对文件内容的加密存储功能,避免敏感数据明文存储,提升数据安全性。业务应用只需对指定的敏感数据进行加密,加解密过程业务完全不感知。在文件系统 数据加密 基础上,Hive实现表级加密,HBase实现列族级加密,在创建表时指定采用的加密算法,即可实现对敏感数据的加密存储。 从数据的存储加密、访问控制来保障用户数据的保密性。 HBase支持将业务数据存储到HDFS前进行压缩处理,且用户可以配置AES和SM4(也称为 SMS 4)算法加密存储。 各组件支持本地数据目录访问权限设置,无权限用户禁止访问数据。 所有集群内部用户信息提供密文存储。 安全认证 基于用户和角色的认证统一体系,遵从账户/角色RBAC(Role-Based Access Control)模型,实现通过角色进行权限管理,对用户进行批量授权管理。 支持安全协议Kerberos,MRS使用LDAP作为账户管理系统,并通过Kerberos对账户信息进行安全认证。 提供单点登录,统一了MRS系统用户和组件用户的管理及认证。 对登录Manager的用户进行审计。 父主题: 产品功能
  • Hive开源增强特性:支持列加密功能 Hive支持对表的某一列或者多列进行加密。在创建Hive表时,可以指定要加密的列和加密算法。当使用insert语句向表中插入数据时,即可将对应的列进行加密。Hive列加密不支持视图以及Hive over HBase场景。 Hive列加密机制目前支持的加密算法有两种,具体使用的算法在建表时指定。 AES(对应加密类名称为:org.apache.hadoop.hive.serde2.AESRewriter) SM4(也称为SMS4,对应加密类名称为:org.apache.hadoop.hive.serde2.SMS4Rewriter)
  • Hive开源增强特性:支持HDFS Colocation HDFS Colocation(同分布)是HDFS提供的数据分布控制功能,利用HDFS Colocation接口,可以将存在关联关系或者可能进行关联操作的数据存放在相同的存储节点上。 Hive支持HDFS的Colocation功能,即在创建Hive表时,通过设置表文件分布的locator信息,可以将相关表的数据文件存放在相同的存储节点上,从而使后续的多表关联的数据计算更加方便和高效。
  • 基础指标:容器指标 介绍通过CCE的kube-prometheus-stack插件或者自建K8s集群上报到 AOM 集群容器指标的类别、名称、含义等信息。 表1 CCE/自建K8s集群容器指标 Target名称 Job名称 指标 指标含义 serviceMonitor/monitoring/coredns/0 serviceMonitor/monitoring/node-local-dns/0 coredns 和node-local-dns coredns_build_info CoreDNS的构建信息。 coredns_cache_entries CoreDNS缓存中元素的数量。 coredns_cache_size CoreDNS缓存大小。 coredns_cache_hits_total CoreDNS缓存命中总数。 coredns_cache_misses_total CoreDNS缓存未命中总数。 coredns_cache_requests_total 不同维度下CoreDNS解析请求的总计数。 coredns_dns_request_duration_seconds_bucket CoreDNS请求时延。 coredns_dns_request_duration_seconds_count CoreDNS请求处理时间(秒)计数。 coredns_dns_request_duration_seconds_sum CoreDNS请求处理时间(秒)总和。 coredns_dns_request_size_bytes_bucket CoreDNS请求字节数。 coredns_dns_request_size_bytes_count CoreDNS请求大小(字节)计数。 coredns_dns_request_size_bytes_sum CoreDNS请求大小(字节)总和。 coredns_dns_requests_total CoreDNS请求的总数。 coredns_dns_response_size_bytes_bucket CoreDNS返回字节数。 coredns_dns_response_size_bytes_count CoreDNS响应大小(字节)计数。 coredns_dns_response_size_bytes_sum CoreDNS响应大小(字节)总和。 coredns_dns_responses_total CoreDNS响应码的总数。 coredns_forward_conn_cache_hits_total 每个协议和数据流的缓存命中总数。 coredns_forward_conn_cache_misses_total 每个协议和数据流的缓存未命中总数。 coredns_forward_healthcheck_broken_total 转发健康检查失败总数。 coredns_forward_healthcheck_failures_total 转发健康检查故障总数。 coredns_forward_max_concurrent_rejects_total 并发超限拒绝总数。 coredns_forward_request_duration_seconds_bucket CoreDNS转发请求时延。 coredns_forward_request_duration_seconds_count CoreDNS转发请求持续时间(秒)计数。 coredns_forward_request_duration_seconds_sum CoreDNS转发请求持续时间(秒)总和。 coredns_forward_requests_total 每个数据流的请求总数。 coredns_forward_responses_total 每个数据流的响应总数。 coredns_health_request_duration_seconds_bucket CoreDNS健康检查请求时延。 coredns_health_request_duration_seconds_count CoreDNS健康检查请求持续时间(秒)计数。 coredns_health_request_duration_seconds_sum CoreDNS健康检查请求持续时间(秒)总和。 coredns_health_request_failures_total CoreDNS健康检查请求失败总数。 coredns_hosts_reload_timestamp_seconds CoreDNS最近一次加载host文件的时间戳。 coredns_kubernetes_dns_programming_duration_seconds_bucket DNS编程时延。 coredns_kubernetes_dns_programming_duration_seconds_count DNS编程持续时间(秒)计数。 coredns_kubernetes_dns_programming_duration_seconds_sum DNS编程持续时间(秒)总和。 coredns_local_localhost_requests_total CoreDNS处理的localhost请求总数量。 coredns_nodecache_setup_errors_total 节点缓存插件设置错误总数。 coredns_dns_response_rcode_count_total 不同响应码个数的累计值。 coredns_dns_request_count_total 记录所有请求查询的累计值。 coredns_dns_request_do_count_total 设置了DO标志位的请求次数累计值。 coredns_dns_do_requests_total 设置了DO标志位的请求总数。 coredns_dns_request_type_count_total 每种类型的请求累计值。 coredns_panics_total CoreDNS发生异常退出的总数。 coredns_plugin_enabled CoreDNS各插件的启用状态。 coredns_reload_failed_total 重新加载配置文件失败的总数。 serviceMonitor/monitoring/kube-apiserver/0 apiserver aggregator_unavailable_apiservice 不可用的apiservice数量。 apiserver_admission_controller_admission_duration_seconds_bucket 准入控制器的处理延时。 apiserver_admission_webhook_admission_duration_seconds_bucket 准入Webhook的处理延时。 apiserver_admission_webhook_admission_duration_seconds_count 准入Webhook的处理请求统计。 apiserver_client_certificate_expiration_seconds_bucket 证书剩余有效时长。 apiserver_client_certificate_expiration_seconds_count 证书剩余有效时长。 apiserver_current_inflight_requests 在处理读请求数量。 apiserver_request_duration_seconds_bucket 客户端对apiserver的访问时延。 apiserver_request_total apiserver请求数按照返回码等维度的总计数。 go_goroutines 当前时间goroutines个数。 kubernetes_build_info 构建信息。 process_cpu_seconds_total 进程占用CPU累计时长。 process_resident_memory_bytes 常驻内存集大小。 rest_client_requests_total 请求apiserver的总数(按照返回码code和请求类型method统计)。 workqueue_adds_total 工作队列增加总数。 workqueue_depth 当前工作队列深度。 workqueue_queue_duration_seconds_bucket 任务在当前队列中的停留时间。 aggregator_unavailable_apiservice_total 不可用的apiservice总数。 rest_client_request_duration_seconds_bucket 请求apiserver的总数(按照返回码code和请求类型method统计)的分布情况。 serviceMonitor/monitoring/kubelet/0 kubelet kubelet_certificate_manager_client_expiration_renew_errors 证书续期错误次数。 kubelet_certificate_manager_client_ttl_seconds Kubelet客户端证书的TTL。 kubelet_cgroup_manager_duration_seconds_bucket 销毁和更新操作的耗时分布情况。 kubelet_cgroup_manager_duration_seconds_count 销毁和更新的数量。 kubelet_node_config_error 如果节点遇到与配置相关的错误,则此指标为true(1),否则为false(0)。 kubelet_node_name 节点名称,值始终为1。 kubelet_pleg_relist_duration_seconds_bucket PLEG relist pod耗时的分布情况。 kubelet_pleg_relist_duration_seconds_count PLEG relist pod不同耗时的数量。 kubelet_pleg_relist_interval_seconds_bucket PLEG relist间隔的分布情况。 kubelet_pod_start_duration_seconds_count 进行过pod启动的数量。 kubelet_pod_start_duration_seconds_bucket pod启动的耗时分布情况。 kubelet_pod_worker_duration_seconds_bucket 同步单个Pod的持续时间。 kubelet_running_containers 当前运行的容器数。 kubelet_running_pods 当前运行的pod数。 kubelet_runtime_operations_duration_seconds_bucket 不同操作的累计操作耗时分布情况。 kubelet_runtime_operations_errors_total 不同操作的累计操作失败的总数量。 kubelet_runtime_operations_total 运行过程中不同的操作类型的累计操作总数。 kubelet_volume_stats_available_bytes 卷中可用字节数。 kubelet_volume_stats_capacity_bytes 卷的容量(以字节为单位)。 kubelet_volume_stats_inodes 卷中的最大inode数。 kubelet_volume_stats_inodes_used 卷中已使用的inode数。 kubelet_volume_stats_used_bytes 卷中已使用的字节数。 storage_operation_duration_seconds_bucket 存储操作的持续时间。 storage_operation_duration_seconds_count 存储操作的操作次数。 storage_operation_errors_total 存储操作的错误总数。 volume_manager_total_volumes 卷管理中的卷数量。 rest_client_requests_total 请求apiserver的总数(按照返回码code和请求类型method统计)。 rest_client_request_duration_seconds_bucket 请求apiserver的总数(按照返回码code和请求类型method统计)的分布情况。 process_resident_memory_bytes 常驻内存集大小。 process_cpu_seconds_total 进程占用CPU累计时长。 go_goroutines 当前时间goroutines个数。 serviceMonitor/monitoring/kubelet/1 kubelet container_cpu_cfs_periods_total 容器经过强制限制的周期间隔总数。 container_cpu_cfs_throttled_periods_total 容器限制周期间隔总数。 container_cpu_cfs_throttled_seconds_total 容器被限流的CPU总时间。 container_cpu_load_average_10s 容器过去10秒内的CPU负载的平均值。 container_cpu_usage_seconds_total 容器CPU总使用量。 container_file_descriptors 容器打开的文件描述符数量。 container_fs_inodes_free 文件系统的可用inode区数量。 container_fs_inodes_total 文件系统的总计inode区总数量。 container_fs_io_time_seconds_total 磁盘/文件系统花费在I/O上的累计时间。 container_fs_limit_bytes 容器可以使用的磁盘/文件系统总量。 container_fs_read_seconds_total 容器累积读取磁盘/文件系统数据的总时间。 container_fs_reads_bytes_total 容器累积读取磁盘/文件系统数据的总量。 container_fs_reads_total 容器读取磁盘/文件系统的累积计数。 container_fs_usage_bytes 文件系统的使用量。 container_fs_write_seconds_total 容器累计写入磁盘/文件系统的总时间。 container_fs_writes_bytes_total 容器累积写入磁盘/文件系统数据的总量。 container_fs_writes_total 容器写入磁盘/文件系统的累积总数。 container_memory_cache 容器总页缓存内存。 container_memory_failcnt 容器内存使用达到限制的次数。 container_memory_max_usage_bytes 容器最大内存使用量。 container_memory_rss 容器常驻内存集的大小。 container_memory_swap 容器交换内存使用量。 container_memory_usage_bytes 容器当前的内存使用量。 container_memory_working_set_bytes 容器工作集内存使用量。 container_network_receive_bytes_total 容器网络累积接收数据总量。 container_network_receive_errors_total 容器网络接收时遇到的错误累积计数。 container_network_receive_packets_dropped_total 容器网络接收时丢弃的数据包的累积计数。 container_network_receive_packets_total 容器网络接收数据包的累积计数。 container_network_transmit_bytes_total 容器网络累积传输数据总量。 container_network_transmit_errors_total 容器网络传输时遇到的错误累积计数。 container_network_transmit_packets_dropped_total 容器网络传输时丢弃的数据包的累积计数。 container_network_transmit_packets_total 容器网络传输数据包的累积计数。 container_spec_cpu_quota 容器分配的CPU配额。 container_spec_memory_limit_bytes 容器可以使用的总内存量限制。 machine_cpu_cores 物理机或虚拟机中的CPU核心数量。 machine_memory_bytes 当前物理机或虚拟机的内存总数。 serviceMonitor/monitoring/kube-state-metrics/0 kube-state-metrics-prom kube_cronjob_status_active 当前活动的周期任务。 kube_cronjob_info 周期任务。 kube_cronjob_labels 周期任务标签。 kube_configmap_info ConfigMap信息。 kube_daemonset_created Daemonset创建时间。 kube_daemonset_status_current_number_scheduled 当前调度的DaemonSet数量。 kube_daemonset_status_desired_number_scheduled 期望调度的DaemonSet数量。 kube_daemonset_status_number_available 期望运行DaemonSet且已经至少运行一个Pod的节点数。 kube_daemonset_status_number_misscheduled 期望之外运行DaemonSet的节点数。 kube_daemonset_status_number_ready 期望运行DaemonSet且Pod已经就绪的节点数。 kube_daemonset_status_number_unavailable 期望运行DaemonSet但没有Pod运行的节点数。 kube_daemonset_status_updated_number_scheduled 正在运行已更新的DaemonSet的Pod的节点数。 kube_deployment_created Deployment创建时间戳。 kube_deployment_labels Deployment标签。 kube_deployment_metadata_generation Deployment期望状态的代数。 kube_deployment_spec_replicas Deployment期望的副本数。 kube_deployment_spec_strategy_rollingupdate_max_unavailable 滚动升级时最大不可用副本数。 kube_deployment_status_observed_generation Deployment控制器观察到的代数。 kube_deployment_status_replicas Deployment当前的副本数。 kube_deployment_status_replicas_available Deployment可用的副本数量。 kube_deployment_status_replicas_ready Deployment已就绪的副本数量。 kube_deployment_status_replicas_unavailable Deployment不可用的副本数量。 kube_deployment_status_replicas_updated Deployment已更新的副本数量。 kube_job_info Job信息。 kube_namespace_labels 命名空间标签。 kube_node_labels 节点标签。 kube_node_info 节点信息。 kube_node_spec_taint 节点污点信息。 kube_node_spec_unschedulable 节点是否可调度。 kube_node_status_allocatable 节点可分配资源。 kube_node_status_capacity 节点资源总量。 kube_node_status_condition 节点状态条件。 kube_node_volcano_oversubscription_status 节点超卖状态。 kube_persistentvolume_status_phase PV的状态。 kube_persistentvolumeclaim_status_phase PVC的状态。 kube_persistentvolume_info PV信息。 kube_persistentvolumeclaim_info PVC信息。 kube_pod_container_info Pod中的容器信息。 kube_pod_container_resource_limits 容器请求的限制资源数。 kube_pod_container_resource_requests 容器请求的请求资源数。 kube_pod_container_status_last_terminated_reason 容器最后终止原因。 kube_pod_container_status_ready 容器就绪状态。 kube_pod_container_status_restarts_total 容器重启总数。 kube_pod_container_status_running 容器当前是否在运行中的状态。 kube_pod_container_status_terminated 容器是否处在终止状态。 kube_pod_container_status_terminated_reason 容器终止原因。 kube_pod_container_status_waiting 容器等待状态。 kube_pod_container_status_waiting_reason 容器等待原因。 kube_pod_info Pod信息。 kube_pod_labels Pod标签。 kube_pod_owner Pod所属对象。 kube_pod_status_phase Pod当前的阶段。 kube_pod_status_ready Pod就绪状态。 kube_secret_info Secret信息。 kube_statefulset_created StatefulSet的创建时间戳。 kube_statefulset_labels StatefulSet的标签信息。 kube_statefulset_metadata_generation StatefulSet元数据生成代数。 kube_statefulset_replicas StatefulSet期望的Pod数。 kube_statefulset_status_observed_generation StatefulSet控制器观察到的生成。 kube_statefulset_status_replicas StatefulSet中有状态的副本数。 kube_statefulset_status_replicas_ready StatefulSet中就绪状态的副本数。 kube_statefulset_status_replicas_updated StatefulSet中更新状态的副本数。 kube_job_spec_completions 成功完成所需Pod数量。 kube_job_status_failed 失败的Job。 kube_job_status_succeeded 成功的Job。 kube_node_status_allocatable_cpu_cores 节点可分配CPU核数。 kube_node_status_allocatable_memory_bytes 节点可分配内存。 kube_replicaset_owner 副本集所属对象。 kube_resourcequota 资源配额。 kube_pod_spec_volumes_persistentvolumeclaims_info Pod关联的PVC信息。 serviceMonitor/monitoring/prometheus-lightweight/0 prometheus-lightweight vm_persistentqueue_blocks_dropped_total 发送队列Block丢弃总数量。 vm_persistentqueue_blocks_read_total 发送队列Block读取总数量。 vm_persistentqueue_blocks_written_total 发送队列Block写入总数量。 vm_persistentqueue_bytes_pending 发送队列Pending字节数。 vm_persistentqueue_bytes_read_total 发送队列读取的字节总数。 vm_persistentqueue_bytes_written_total 发送队列写入的字节总数。 vm_promscrape_active_scrapers 采集的分片数量。 vm_promscrape_conn_read_errors_total 采集读取错误总数。 vm_promscrape_conn_write_errors_total 采集写入错误总数。 vm_promscrape_max_scrape_size_exceeded_errors_total 采集大小超过限制的总数。 vm_promscrape_scrape_duration_seconds_sum 采集指标的耗时。 vm_promscrape_scrape_duration_seconds_count 采集指标的耗时总和。 vm_promscrape_scrapes_total 采集总数。 vmagent_remotewrite_bytes_sent_total 远程写发送字节总数。 vmagent_remotewrite_duration_seconds_sum 远程写入耗时。 vmagent_remotewrite_duration_seconds_count 远程写入耗时总和。 vmagent_remotewrite_packets_dropped_total 远程写入数据包丢弃总数。 vmagent_remotewrite_pending_data_bytes 远程写入挂起数据字节数。 vmagent_remotewrite_requests_total 远程写入请求总数。 vmagent_remotewrite_retries_count_total 远程写入重试次数总数。 go_goroutines 当前时间goroutines个数。 serviceMonitor/monitoring/node-exporter/0 node-exporter node_boot_time_seconds 节点开机时间。 node_context_switches_total 上下文切换总数。 node_cpu_seconds_total 在不同模式下节点累计CPU花费的总时间。 node_disk_io_now 当前运行的I/O数量。 node_disk_io_time_seconds_total I/O总耗时。 node_disk_io_time_weighted_seconds_total 执行I/O所花费的加权总时间。 node_disk_read_bytes_total 读取成功的字节总数。 node_disk_read_time_seconds_total 读取花费的总时长。 node_disk_reads_completed_total 读取完成的总数。 node_disk_write_time_seconds_total 写入花费的总时长。 node_disk_writes_completed_total 写入完成的总数。 node_disk_written_bytes_total 写入成功的字节总数。 node_docker_thinpool_data_space_available docker Thin pool数据可用空间。 node_docker_thinpool_metadata_space_available docker Thin pool元数据可用空间。 node_exporter_build_info Node Exporter构建信息。 node_filefd_allocated 已分配的文件描述符。 node_filefd_maximum 最大文件描述符。 node_filesystem_avail_bytes 文件系统可用空间。 node_filesystem_device_error 文件系统设备错误。 node_filesystem_free_bytes 文件系统剩余空间。 node_filesystem_readonly 只读文件系统。 node_filesystem_size_bytes 文件系统占用空间。 node_forks_total 节点fork总数。 node_intr_total 节点中断总数。 node_load1 节点1分钟CPU负载。 node_load15 节点15分钟CPU负载。 node_load5 节点5分钟CPU负载。 node_memory_Buffers_bytes 节点缓冲区的内存。 node_memory_Cached_bytes 节点页面缓存中的内存。 node_memory_MemAvailable_bytes 节点可用内存。 node_memory_MemFree_bytes 节点空闲内存。 node_memory_MemTotal_bytes 节点内存总量。 node_network_receive_bytes_total 累积接收数据总量。 node_network_receive_drop_total 接收丢包总数。 node_network_receive_errs_total 接收错误总数。 node_network_receive_packets_total 接收数据包总数。 node_network_transmit_bytes_total 累计发送字节总数。 node_network_transmit_drop_total 发送丢包总数。 node_network_transmit_errs_total 发送错误总数。 node_network_transmit_packets_total 发送数据包总数。 node_procs_blocked 当前阻塞的进程。 node_procs_running 当前运行的进程。 node_sockstat_sockets_used 正在使用的套接字总量。 node_sockstat_TCP_alloc 已分配的TCP套接字数量。 node_sockstat_TCP_inuse 正在使用的TCP套接字数量。 node_sockstat_TCP_orphan 无主的TCP连接数。 node_sockstat_TCP_tw 等待关闭的TCP连接数。 node_sockstat_UDPLITE_inuse UDP-Lite套接字当前使用量。 node_sockstat_UDP_inuse UDP套接字当前使用量。 node_sockstat_UDP_mem UDP套接字缓冲区使用量。 node_timex_offset_seconds 时钟时间偏移。 node_timex_sync_status 节点时钟同步状态。 node_uname_info 系统内核信息。 node_vmstat_oom_kill 记录由于内存不足而被系统终止的进程数量。 process_cpu_seconds_total 进程占用CPU累计时长。 process_max_fds 进程最大文件描述符。 process_open_fds 进程当前打开的文件描述符。 process_resident_memory_bytes 常驻内存集大小。 process_start_time_seconds 进程启动时间。 process_virtual_memory_bytes 虚拟内存大小。 process_virtual_memory_max_bytes 可用的最大虚拟内存量。 node_netstat_Tcp_ActiveOpens 从CLOSED状态直接转换到SYN-SENT状态的TCP连接数。 node_netstat_Tcp_PassiveOpens 从LISTEN状态直接转换到SYN-RCVD状态的TCP连接数。 node_netstat_Tcp_CurrEstab 当前状态为ESTABLISHED或CLOSE-WAIT的TCP连接数。 node_vmstat_pgmajfault VM统计重大页故障(major page faults)次数。 node_vmstat_pgpgout VM统计页出(page out)次数。 node_vmstat_pgfault VM统计页面故障(page fault)次数。 node_vmstat_pgpgin VM统计页入(page in)次数。 node_processes_max_processes 进程上限数量。 node_processes_pids PID个数。 node_nf_conntrack_entries 链接状态跟踪表分配的数量。 node_nf_conntrack_entries_limit 链接状态跟踪表总量。 promhttp_metric_handler_requests_in_flight 当前正在处理的指标数量。 go_goroutines 当前时间goroutines个数。 node_filesystem_files 节点上文件系统的文件数量。 node_filesystem_files_free 节点上文件系统的可用文件数量。 podMonitor/monitoring/nvidia-gpu-device-plugin/0 monitoring/nvidia-gpu-device-plugin cce_gpu_utilization GPU卡算力使用率。 cce_gpu_memory_utilization GPU卡显存使用率。 cce_gpu_encoder_utilization GPU卡编码使用率。 cce_gpu_decoder_utilization GPU卡解码使用率。 cce_gpu_utilization_process GPU各进程算力使用率。 cce_gpu_memory_utilization_process GPU各进程显存使用率。 cce_gpu_encoder_utilization_process GPU各进程编码使用率。 cce_gpu_decoder_utilization_process GPU各进程解码使用率。 cce_gpu_memory_used GPU显存使用量。 cce_gpu_memory_total GPU显存总量。 cce_gpu_memory_free GPU显存空闲量。 cce_gpu_bar1_memory_used GPU bar1内存使用量。 cce_gpu_bar1_memory_total GPU bar1内存总量。 cce_gpu_clock GPU时钟频率。 cce_gpu_memory_clock GPU显存频率。 cce_gpu_graphics_clock GPU图形处理器频率。 cce_gpu_video_clock GPU视频处理器频率。 cce_gpu_temperature GPU温度。 cce_gpu_power_usage GPU功率。 cce_gpu_total_energy_consumption GPU总能耗。 cce_gpu_pcie_link_bandwidth GPU pcie带宽。 cce_gpu_nvlink_bandwidth GPU nvlink带宽。 cce_gpu_pcie_throughput_rx GPU pcie接收带宽。 cce_gpu_pcie_throughput_tx GPU pcie发送带宽。 cce_gpu_nvlink_utilization_counter_rx GPU nvlink接收带宽。 cce_gpu_nvlink_utilization_counter_tx GPU nvlink发送带宽。 cce_gpu_retired_pages_sbe GPU 单比特错误隔离页数量。 cce_gpu_retired_pages_dbe GPU 双比特错误隔离页数量。 xgpu_memory_total xGPU显存总量。 xgpu_memory_used xGPU显存使用量。 xgpu_core_percentage_total xGPU算力总量。 xgpu_core_percentage_used xGPU算力使用量。 gpu_schedule_policy GPU模式分成0、1、2三种:0为显存隔离算力共享模式;1为显存算力隔离模式;2为默认模式表示当前卡还没被用于xGPU设备分配。 xgpu_device_health xGPU设备的健康情况。0表示xGPU设备为健康状态,1表示为非健康状态。 serviceMonitor/monitoring/prometheus-server/0 prometheus-server prometheus_build_info Prometheus构建信息。 prometheus_engine_query_duration_seconds 不同分片的响应时间耗时。 prometheus_engine_query_duration_seconds_count 查询普罗的次数。 prometheus_sd_discovered_targets 不同的target采集的指标数。 prometheus_remote_storage_bytes_total 压缩后队列发送的数据(非元数据)的总字节数。 prometheus_remote_storage_enqueue_retries_total 由于分片队列已满而入队失败重试的次数。 prometheus_remote_storage_highest_timestamp_in_seconds 远程存储里最新的时间戳。 prometheus_remote_storage_queue_highest_sent_timestamp_seconds 远程存储成功发送的最大时间戳。 prometheus_remote_storage_samples_dropped_total 远程存储丢弃样本数量。 prometheus_remote_storage_samples_failed_total 远程存储失败样本数量。 prometheus_remote_storage_samples_in_total 远程存储样本数量。 prometheus_remote_storage_samples_pending 远程存储pending样本数量。 prometheus_remote_storage_samples_retried_total 远程存储重试样本数量。 prometheus_remote_storage_samples_total 远程存储样本总数。 prometheus_remote_storage_shard_capacity 用于并行发送到远程存储的队列中每个分片的容量。 prometheus_remote_storage_shards 当前用于并行发送到远程存储的分片数。 prometheus_remote_storage_shards_desired 分片队列期望基于输入样本和输出样本的比率运行的分片数。 prometheus_remote_storage_shards_max 可用于并行发送到远程存储的分片数的最大值。 prometheus_remote_storage_shards_min 可用于并行发送到远程存储的分片数的最小值。 prometheus_tsdb_wal_segment_current TSDB当前正在写入的WAL段索引。 prometheus_tsdb_head_chunks head中保存的数据块数量。 prometheus_tsdb_head_series head中保存的时间序列数量。 prometheus_tsdb_head_samples_appended_total head中添加的样本数量。 prometheus_wal_watcher_current_segment 每个远程写入实例当前正在读取的WAL段文件。 prometheus_target_interval_length_seconds 指标采集时间间隔。 prometheus_target_interval_length_seconds_count 指标采集时间间隔计数。 prometheus_target_interval_length_seconds_sum 指标采集时间间隔总和。 prometheus_target_scrapes_exceeded_body_size_limit_total 指标采集body大小超限次数。 prometheus_target_scrapes_exceeded_sample_limit_total 指标采集样本超限次数。 prometheus_target_scrapes_sample_duplicate_timestamp_total 时间戳重复样本数量。 prometheus_target_scrapes_sample_out_of_bounds_total 时间戳超限样本数量。 prometheus_target_scrapes_sample_out_of_order_total 乱序样本数量。 prometheus_target_sync_length_seconds target采集同步的间隔。 prometheus_target_sync_length_seconds_count target采集同步的间隔计数。 prometheus_target_sync_length_seconds_sum target采集同步的间隔总和。 promhttp_metric_handler_requests_in_flight 当前正在处理的指标请求数量。 promhttp_metric_handler_requests_total 指标请求处理次数。 go_goroutines 当前时间goroutines个数。 podMonitor/monitoring/virtual-kubelet-pods/0 monitoring/virtual-kubelet-pods container_cpu_load_average_10s 容器过去10秒内的CPU负载的平均值。 container_cpu_system_seconds_total 容器系统CPU累积占用时间。 container_cpu_usage_seconds_total 容器在所有CPU内核上的累积占用时间。 container_cpu_user_seconds_total 容器用户CPU累积占用时间。 container_cpu_cfs_periods_total 容器已经执行的CPU时间周期数。 container_cpu_cfs_throttled_periods_total 容器被限流的CPU时间周期数。 container_cpu_cfs_throttled_seconds_total 容器被限流的CPU时间。 container_fs_inodes_free 文件系统的可用inode数量。 container_fs_usage_bytes 文件系统的使用量。 container_fs_inodes_total 文件系统的总计inode数量。 container_fs_io_current 磁盘/文件系统当前正在进行的I/O数量。 container_fs_io_time_seconds_total 磁盘/文件系统花费在I/O上的累计时间。 container_fs_io_time_weighted_seconds_total 磁盘/文件系统累积加权I/O时间。 container_fs_limit_bytes 容器可以使用的磁盘/文件系统总量。 container_fs_reads_bytes_total 容器累积读取磁盘/文件系统数据的总量。 container_fs_read_seconds_total 容器累积读取磁盘/文件系统数据的时间。 container_fs_reads_merged_total 容器合并读取磁盘/文件系统的累积计数。 container_fs_reads_total 容器读取磁盘/文件系统的累积计数。 container_fs_sector_reads_total 容器扇区读取磁盘/文件系统的累积计数。 container_fs_sector_writes_total 容器扇区写入磁盘/文件系统的累积计数。 container_fs_writes_bytes_total 容器累积写入磁盘/文件系统数据的总量。 container_fs_write_seconds_total 容器累计写入磁盘/文件系统的时间。 container_fs_writes_merged_total 容器合并写入磁盘/文件系统的累积计数。 container_fs_writes_total 容器写入磁盘/文件系统的累积计数。 container_blkio_device_usage_total 容器区分IO操作对磁盘的使用总量。 container_memory_failures_total 容器内存分配失败的累积计数。 container_memory_failcnt 容器内存使用达到限制的次数。 container_memory_cache 容器总页缓存内存。 container_memory_mapped_file 容器内存映射文件的大小。 container_memory_max_usage_bytes 容器最大内存使用量。 container_memory_rss 容器常驻内存集的大小。 container_memory_swap 容器虚拟内存使用量。 container_memory_usage_bytes 容器当前的内存使用量。 container_memory_working_set_bytes 容器工作集内存使用量。 container_network_receive_bytes_total 容器网络累积接收数据总量。 container_network_receive_errors_total 容器网络接收时遇到的错误累积计数。 container_network_receive_packets_dropped_total 容器网络接收时丢弃的数据包的累积计数。 container_network_receive_packets_total 容器网络接收数据包的累积计数。 container_network_transmit_bytes_total 容器网络累积传输数据总量。 container_network_transmit_errors_total 容器网络传输时遇到的错误累积计数。 container_network_transmit_packets_dropped_total 容器网络传输时丢弃的数据包的累积计数。 container_network_transmit_packets_total 容器网络传输数据包的累积计数。 container_processes 容器当前运行的进程数。 container_sockets 容器当前打开套接字的个数。 container_file_descriptors 容器当前打开文件描述符的个数。 container_threads 容器内当前运行的线程数。 container_threads_max 容器内允许运行的最大线程数。 container_ulimits_soft 容器内1号进程的软限制值。如果为-1,则无限制,优先级和nice除外。 container_tasks_state 处于给定状态的任务数(sleeping,running,stopped,uninterruptible,ioawaiting)。 container_spec_cpu_period 容器分配的CPU周期。 container_spec_cpu_shares 容器分配的CPU份额。 container_spec_cpu_quota 容器分配的CPU配额。 container_spec_memory_limit_bytes 容器可以使用的总内存量限制。 container_spec_memory_reservation_limit_bytes 容器可以使用的预留内存限制。 container_spec_memory_swap_limit_bytes 容器可以使用的虚拟内存限制。 container_start_time_seconds 容器已经运行的时间。 container_last_seen 最近一次监控采集器感知到容器的时间。 container_accelerator_memory_used_bytes 容器正在使用的GPU加速卡内存量。 container_accelerator_memory_total_bytes 容器GPU加速卡可用内存总量。 container_accelerator_duty_cycle GPU加速卡实际运行时间百分比。 podMonitor/monitoring/everest-csi-controller/0 monitoring/everest-csi-controller everest_action_result_total 不同功能的调用情况。 everest_function_duration_seconds_bucket 不同功能在不同执行时间下的次数。 everest_function_duration_seconds_count 不同功能的调用次数。 everest_function_duration_seconds_sum 不同功能的调用时间总和。 everest_function_duration_quantile_seconds 不同功能调用所需的时间分位数。 node_volume_read_completed_total 读操作完成次数。 node_volume_read_merged_total 读操作合并次数。 node_volume_read_bytes_total 扇区读字节总数。 node_volume_read_time_milliseconds_total 读操作总耗时。 node_volume_write_completed_total 写操作完成次数。 node_volume_write_merged_total 写操作合并次数。 node_volume_write_bytes_total 扇区写字节总数。 node_volume_write_time_milliseconds_total 写操作总耗时。 node_volume_io_now 当前正在进行的I/O次数。 node_volume_io_time_seconds_total I/O操作总耗时。 node_volume_capacity_bytes_available 可用容量。 node_volume_capacity_bytes_total 总容量。 node_volume_capacity_bytes_used 已用容量。 node_volume_inodes_available 可用inode。 node_volume_inodes_total 总inode。 node_volume_inodes_used 已用inode。 node_volume_read_transmissions_total 读取传输次数。 node_volume_read_timeouts_total 读取超时次数。 node_volume_read_sent_bytes_total 读取字节数。 node_volume_read_queue_time_milliseconds_total 读取队列等待总耗时。 node_volume_read_rtt_time_milliseconds_total 读取rtt总时长。 node_volume_write_transmissions_total 写入传输总数。 node_volume_write_timeouts_total 写入超时总数。 node_volume_write_queue_time_milliseconds_total 写入队列等待总耗时。 node_volume_write_rtt_time_milliseconds_total 写入rtt总时长。 node_volume_localvolume_stats_capacity_bytes 本地存储卷总容量。 node_volume_localvolume_stats_available_bytes 本地存储卷可用量。 node_volume_localvolume_stats_used_bytes 本地存储卷已用量。 node_volume_localvolume_stats_inodes 本地存储卷inodes数量。 node_volume_localvolume_stats_inodes_used 本地存储卷inodes已用量。 podMonitor/monitoring/nginx-ingress-controller/0 monitoring/nginx-ingress-controller nginx_ingress_controller_connect_duration_seconds_bucket 与上游服务器建立连接所花费的时间。 nginx_ingress_controller_connect_duration_seconds_sum 与上游服务器建立连接所花费的时间。 nginx_ingress_controller_connect_duration_seconds_count 与上游服务器建立连接所花费的时间。 nginx_ingress_controller_request_duration_seconds_bucket 请求处理时间(以毫秒为单位)。 nginx_ingress_controller_request_duration_seconds_sum 请求处理时间(以毫秒为单位)。 nginx_ingress_controller_request_duration_seconds_count 请求处理时间(以毫秒为单位)。 nginx_ingress_controller_request_size_bucket 请求长度(包括请求行、请求头和请求体)。 nginx_ingress_controller_request_size_sum 请求长度(包括请求行、请求头和请求体)。 nginx_ingress_controller_request_size_count 请求长度(包括请求行、请求头和请求体)。 nginx_ingress_controller_response_duration_seconds_bucket 从上游服务器接收响应所花费的时间。 nginx_ingress_controller_response_duration_seconds_sum 从上游服务器接收响应所花费的时间。 nginx_ingress_controller_response_duration_seconds_count 从上游服务器接收响应所花费的时间。 nginx_ingress_controller_response_size_bucket 响应长度(包括请求行、头和请求体)。 nginx_ingress_controller_response_size_sum 响应长度(包括请求行、头和请求体)。 nginx_ingress_controller_response_size_count 响应长度(包括请求行、头和请求体)。 nginx_ingress_controller_header_duration_seconds_bucket 从上游服务器接收第一个header所用的时间。 nginx_ingress_controller_header_duration_seconds_sum 从上游服务器接收第一个header所用的时间。 nginx_ingress_controller_header_duration_seconds_count 从上游服务器接收第一个header所用的时间。 nginx_ingress_controller_bytes_sent 发送到客户端的字节数。 nginx_ingress_controller_ingress_upstream_latency_seconds 上行服务延迟。 nginx_ingress_controller_requests 客户端请求的总数。 nginx_ingress_controller_nginx_process_connections 当前处于活动、读取、写入、等待状态,每种状态各自的客户端连接数。 nginx_ingress_controller_nginx_process_connections_total 自启动以来处于接受、已处理状态,每种状态各自的客户端连接总数。 nginx_ingress_controller_nginx_process_cpu_seconds_total Nginx进程消耗的CPU时间总量(以秒为单位)。 nginx_ingress_controller_nginx_process_num_procs 进程数。 nginx_ingress_controller_nginx_process_oldest_start_time_seconds 自1970/01/01以来的开始时间(以秒为单位)。 nginx_ingress_controller_nginx_process_read_bytes_total 读取的字节总数。 nginx_ingress_controller_nginx_process_requests_total 自启动以来,Nginx处理的请求总数。 nginx_ingress_controller_nginx_process_resident_memory_bytes 进程的常驻内存集使用量,即实际占用的物理内存大小。 nginx_ingress_controller_nginx_process_virtual_memory_bytes 进程的虚拟内存使用量,即分配给进程的总内存大小,包括实际物理内存和虚拟交换空间。 nginx_ingress_controller_nginx_process_write_bytes_total 进程向磁盘或其他长期存储设备写入的总数据量。 nginx_ingress_controller_build_info 一个带有常量“1”的度量,标记有关于构建的信息。 nginx_ingress_controller_check_success 语法检查累计次数。 nginx_ingress_controller_config_hash 运行配置的哈希值。 nginx_ingress_controller_config_last_reload_successful 最后一次尝试重新加载配置是否成功。 nginx_ingress_controller_config_last_reload_successful_timestamp_seconds 最后一次成功重新加载配置的时间戳。 nginx_ingress_controller_ssl_certificate_info 保留与证书相关的所有信息。 nginx_ingress_controller_success 重新加载操作的累计次数。 nginx_ingress_controller_orphan_ingress 孤立ingress的状态,1表示孤立ingress。0 表示正常。 namespace:是用于标识ingress名称空间的字符串。 ingress:表示ingress名称。 type:表示孤立ingress的状态,取值为no-service或no-endpoint。 nginx_ingress_controller_admission_config_size 准入控制器的配置大小。 nginx_ingress_controller_admission_render_duration 准入控制器配置渲染所花费的时间。 nginx_ingress_controller_admission_render_ingresses 准入控制器配置渲染的入口长度。 nginx_ingress_controller_admission_roundtrip_duration 准入控制器处理新事件所花费的时间。 nginx_ingress_controller_admission_tested_duration 准入控制器测试所花费的时间。 nginx_ingress_controller_admission_tested_ingresses 准入控制器测试的入口长度。 podMonitor/monitoring/cceaddon-npd/0 monitoring/cceaddon-npd problem_counter 检测项异常发生的次数。 problem_gauge 检测项是否触发异常。 0:未触发。 1:已触发。 父主题: 指标总览
  • 基础指标:IoTDA指标 介绍IoTDA服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 表1 IoTDA服务监控指标 指标类别 指标 指标名称 指标含义 取值范围 单位 设备总数 iotda_device_status_onlineCount 在线设备数 统计租户在当前实例/资源空间下的在线的设备数量。 ≥0 个 iotda_device_status_totalCount 设备总数 统计租户在当前实例/资源空间下的总的设备数量。 ≥0 个 iotda_device_status_offlineCount 离线设备数 统计租户在当前实例/资源空间下的离线的设备数量。 ≥0 个 iotda_device_status_abnormalCount 异常设备数 统计租户在当前实例/资源空间下的异常的设备数量。 ≥0 个 iotda_device_status_inactiveCount 未激活设备数 统计租户在当前实例/资源空间下的未激活的设备数量。 ≥0 个 iotda_device_status_activeCount 激活设备数 统计租户在当前实例/资源空间下的激活的设备数量。 ≥0 个 iotda_device_status_dailyOnlineCount 累计在线设备数 统计租户在当前实例/资源空间下的累计在线设备数量。 ≥0 个 NB数据上报数 iotda_south_dataReport_totalCount NB数据上报总次数 统计当前实例/资源空间下NB数据上报总次数。 ≥0 次 iotda_south_dataReport_successCount NB数据上报成功次数 统计当前实例/资源空间下NB数据上报成功次数。 ≥0 次 iotda_south_dataReport_failedCount NB数据上报失败次数 统计当前实例/资源空间下NB数据上报失败次数。 ≥0 次 MQTT事件上报数 iotda_south_eventUp_totalCount MQTT事件上报总数 统计当前实例/资源空间下MQTT事件上报总数。 ≥0 次 iotda_south_eventUp_successCount MQTT事件上报成功次数 统计当前实例/资源空间下MQTT事件上报成功次数。 ≥0 次 iotda_south_eventUp_failedCount MQTT事件上报失败次数 统计当前实例/资源空间下MQTT事件上报失败次数。 ≥0 次 MQTT属性上报数 iotda_south_propertiesReport_totalCount MQTT属性上报总数 统计当前实例/资源空间下MQTT属性上报总数。 ≥0 次 iotda_south_propertiesReport_successCount MQTT属性上报成功次数 统计当前实例/资源空间下MQTT属性上报成功次数。 ≥0 次 iotda_south_propertiesReport_failedCount MQTT属性上报失败次数 统计当前实例/资源空间下MQTT属性上报失败次数。 ≥0 次 MQTT消息上报数 iotda_south_messageUp_totalCount MQTT消息上报总数 统计当前实例/资源空间下MQTT消息上报总数。 ≥0 次 iotda_south_messageUp_successCount MQTT消息上报成功次数 统计当前实例/资源空间下MQTT消息上报成功次数。 ≥0 次 iotda_south_messageUp_failedCount MQTT消息上报失败次数 统计当前实例/资源空间下MQTT消息上报失败次数。 ≥0 次 AMQP流转次数 iotda_amqp_forwarding_totalCount AMQP流转次数 统计当前实例/资源空间下AMQP流转次数。 ≥0 次 iotda_amqp_forwarding_successCount AMQP流转成功次数 统计当前实例/资源空间下AMQP流转成功次数。 ≥0 次 iotda_amqp_forwarding_failedCount AMQP流转失败次数 统计当前实例/资源空间下AMQP流转失败次数。 ≥0 次 FunctionGraph流转次数 iotda_functionGraph_forwarding_totalCount FunctionGraph流转次数 统计当前实例/资源空间下FunctionGraph流转次数。 ≥0 次 iotda_functionGraph_forwarding_successCount FunctionGraph流转成功次数 统计当前实例/资源空间下FunctionGraph流转成功次数。 ≥0 次 iotda_functionGraph_forwarding_failedCount FunctionGraph流转失败次数 统计当前实例/资源空间下FunctionGraph流转失败次数。 ≥0 次 MRS Kafka流转次数 iotda_mrsKafka_forwarding_totalCount MRS Kafka流转次数 统计当前实例/资源空间下MRS Kafka流转次数。 ≥0 次 iotda_mrsKafka_forwarding_successCount MRS Kafka流转成功次数 统计当前实例/资源空间下MRS Kafka流转成功次数。 ≥0 次 iotda_mrsKafka_forwarding_failedCount MRS Kafka流转失败次数 统计当前实例/资源空间下MRS Kafka流转失败次数。 ≥0 次 MQTT流转次数 iotda_mqtt_forwarding_totalCount Mqtt流转次数 统计当前实例/资源空间下MQTT流转次数。 ≥0 次 iotda_mqtt_forwarding_successCount Mqtt流转成功次数 统计当前实例/资源空间下MQTT流转成功次数。 ≥0 次 iotda_mqtt_forwarding_failedCount Mqtt流转失败次数 统计当前实例/资源空间下MQTT流转失败次数。 ≥0 次 MySql流转次数 iotda_mysql_forwarding_totalCount MySql流转次数 统计当前实例/资源空间下MySql流转次数。 ≥0 次 iotda_mysql_forwarding_successCount MySql流转成功次数 统计当前实例/资源空间下MySql流转成功次数。 ≥0 次 iotda_mysql_forwarding_failedCount MySql流转失败次数 统计当前实例/资源空间下MySql流转失败次数。 ≥0 次 InfluxDB流转次数 iotda_influxDB_forwarding_totalCount InfluxDB流转次数 统计当前实例/资源空间下InfluxDB流转次数。 ≥0 次 iotda_influxDB_forwarding_successCount InfluxDB流转成功次数 统计当前实例/资源空间下InfluxDB流转成功次数。 ≥0 次 iotda_influxDB_forwarding_failedCount InfluxDB流转失败次数 统计当前实例/资源空间下InfluxDB流转失败次数。 ≥0 次 HTTP推送流转次数 iotda_http_forwarding_totalCount HTTP推送流转次数 统计当前实例/资源空间下HTTP推送流转次数。 ≥0 次 iotda_http_forwarding_successCount HTTP推送流转成功次数 统计当前实例/资源空间下HTTP推送流转成功次数。 ≥0 次 iotda_http_forwarding_failedCount HTTP推送流转失败次数 统计当前实例/资源空间下HTTP推送流转失败次数。 ≥0 次 OBS流转次数 iotda_obs_forwarding_totalCount OBS流转次数 统计当前实例/资源空间下OBS流转次数。 ≥0 次 iotda_obs_forwarding_successCount OBS流转成功次数 统计当前实例/资源空间下OBS流转成功次数。 ≥0 次 iotda_obs_forwarding_failedCount OBS流转失败次数 统计当前实例/资源空间下OBS流转失败次数。 ≥0 次 DMS Kafka流转次数 iotda_dmsKafka_forwarding_totalCount DMS Kafka流转次数 统计当前实例/资源空间下DMS Kafka流转次数。 ≥0 次 iotda_dmsKafka_forwarding_successCount DMS Kafka流转成功次数 统计当前实例/资源空间下DMS Kafka流转成功次数。 ≥0 次 iotda_dmsKafka_forwarding_failedCount DMS Kafka流转失败次数 统计当前实例/资源空间下DMS Kafka流转失败次数。 ≥0 次 DIS流转次数 iotda_dis_forwarding_totalCount DIS流转次数 统计当前实例/资源空间下DIS流转次数。 ≥0 次 iotda_dis_forwarding_successCount DIS流转成功次数 统计当前实例/资源空间下DIS流转成功次数。 ≥0 次 iotda_dis_forwarding_failedCount DIS流转失败次数 统计当前实例/资源空间下DIS流转失败次数。 ≥0 次 ROMA流转次数 iotda_roma_forwarding_totalCount ROMA流转次数 统计当前实例/资源空间下ROMA流转次数。 ≥0 次 iotda_roma_forwarding_successCount ROMA流转成功次数 统计当前实例/资源空间下ROMA流转成功次数。 ≥0 次 iotda_roma_forwarding_failedCount ROMA流转失败次数 统计当前实例/资源空间下ROMA流转失败次数。 ≥0 次 LTS流转次数 iotda_lts_forwarding_totalCount LTS流转次数 统计当前实例/资源空间下LTS流转次数。 ≥0 次 iotda_lts_forwarding_successCount LTS流转成功次数 统计当前实例/资源空间下LTS流转成功次数。 ≥0 次 iotda_lts_forwarding_failedCount LTS流转失败次数 统计当前实例/资源空间下LTS流转失败次数。 ≥0 次 查询设备影子 iotda_query_shadow_totalCount 查询设备影子总数 统计当前实例/资源空间下查询设备影子总数。 ≥0 次 iotda_query_shadow_successCount 查询设备影子成功数 统计当前实例/资源空间下查询设备影子成功数。 ≥0 次 iotda_query_shadow_failedCount 查询设备影子失败数 统计当前实例/资源空间下查询设备影子失败数。 ≥0 次 消息下发 iotda_message_down_totalCount 消息下发总数 统计当前实例/资源空间下消息下发总数。 ≥0 次 iotda_message_down_successCount 消息下发成功数 统计当前实例/资源空间下消息下发成功数。 ≥0 次 iotda_message_down_failedCount 消息下发失败数 统计当前实例/资源空间下消息下发失败数。 ≥0 次 属性设置 iotda_properties_set_totalCount 属性设置总数 统计当前实例/资源空间下属性设置总数。 ≥0 次 iotda_properties_set_successCount 属性设置成功数 统计当前实例/资源空间下属性设置成功数。 ≥0 次 iotda_properties_set_failedCount 属性设置失败数 统计当前实例/资源空间下属性设置失败数。 ≥0 次 属性查询 iotda_properties_query_totalCount 属性查询总数 统计当前实例/资源空间下属性查询总数。 ≥0 次 iotda_properties_query_successCount 属性查询成功数 统计当前实例/资源空间下属性查询成功数。 ≥0 次 iotda_properties_query_failedCount 属性查询失败数 统计当前实例/资源空间下属性查询失败数。 ≥0 次 命令数 iotda_command_totalCount 命令总数 统计当前实例/资源空间下命令总数。 ≥0 次 iotda_command_successCount 命令成功数 统计当前实例/资源空间下命令成功数。 ≥0 次 iotda_command_failedCount 命令失败数 统计当前实例/资源空间下命令失败数。 ≥0 次 流控数据 iotda_flowcontrol_north_failedCount API调用流控失败数 统计当前实例下调用API流控失败次数。 ≥0 次 iotda_flowcontrol_south_failedCount 南向调用流控失败数 统计当前实例下数据上报流控失败次数。 ≥0 次 iotda_flowcontrol_forwarding_failedCount 流转流控失败数 统计当前实例下流转流控失败数。 ≥0 次 同时在线设备数 iotda_max_online_devices_totalCount 每天最大同时在线设备数 统计当前实例下每天最大同时在线设备数。 ≥0 个 iotda_max_online_devices_percent 最大同时在线设备数百分比 统计当前实例下每天最大同时在线设备数百分比。 0~100 百分比(%) TPS消息数 iotda_mqtt_publishIn_totalCount mqtt上报TPS 统计当前实例下上报的TPS数。 ≥0 次 iotda_mqtt_connect_totalCount mqtt建链数 统计当前实例下mqtt建链数。 ≥0 次 iotda_http_apigIn_totalCount 北向API的TPS数 统计当前实例下北向API的TPS数。 ≥0 次 北向API统计总数 iotda_http_request_totalCount 北向API的请求总个数 统计当前实例下北向API的请求总个数。 ≥0 次 iotda_http_request_failedCount 北向API的请求失败个数 统计当前实例下北向API的请求失败个数。 ≥0 次 iotda_http_request_successCount 北向API的请求成功个数 统计当前实例下北向API的请求成功个数。 ≥0 次 mongo流转数 iotda_mongodb_forwarding_totalCount mongo流转总数 统计当前实例下mongo流转总数。 ≥0 次 iotda_mongodb_forwarding_successCount mongo流转成功数 统计当前实例下mongo流转成功。 ≥0 次 iotda_mongodb_forwarding_failedCount mongo流转失败数 统计当前实例下mongo流转失败。 ≥0 次 bcs-fabric流转数 iotda_bcs_fabric_forwarding_totalCount bcs-fabric流转总数 统计当前实例下fabric流转总数。 ≥0 次 iotda_bcs_fabric_forwarding_successCount bcs-fabric流转成功数 统计当前实例下fabric成功次数。 ≥0 次 iotda_bcs_fabric_forwarding_failedCount bcs-fabric流转失败数 统计当前实例下fabric失败次数。 ≥0 次 bcs-huawei流转数 iotda_bcs_hw_forwarding_totalCount bcs-huawei流转总数 统计当前实例下hw流转总数。 ≥0 次 iotda_bcs_hw_forwarding_successCount bcs-huawei流转成功数 统计当前实例下hw成功次数。 ≥0 次 iotda_bcs_hw_forwarding_failedCount bcs-huawei流转失败数 统计当前实例下hw失败次数。 ≥0 次 AMQP消息数 iotda_amqp_forwarding_backlog_message_count AMQP的积压消息数 统计当前实例下AMQP的积压消息数。 ≥0 次 iotda_amqp_forwarding_consume_rate AMQP的积压速率 统计当前实例下AMQP的积压速率。 ≥0 次 消息数 iotda_userMessage_count 消息数的总数 统计当前实例下消息数的总数。 ≥0 次 在线设备 max_online_device 同时在线设备数 统计当前实例下同时在线设备数。 ≥0 次 批量任务 iotda_batchtask_success_count 批量任务成功数 统计当前实例下批量任务成功数。 ≥0 次 iotda_batchtask_failure_count 批量任务失败数 统计当前实例下批量任务失败数。 ≥0 次 数据总指标 iotda_indicator 数据总指标 统计当前实例指标总数。 ≥0 次 数据包大小 iotda_http_request_packageSize 数据包大小 统计当前实例数据包指标大小。 ≥0 次 iotda_south_packageSize 南向数据包大小 统计当前实例数据包南向指标大小。 ≥0 次 父主题: 指标总览
  • 基础指标:CCI2.0指标 介绍通过CCI2.0服务上报到AOM的指标的类别、名称、含义等信息。 表1 CCI2.0服务监控指标 指标类别 指标名称 指标含义 CPU container_cpu_system_seconds_total 容器系统CPU总时长。 container_cpu_usage_seconds_total 容器在所有CPU内核上的累积占用时间。 container_cpu_user_seconds_total 容器用户CPU总时长。 container_cpu_cfs_periods_total 容器已经执行的CPU时间周期数。 container_cpu_cfs_throttled_periods_total 容器被限流的CPU时间周期数。 container_cpu_cfs_throttled_seconds_total 容器被限流的CPU时间。 文件系统/磁盘 container_fs_inodes_free 文件系统的可用inode数量。 container_fs_usage_bytes 文件系统的使用量。 container_fs_inodes_total 文件系统的总计inode数量。 container_fs_io_current 磁盘/文件系统当前正在进行的 I/O 数量。 container_fs_io_time_seconds_total 磁盘/文件系统花费在 I/O 上的累计秒数。 container_fs_io_time_weighted_seconds_total 磁盘/文件系统累积加权 I/O 时间。 container_fs_limit_bytes 容器可以使用的磁盘/文件系统总量。 container_fs_reads_bytes_total 容器累积读取磁盘/文件系统数据的总量。 container_fs_read_seconds_total 容器累积读取磁盘/文件系统数据的秒数。 container_fs_reads_merged_total 容器合并读取磁盘/文件系统的累积计数。 container_fs_reads_total 容器已完成读取磁盘/文件系统的累积计数。 container_fs_sector_reads_total 容器已完成扇区读取磁盘/文件系统的累积计数。 container_fs_sector_writes_total 容器已完成扇区写入磁盘/文件系统的累积计数。 container_fs_writes_bytes_total 容器累积写入磁盘/文件系统数据的总量。 container_fs_write_seconds_total 容器累计写入磁盘/文件系统的秒数。 container_fs_writes_merged_total 容器合并写入磁盘/文件系统的累积计数。 container_fs_writes_total 容器已完成写入磁盘/文件系统的累积计数。 container_blkio_device_usage_total 容器区分IO操作对磁盘的使用总量。 内存 container_memory_failures_total 容器内存分配失败的累积计数。 container_memory_failcnt 容器内存使用达到限制的次数。 container_memory_cache 容器总页缓存内存。 container_memory_mapped_file 容器内存映射文件的大小。 container_memory_max_usage_bytes 容器历史最大内存使用量。 container_memory_rss 容器常驻内存集的大小。 container_memory_swap 容器虚拟内存使用量。 container_memory_usage_bytes 容器当前的内存使用量。 container_memory_working_set_bytes 容器工作集内存使用量。 网络 container_network_receive_bytes_total 容器网络累积接收数据总量。 container_network_receive_errors_total 接收时遇到的错误累积计数。 container_network_receive_packets_dropped_total 接收时丢弃的数据包的累积计数。 container_network_receive_packets_total 接收数据包的累积计数。 container_network_transmit_bytes_total 容器网络累积传输数据总量。 container_network_transmit_errors_total 传输时遇到的错误累积计数。 container_network_transmit_packets_dropped_total 传输时丢弃的数据包的累积计数。 container_network_transmit_packets_total 传输数据包的累积计数。 容器spec/状态 container_processes 容器当前运行的进程数。 container_sockets 容器当前打开套接字的个数。 container_file_descriptors 容器打开的文件描述符数量。 container_threads 容器内当前运行的线程数。 container_threads_max 容器内允许运行的最大线程数。 container_ulimits_soft 容器内1号进程的软 ulimit 值。如果为-1,则无限制,优先级和nice除外。 container_spec_cpu_period 容器分配的CPU周期。 container_spec_cpu_shares 容器分配的CPU份额。 container_spec_cpu_quota 容器分配的CPU配额。 container_spec_memory_limit_bytes 容器可以使用的总内存量限制。 container_spec_memory_reservation_limit_bytes 容器可以使用的预留内存限制。 container_spec_memory_swap_limit_bytes 容器可以使用的虚拟内存限制。 container_start_time_seconds 容器已经运行的时间。 container_last_seen 最近一次监控采集器感知到容器的时间。 对象状态指标 kube_pod_info Pod信息。 kube_pod_owner Pod的Owner信息。 kube_pod_container_resource_limits 容器的资源limits。 kube_replicaset_owner RS的所有者信息。 父主题: 指标总览
  • 通用数据安全防护场景功能特性 数据安全中心 通用数据安全防护场景提供数据分级分类、数据脱敏、数据水印、API数据保护等基础数据安全能力,通过资产地图整体呈现云上数据安全态势,并实现一站式数据安全运营能力。 同时,为满足不同用户需求,数据安全中心在通用数据安全防护场景下提供“标准版”和“专业版”两个版本供您选择。 “标准版”:数据风险检测和数据资产分类分级。 “专业版”:支持对分类分级后的数据资产进行静态脱敏(控制台)和调用API接口进行脱敏以及添加和提取数据水印。 本文介绍数据安全中心支持使用的功能及各版本的功能差异。 API数据安全防护功能需要在API数据安全防护实例界面进行单独购买,详情请参见购买API数据安全防护实例。 本文用到标识符号说明如下: √:表示当前版本支持使用该功能。 ×:表示当前版本不支持使用该功能。 表1 功能概览 功能特性 说明 参考文档 标准版 专业版 资产地图 数据资产地图可以通过可视化的手段,从资产概况、分类分级、权限配置、数据存储、敏感数据等多种维度查看资产的安全状况。可协助您快速发现风险资产并快速进行风险处理操作。 资产可视化 数据服务资产:涵盖了云上和云下所有数据资产,包含OBS、RDS、 CSS 、Hive以及Hbase等。 数据风险:数据关联分级分类结果,一览展示各个数据风险级别。 分区展示:根据云上和云下资源VPC展示各个资产所在区域,和业务区域关联。 出口可视 数据出口:识别云上和云下关键数据出口,包含EIP/NAT/APIGateway/Roma等。 出口关联资产:云上和云下出口和数据关联,结合分级分类结果,一览数据出口风险。 级联关联:数据出口包含直接出口和级联间接出口,不同展示方式。 策略可视 数据安全策略:云原生能力检测数据资产的安全策略,一览策略风险。 策略推荐:根据数据资产等级推荐不同的安全策略配置。 资产地图 √ √ 资产管理 资产中心:DSC支持管理OBS、数据库、大数据、MRS数据资产以及 云日志 类型资产。 资产目录:查看不同业务域或不同数据类型(结构化和非结构化数据)的统计信息。 数据探索:查看当前已添加的所有数据资产详细信息,并对数据库、数据表以及数据视图等添加描述、标签、密级和分类操作,从而实现数据资产分级分类管理。 元数据任务:用户可以创建元数据任务扫描数据资产,数据资产信息会以元数据的形式被采集、收纳到DSC中,后续用户可以对数据资产进行分级分类管理。 资产分组管理:对现有数据进行分组管理。 资产管理 √ √ 敏感数据识别 数据自动分级分类:从海量数据中自动发现并分析敏感数据使用情况,基于数据识别引擎,对其储存结构化数据(RDS、DWS等)和非结构化数据(OBS)进行扫描、分类、分级,解决数据“盲点”,以此做进一步安全防护。 文件类型:支持近200种非结构化文件,详情请参见DSC支持识别的非结构化文件类型。 数据类型:支持数十种个人隐私数据类型,包含中英文,支持的个人隐私数据类型详情请参见查看内置规则。 图片类型:支持识别(png、jpeg、x-portable-pixmap、tiff、bmp、gif、jpx、jp2总共8种类型)图片中的敏感文字,包含中英文。 自动识别敏感数据 自动识别敏感数据及个人隐私数据。 支持自定义规则,场景适配不同行业。 提供可视化识别结果,同时,可供用户下载到本地查看。 DSC服务敏感数据的识别时长将由您所扫描数据源的数据量、扫描规则数、扫描模式决定,具体请参见DSC扫描时长。 新建敏感数据识别任务 √ √ 数据脱敏 DSC的数据脱敏支持静态脱敏和调用API接口进行脱敏。 DSC的数据脱敏特点: 不影响用户数据:从原始数据库读取数据,通过精确的脱敏引擎,对用户的敏感数据实施静态脱敏,脱敏结果另行存放,不会影响原始的用户数据。 支持云上各类场景:支持RDS,ECS自建数据库,大数据合规。 满足多种脱敏需求:用户可以通过20+种预置脱敏规则,或自定义脱敏规则来对指定数据库表进行脱敏,DSC支持的脱敏算法详见脱敏算法。 实现一键合规:基于扫描结果自动提供脱敏合规建议,一键配置脱敏规则。 同时,DSC提供API接口供您使用,具体请参考数据动态脱敏。 DSC通过内置和自定义脱敏算法,实现对RDS、Elasticsearch、MRS、Hive、HBase、 DLI 以及OBS数据进行脱敏,具体的脱敏时长请参见DSC脱敏时长。 配置脱敏规则 × √ 数据水印 针对数据库、文档以及图片提供了注入和提取水印的功能。 版权证明:嵌入数据拥有者的信息,保证资产唯一归属,实现版权保护。 追踪溯源:嵌入数据使用者的信息,在发生数据泄露事件时,追踪其泄露源头。 同时,DSC提供了数据动态添加水印和提取数据水印的API接口供您使用,具体请参考API接口参考。 水印注入 × √ 策略中心 策略基线:策略基线是数据安全管理规定、数据分类分级要求、数据出境管理规定、重要数据和核心数据要求等数据安全策略结构化,DSC依据华为云数据安全治理经验预置策略模板,支持策略的增删改查、策略的结构化展示和过滤查询等。 流转日志采集:DSC对各个应用中的日志数据进行采集,如DBSS服务和API数据安全防护,可动态的采集用户访问行为的路径,可以快速全面支撑溯源或定位,直观了解数据的流转情况,及时发现异常和风险。 策略管理:管理员在策略中心的策略管理页面制定数据库审计、数据库加密、数据库水印、数据库静态脱敏、数据库动态脱敏策略,下发给相应的服务或者实例。 策略中心 √ √ API数据安全防护 API数据安全防护是一款为企业提供综合的API安全防护系统。 对应用API接口进行自动梳理,实现应用接口细粒度访问控制、API异常风险发现、API敏感数据检测、脱敏和水印等能力。 API数据安全防护 单独购买实例 单独购买实例 态势大屏 数据安全中心默认提供一个综合态势感知大屏,对云上风险资产、识别任务、脱敏任务、水印任务、事件、告警等信息进行综合展示和分析,实现一屏全面感知,帮助用户快速识别资产综合态势,对风险资产和紧急告警快速做出响应。 态势大屏 √ √ 告警管理 当DBSS有系统或者业务方面的风险告警事件时,会将告警事件推送到DSC,用户可以在DSC控制台确认相关的告警事件。 告警管理 √ √ 事件管理 数据安全中心对接数据库审计、 云堡垒机 等安全组件,对各组件事件进行统一管理,会将事件实时推送到DSC,用户可以对事件进行确认和处理。也可以将告警页面的告警转事件。 事件管理 √ √ OBS使用审计 数据安全中心服务根据敏感数据规则对OBS桶进行识别,根据识别的敏感数据进行监控,监控到敏感数据的异常事件相关操作后,会将监控结果展示在异常事件处理页面中,用户可根据需要对异常事件进行处理。 OBS使用审计 √ √ 数据流转详情 调用链数据采集,对各个应用中的日志数据进行采集。 调用链数据存储及查询,对采集到的数据进行存储,由于日志数据量一般都很大,不仅要能对其存储,还需要能提供快速查询。 调用链数据生成,DSC负责对采集上报的日志进行数据链路流转分析,并绘制流转图 指标运算、存储及查询,对采集到的日志数据进行各种指标运算,将运算结果保存起来。 数据流转详情 √ √ 设备管理 设备管理的作用是纳管第三方设备,包含应用数据审计设备、应用数据安全网关设备、数据库防火墙设备、数据库加密设备,进行状态监控和告警展示,将风险和告警呈现给客户。 管理员在数据安全设备管理的策略管理页面制定数据库加密、数据库动脱策略、数据库静态脱敏,下发给数据库加密(动脱)、数据库静态脱敏设备生效。 设备管理 √ √ 多账号管理 开启多账号管理功能后,安全管理员在安全运营账号中对所有成员账号进行统一的数据安全防护,而无需逐个登录到成员账号。 多账号管理 √ √ 告警通知 通过设置告警通知,当敏感数据检测完成后或异常事件处理监测到异常事件时,DSC会将其检测结果通过用户设置的接收通知方式发送给用户。 告警通知 √ √
  • 大模型数据安全防护场景功能特性 大模型数据安全防护场景提供训练数据分级分类、文本数据脱敏、训练数据水印等基础数据安全能力。 大模型数据安全防护场景下提供“标准版”大模型敏感信息检测能力。 本文介绍数据安全中心大模型数据安全防护场景支持的功能特性。 表1 功能概览 功能特性 说明 参考文档 训练数据资产中心 DSC支持管理OBS资产,可将您的训练数据存储至OBS桶,DSC支持对OBS中的训练数据进行敏感数据识别、脱敏等操作。支持添加自有桶和其他桶。 添加OBS资产 训练数据资产目录 支持查看OBS数据类型(非结构化数据)的统计信息,包括文件总数、敏感文件数、分类分级统计结果等。 训练数据资产目录 文本敏感数据识别 从海量数据中自动发现并分析敏感数据使用情况,基于数据识别引擎,对OBS中的非结构化数据进行扫描,自动识别敏感和个人隐私数据并进行分类分级。 文件类型:支持近200种非结构化文件,详情请参见DSC支持识别的非结构化文件类型。 数据类型:支持数十种个人隐私数据类型,包含中英文,支持的个人隐私数据类型详情请参见查看内置规则。 支持自定义规则,场景适配不同行业。 提供可视化识别结果,同时,可供用户下载到本地查看。 新建敏感数据识别任务 文本敏感数据脱敏 支持对OBS非结构化文件中的敏感数据进行自动检测和脱敏,防止敏感数据被用于AI训练。 支持的文件类型:支持.txt,.log,.xml,.ini,.sql,.inf,.java,.json等类型的文件。 支持的脱敏规则:用户可以通过20+种预置脱敏规则,或自定义脱敏规则来对指定敏感数据进行脱敏,DSC支持的脱敏算法详见脱敏算法。 不影响用户原始数据:从原始文件读取数据,通过精确的脱敏引擎,对用户的敏感数据实施静态脱敏,脱敏结果另行存放,不会影响原始的用户数据。 实现一键合规:基于扫描结果自动提供脱敏合规建议,一键配置脱敏规则。 配置脱敏规则 OBS使用日志审计 根据敏感数据规则对OBS桶进行识别,根据识别的敏感数据进行监控,监控到敏感数据的异常事件相关操作后,会将监控结果展示在异常事件处理页面中,用户可根据需要对异常事件进行处理。 OBS使用日志审计 训练数据水印 针对OBS文档、图片提供了注入和提取水印的功能,支持明水印和暗水印。 可根据使用场景选择嵌入不同的水印信息: 版权证明:嵌入数据拥有者的信息,保证资产唯一归属,实现版权保护。 追踪溯源:嵌入数据使用者的信息,在发生数据泄露事件时,追踪其泄露源头。 文档水印注入
  • 准备工作 在购买数据安全中心之前,请先 注册华为账号 并开通华为云。具体操作详见注册华为账号并开通华为云、实名认证。 如果您已开通华为云并进行实名认证,请忽略此步骤。 仅在购买或使用中国大陆云服务区的资源时,需要实名认证。 购买包周期资源时,请保证账户有足够的资金,防止购买数据安全中心失败。具体操作请参见账户充值。 请确保已为账号赋予相关DSC权限。具体操作请参见创建用户组并授权使用DSC。 表1 DSC系统权限 角色名称 描述 类别 依赖关系 DSC DashboardReadOnlyAccess 数据安全中心服务大屏服务只读权限。 系统策略 无 DSC FullAccess 数据安全中心服务所有权限。 系统策略 购买RDS包周期实例需要配置授权项: bss:order:update bss:order:pay DSC ReadOnlyAccess 数据安全中心服务只读权限。 系统策略 无
共100000条