云服务器内容精选

  • 云审计服务支持的DLI操作列表说明 通过云审计服务,您可以记录与DLI服务相关的操作事件,便于日后的查询、审计和回溯。 表1 云审计服务支持的DLI操作列表 操作名称 资源类型 事件名称 创建数据库 database createDatabase 删除数据库 database deleteDatabase 修改数据库所有者 database alterDatabaseOwner 创建表 table createTable 删除表 table deleteTable 导出表数据 table exportData 导入表数据 table importData 修改表的所有者 table alterTableOwner 创建队列 queue createQueue 删除队列 queue dropQueue 队列授权 queue shareQueue 修改队列网段 queue replaceQueue 重启队列 queue queueActions 扩容/缩容队列 queue queueActions 提交作业(SQL) queue submitJob 取消作业(SQL) queue cancelJob 授权obs桶给DLI服务 obs obsAuthorize 检查SQL语法 job checkSQL 新建作业 job createJob 更新作业 job updateJob 删除作业 job deleteJob 创建Flink opensource sql作业 jobs createStreamSqlJob 更新Flink opensource sql作业 jobs updateStreamSqlJob 删除Flink作业 jobs deleteStreamJobs 购买包年包月队列 order orderQueue 购买cu时套餐包 order orderPackage 冻结资源 resource freezeResource 解冻资源 resource unfreezeResource 终止资源 resource deleteResource 资源清理 resource cleanResource 数据授权 data dataAuthorize 跨项目数据授权 data authorizeProjectData 导出查询结果 data storeJobResult 保存SQL模板 sqlTemplate saveSQLTemplate 更新SQL模板 sqlTemplate updateSQLTemplate 删除SQL模板 sqlTemplate deleteSQLTemplate 新建Flink模板 flinkTemplate createStreamTemplate 更新Flink模板 flinkTemplate createStreamTemplate 删除Flink模板 flinkTemplate deleteStreamTemplate 创建数据上传任务 uploader createUploadJob 获取数据上传任务鉴权 uploader getUploadAuthInfo 提交上传任务数据 uploader commitUploadJob 创建认证信息并上传证书 authInfo uploadAuthInfo 更新认证信息 authInfo updateAuthInfop 删除认证信息 authInfo deleteAuthInfo 更新配额 quota updateQuota 上传资源包 pkgResource uploadResources 删除资源包 pkgResource deleteResource 创建(经典型)跨源连接 datasource createDatasourceConn 删除(经典型)跨源连接 datasource deleteDatasourceConn 重新激活经典型跨源连接 datasource reactivateDSConnection 创建增强型跨源连接 datasource createConnection 删除增强型跨源连接 datasource getConnection 绑定队列 datasource associateQueueToDatasourceConn 解绑队列 datasource disassociateQueueToDatasourceConn 修改主机信息 datasource updateHostInfo 添加路由 datasource addRoute 删除路由 datasource deleteRoute 创建主题 smn createTopic 创建授权DLI agency createAgencyV2 创建批处理作业 batch createBatch 取消批处理作业 batch cancelBatch 创建会话 session createSession 删除会话 session deleteSession 创建语句 statement createStatement 取消语句执行 statement cancelStatement 创建全局变量 globalVar createGlobalVariable 删除全局变量 globalVar deleteGlobalVariable 修改全局变量 globalVar updateGlobalVariable 关于如何开通云审计服务以及如何查看追踪事件,请参考《云审计服务快速入门》中的相关章节。 关于云审计服务事件结构的关键字段详解,请参见《云审计服务用户指南》中的事件结构和事件样例。 父主题: 其他常用操作
  • 调优策略 最常见告警 长时间低(高)于阈值线告警,如图1所示。 图1 常见告警 告警进入条件:一般8分钟内有7个点异常告警进入。 告警退出条件:20分钟内有18个点正常则告警退出。 调优方法: 调节sensitivity敏感度参数,可以使小幅度下降的异常不告警,针对阈值线过紧的情况,图1的异常通过敏感度调节不了,因为阈值线相对是合理的 配置count_threshold参数,如果不关注请求量很少的异常,可以配置该参数,建议非必要情况下不要配置该参数,可能会出现遗漏告警的情况。 毛刺告警 两三个显著的毛刺点异常,如图2所示。 图2 毛刺告警 告警进入条件:穿过阈值线的毛刺异常程度,最快在第2个毛刺点告警。 告警退出条件:20分钟内有18个点正常则告警退出。 调优方法: 如果对请求量很少的接口,毛刺异常不关注,可以配置low_count_threshold参数,如图2中告警的曲线请求量不超过30,可以配置改参数为30。 如果不管请求量多少,都不需要毛刺类告警,则可以配置alert_by_spikes参数。毛刺类告警最快可以将告警时间缩短为2分钟,如果屏蔽掉这类告警,则按照其他的告警类型会有一定的延迟(一般7分钟)。 突变告警 突变告警只针对请求量类指标,特点是请求量曲线发生突变(突增或者突降)同时指标曲线没有触及阈值线,如图3所示。 图3 突变告警 告警进入条件:局部看曲线发生突变(默认突变20%),或者长期看相比历史降低或升高。 告警退出条件:数据平稳后告警退出,一般会持续18分钟。 调优方法: 通过配置alert_by_chain参数可以控制是否加入突变检测。突变告警可以防止阈值线学习宽松条件下指标突变的漏告警,但对于不关注阈值线之上数据突变的指标会产生一些不必要的告警。 波动性告警 波动性告警只针对非请求量类指标,这类告警的特点是指标曲线没有触及阈值线,如图4所示。 图4 波动性告警 告警进入条件:局部看曲线波动变大,或者长期看相比历史数据持续降低或升高。 告警退出条件:数据恢复到历史同期水平,持续18分钟则告警退出。 调优方法: 对于小幅度的波动和下降(上升)告警可以通过调节sensitivity敏感度来减少部分告警。 如果不关注这类异常,可以通过配置alert_by_std参数来实现。波动性告警可以防止阈值线学习宽松条件下指标小幅波动的漏告警,但对于不关注阈值线之上数据波动的指标会产生一些不必要的告警。 长时间掉0告警 长时间掉0告警只针对请求量类指标,特点是阈值线为0,测量值长时间掉0,如图5所示。 图5 长时间掉0告警 告警进入条件:历史同时期没有掉0,或者掉0时间持续28分钟。 告警退出条件:数据恢复到正常水平则告警退出。 调优方法: 如果这类告警频繁出现,可以通过配置alert_by_drop_to_0参数屏蔽。长时间掉0告警可以防止阈值线为零的情况下指标长时间掉零的漏告警。
  • 配置方法 在“异常检测”页面,单击异常检测任务所在行“操作”列的“模型”,默认显示“算法配置”页签,参考表1配置参数。 表1 算法配置参数说明 参数名称 参数含义 取值范围 参数说明 配置建议 metric_type 指标类型 success_rate(成功率) fail_rate(失败率) count(请求量,做上下限告警) speed(速率) delay(时延) count_lowerlimit(请求量,做下限告警) count_upperlimit(请求量,做上限告警) 按照实际的指标类型选择该参数,对于请求量类指标,做下限告警的选择count_lowerlimit,不要选择count。 - sensitivity 敏感度 0-10 默认值5 敏感度参数越高,阈值线越紧;敏感度参数越低,阈值线越松。 敏感度参数最高不超过5.5,最低不低于3.5;一般配置4.5或者5。 请求量指标因为使用了新的算法,敏感度可以在0.5—5之间调节。 时延、请求量、速率类指标敏感度每降低0.5,阈值线相对浮动3%,绝对浮动3。 成功率、失败率指标敏感度每降低0.5,阈值线相对浮动0.3%,绝对浮动0.3%。 low_count_threshold 小请求量 0- 100000000 默认值0 请求量低于此参数值时毛刺告警、波动性不生效;其他类型的告警依然生效。 如果毛刺告警较多,可以配置该参数。 count_threshold 请求量保护 0-100000000 默认值0 请求量低于此参数值时,完全不告警。 一般情况下不建议配置,请谨慎配置,且对请求量类指标不生效。 no_model_threshold_upper 无模型阈值上限 0-100000000 默认值100000000 无模型时配置的阈值上限(固定阈值线)。 对于新增的接口,因为没有历史数据,无法训练出该接口的模型,此时可以配置合适的值用来监控此类接口。 no_model_threshold_lower 无模型阈值下限 0-100000000 默认值0 无模型时配置的阈值下限(固定阈值线)。 对于新增的接口,因为没有历史数据,无法训练出该接口的模型,此时可以配置合适的值用来监控此类接口。 alert_by_std 波动性告警 True/False 默认为True 非请求量类指标参数,通过该参数设置是否引入波动性告警。 - alert_by_chain 突变告警 True/False 默认为True 请求量类指标参数,通过该参数设置是否引入突变告警。 - alert_by_drop_to_0 长时间掉0告警 True/False 默认为True 请求量类指标参数,通过该参数设置是否引入长时间掉0告警。 - alert_by_spikes 毛刺告警 True/False 默认为True 所有指标参数,通过该参数设置是否引入毛刺告警。 -
  • 监控指标 表1 数据湖探索服务支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) queue_cu_num 队列CU使用量 展示用户队列申请的CU数 ≥0 队列 5分钟 queue_job_launching_num 提交中作业数 展示用户队列中状态为提交中的作业数。 ≥0 队列 5分钟 queue_job_running_num 运行中作业数 展示用户队列中状态为运行中的作业数。 ≥0 队列 5分钟 queue_job_succeed_num 已完成作业数 展示用户队列中状态为已完成的作业数。 ≥0 队列 5分钟 queue_job_failed_num 已失败作业数 展示用户队列中状态为已失败的作业数。 ≥0 队列 5分钟 queue_job_cancelled_num 已取消作业数 展示用户队列中状态为已取消的作业数。 ≥0 队列 5分钟 queue_alloc_cu_num 队列CU分配量 展示用户队列的CU分配情况。 ≥0 队列 5分钟 queue_min_cu_num 队列最小CU 展示用户队列中的最小CU。 ≥0 队列 5分钟 queue_max_cu_num 队列最大CU 展示用户队列中的最大CU。 ≥0 队列 5分钟 queue_priority 队列优先级 展示用户队列的优先级。 1~100 队列 5分钟 queue_cpu_usage 队列CPU使用率 展示用户队列的CPU使用率。 0~100 队列 5分钟 queue_disk_usage 队列磁盘使用率 展示用户队列的磁盘使用率。 0~100 队列 5分钟 queue_disk_used 队列磁盘使用率最大值 展示用户队列的磁盘使用率的最大值。 0~100 队列 5分钟 queue_mem_usage 队列内存使用率 展示用户队列的内存使用率。 0~100 队列 5分钟 queue_mem_used 队列内存使用量 展示用户队列的内存使用量。 ≥0 队列 5分钟 flink_read_records_per_second Flink作业数据输入速率 展示用户Flink作业的数据输入速率,供监控和调试使用。 ≥0 Flink作业 10秒钟 flink_write_records_per_second Flink作业数据输出速率 展示用户Flink作业的数据输出速率,供监控和调试使用。 ≥0 Flink作业 10秒钟 flink_read_records_total Flink作业数据输入总数 展示用户Flink作业的数据输入总数,供监控和调试使用。 ≥0 Flink作业 10秒钟 flink_write_records_total Flink作业数据输出总数 展示用户Flink作业的数据输出总数,供监控和调试使用。 ≥0 Flink作业 10秒钟 flink_read_bytes_per_second Flink作业字节输入速率 展示用户Flink作业每秒输入的字节数。 ≥0 Flink作业 10秒钟 flink_write_bytes_per_second Flink作业字节输出速率 展示用户Flink作业每秒输出的字节数。 ≥0 Flink作业 10秒钟 flink_read_bytes_total Flink作业字节输入总数 展示用户Flink作业字节的输入总数。 ≥0 Flink作业 10秒钟 flink_write_bytes_total Flink作业字节输出总数 展示用户Flink作业字节的输出总数。 ≥0 Flink作业 10秒钟 flink_cpu_usage Flink作业CPU使用率 展示用户Flink作业的CPU使用率。 0~100 Flink作业 10秒钟 flink_mem_usage Flink作业内存使用率 展示用户Flink作业的内存使用率。 0~100 Flink作业 10秒钟 flink_max_op_latency Flink作业最大算子延迟 展示用户Flink作业的最大算子延迟时间,单位ms。Flink时间模型具体可以参考配置时间模型。 ≥0 Flink作业 10秒钟 flink_max_op_backpressure_level Flink作业最大算子反压 展示用户Flink作业的最大算子反压值,数值越大,反压越严重。 0:表示OK 50:表示Low 100:表示High 0~100 Flink作业 10秒钟 elastic_resource_pool_cpu_usage 弹性资源池CPU使用率 展示用户弹性资源池的CPU使用率。 0~100 弹性资源池 5分钟 elastic_resource_pool_mem_usage 弹性资源池内存使用率 展示用户弹性资源池的内存使用率。 0~100 弹性资源池 5分钟 elastic_resource_pool_disk_usage 弹性资源池磁盘使用率 展示用户弹性资源池的磁盘使用率。 0~100 弹性资源池 5分钟 elastic_resource_pool_disk_max_usage 弹性资源池磁盘使用率最大值 展示用户弹性资源池的磁盘使用率最大值。 0~100 弹性资源池 5分钟 elastic_resource_pool_cu_num 弹性资源池CU使用量 展示用户弹性资源池的CU使用量。 ≥0 弹性资源池 5分钟 elastic_resource_pool_alloc_cu_num 弹性资源池CU分配量 展示用户弹性资源池的CU分配情况。 ≥0 弹性资源池 5分钟 elastic_resource_pool_min_cu_num 弹性资源池最小CU 展示用户弹性资源池的最小CU。 ≥0 弹性资源池 5分钟 elastic_resource_pool_max_cu_num 弹性资源池最大CU 展示用户弹性资源池的最大CU。 ≥0 弹性资源池 5分钟
  • 通过CDM导入数据 通过云数据迁移服务(Cloud Data Migration,简称CDM)将OBS上的数据导入到DLI,导入需要创建CDM队列。 具体操作请参见《云数据迁移服务用户指南》的使用CDM迁移OBS的数据到DLI。 在操作过程中请注意以下关键配置: DLI所在的VPC与CDM队列的VPC一致。 需要创建两个连接,即DLI连接,OBS连接。 传输数据的文件格式支持“CSV格式”和“JSON格式”。