云服务器内容精选

  • 请求示例 如下以创建名为“visualization-job”,描述为“this is a visualization job”,OBS路径为“/obs/name/”的可视化作业为例。 POST https://endpoint/v1/{project_id}/visualization-jobs { "job_name": "visualization-job", "job_desc": "this is a visualization job", "train_url": "/obs/name/", "job_type": "mindinsight", "schedule": [ { "type": "stop", "time_unit": "HOURS", "duration": 1 } ] }
  • 响应示例 成功响应示例 { "is_success": true, "job_id": "10", "job_name": "visualization-job", "status": "1", "create_time": "1524189990635" } 失败响应示例 { "is_success": false, "error_message": "error message", "error_code": "ModelArts.0103" }
  • 请求消息 请求参数如表2所示。 表2 请求参数 参数 是否必选 参数类型 说明 job_name 是 String 可视化作业名称。限制为1-20位只含数字,字母,下划线,中划线的名称。 job_desc 否 String 对可视化作业的描述,默认为空,字符串的长度限制为[0, 256]。 train_url 是 String OBS路径地址。 job_type 否 String 可视化的类型,可选的有tensorboard和mindinsight,默认为tensorboard。 flavor 否 Object 创建可视化作业选择的规格,用户无需填写。参见表3。 schedule 否 Object 自动停止设置。参见表4。 表3 flavor属性列表 参数 是否必选 参数类型 说明 code 是 String 可视化作业选择的资源规格编码。通过flavor接口获得。 表4 schedule属性列表 参数 是否必选 参数类型 说明 type 是 String 设置为stop。 time_unit 是 String 自动停止功能的时间单位 HOURS。 duration 是 Int 自动停止,时间范围为[0,24]。
  • 响应消息 响应参数如表5所示。 表5 响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 job_id Long 可视化作业的ID。 job_name String 可视化作业的名称 status Integer 可视化作业的运行状态,详细作业状态列表请参见作业状态参考。 create_time Long 可视化作业的创建时间,时间戳格式。 service_url String 可视化作业的endpoint。
  • Flink WebUI关键能力 FlinkWebUI关键能力如表1: 表1 Flink WebUI关键能力 关键能力分类 描述 批流一体 支持一套Flink SQL定义批作业和流作业。 Flink SQL内核能力 Flink SQL支持自定义大小窗、24小时以内流计算、超出24小时批处理。 Flink SQL支持Kafka、HDFS读取;支持写入Kafka和HDFS。 支持同一个作业定义多个Flink SQL,多个指标合并在一个作业计算。当一个作业是相同主键、相同的输入和输出时,该作业支持多个窗口的计算。 支持AVG、SUM、COUNT、MAX和MIN统计方法。 Flink SQL可视化定义 集群连接管理,配置Kafka、HDFS等服务所属的集群信息。 数据连接管理,配置Kafka、HDFS等服务信息。 数据表管理,定义Sql访问的数据表信息,用于生成DDL语句。 Flink SQL作业定义,根据用户输入的Sql,校验、解析、优化、转换成Flink作业并提交运行。 Flink作业可视化管理 支持可视化定义流作业和批作业。 支持作业资源、故障恢复策略、Checkpoint策略可视化配置。 流作业和批作业的状态监控。 Flink作业运维能力增强,包括原生监控页面跳转。 性能&可靠性 流处理支持24小时窗口聚合计算,毫秒级性能。 批处理支持90天窗口聚合计算,分钟级计算完成。 支持对流处理和批处理的数据进行过滤配置,过滤无效数据。 读取HDFS数据时,提前根据计算周期过滤。 作业定义平台故障、服务降级,不支持再定义作业,但是不影响已有作业计算。 作业故障有自动重启机制,重启策略可配置。
  • Flink WebUI特点 Flink WebUI主要有以下特点: 企业级可视化运维:运维管理界面化、作业监控、作业开发Flink SQL标准化等。 快速建立集群连接:通过集群连接功能配置访问一个集群,需要客户端配置、用户认证密钥文件。 快速建立数据连接:通过数据连接功能配置访问一个组件。创建“数据连接类型”为“HDFS”类型时需创建集群连接,其他数据连接类型的“认证类型”为“KERBEROS”需创建集群连接,“认证类型”为“SIMPLE”不需创建集群连接。 “数据连接类型”为“Kafka”时,认证类型不支持“KERBEROS”。 可视化开发平台:支持自定义输入/输出映射表,满足不同输入来源、不同输出目标端的需求。 图形化作业管理:简单易用。
  • Flink WebUI应用流程 Flink WebUI应用流程参考如下步骤: 图1 Flink WebUI应用流程 表2 Flink WebUI应用流程说明 阶段 说明 参考章节 创建应用 通过应用来隔离不同的上层业务。 创建应用 创建集群连接 通过集群连接配置访问不同的集群。 创建集群连接 创建数据连接 通过数据连接,访问不同的数据服务,包括HDFS、Kafka等。 创建数据连接 创建流表 通过数据表,定义源表、维表、输出表的基本属性和字段信息。 创建流表 创建SQL/JAR作业(流式/批作业) 定义Flink作业的API,包括Flink SQL和Flink Jar作业。 创建作业 作业管理 管理创建的作业,包括作业启动、开发、停止、删除和编辑等。 创建作业
  • 操作场景 FlinkServer WebUI页面支持作业、UDF、流表的导入导出,不支持集群管理、数据连接、应用管理、CheckPoint的导入导出。 当导入时,同一集群内不支持导入同名的作业、同名的流表、同名的UDF。 作业导出时,需手动勾选作业依赖的流表、UDF等信息,如果未勾选,校验时会弹出提示框提示需要勾选的依赖数据。作业的应用信息不会导出。 流表导出时,不解析处理流表的依赖,即流表依赖的应用信息不会导出。 UDF导出时,不解析处理UDF的依赖和被动依赖,即UDF依赖的应用信息和在哪些作业被使用的信息不会导出。 支持不同应用之间的导入导出。 根据安全需求,导入或导出FlinkSQL作业时,作业中的“password”字段会被置为空。提交作业前,需手动补齐密码信息。
  • 操作场景 当集群运行大量Flink作业时,为方便用户对每个作业进行健康状态评估,FlinkServer WebUI提供Flink作业健康度管理功能,用户可直接在页面查看当前作业的健康情况,并可一键导出所有作业的健康度信息。作业状态分如下情况: 健康:作业运行正常,作业状态健康。 亚健康: 出现“ALM-45637 Flink作业task持续背压”告警,根据告警信息修复告警后,健康状态自动恢复至健康。 出现“ALM-45639 Flink作业checkpoint完成时间超过阈值”告警,根据告警信息修复告警后,健康状态自动恢复至健康。 不健康: 出现“ALM-45636 Flink作业连续checkpoint失败”告警,根据告警信息修复告警后,健康状态自动恢复至健康。 出现“ALM-45638 Flink作业失败重启次数超阈值”告警,根据告警信息修复告警后,需重启该作业,作业自动恢复至健康。
  • 前提条件 集群运行正常,并已安装集群客户端。 提交作业前,需配置“客户端安装路径/Flink/flink/conf/flink-conf.yaml”文件,开启作业注册到FlinkServer功能和作业告警功能,参数设置如下: 表1 开启作业注册和作业告警功能 参数 值 描述 job.register.enable true 是否开启作业注册到FlinkServer: true:开启 false:不开启 job.alarm.enable true 是否开启作业告警: true:开启 false:不开启 通过客户端注册到FlinkServer的作业,如果未开启作业注册到FlinkServer功能,暂不支持在FlinkServer WebUI执行启动、开发、停止等操作。 需确保未使用“Session模式”提交作业并且需要指定作业名。
  • 操作步骤 访问Flink WebUI,请参考访问Flink WebUI。 单击“作业管理”进入作业管理页面。 查看作业健康度 在作业管理页面查看当前作业的健康状态: 空:作业未运行,无健康状态 绿色图标:健康 黄色图标:亚健康 红色图标:不健康 导出所有作业健康报告 单击“作业健康报告”,系统会自动将所有作业的健康状态信息导出至本地,包括作业名称,健康度,提交用户,告警信息,配置信息和启动时间等。 健康度为“0”:健康 健康度为“1”:亚健康 健康度为“2”:不健康
  • 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式一: 根据指定的visualization_id停止 1 2 3 4 5 from modelarts.session import Session from modelarts.estimator import VisualizationJob session = Session() job = VisualizationJob(modelarts_session=session, visualization_id='8992') status = job.stop_visualization_job() 方式二: 根据创建可视化作业生成的可视化作业对象停止 1 status = job_visualization_instance.stop_visualization_job() 方式三: 根据查询可视化作业对象列表返回的指定可视化作业对象停止 1 status = job_visualization_instance_list[0].stop_visualization_job()
  • 参数说明 表1 VisualizationJob请求参数说明 参数 是否必选 参数类型 描述 modelarts_session 是 Object 会话对象,初始化方法见Session鉴权。 visualization_id 是 String 可视化作业ID。 表2 stop_visualization_job返回参数说明 参数 参数类型 描述 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 error_msg String 调用失败时的错误信息。 调用成功时无此字段。 is_success Boolean 接口调用是否成功。