云服务器内容精选

  • 请求示例 创建训练作业标签。设置TMS标签的key/value为“111”和“k3”,TMS标签的key/value为"k3"和“v2”。 POST https://endpoint/v2/{project_id }/trainJob/{training_job_id}/tags/create { "tags" : [ { "key" : "111", "value" : "v2" }, { "key" : "k3", "value" : "v2" } ] }
  • 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 total Integer 训练作业引擎规格总数。 items Array of items objects 引擎规格参数列表。 表3 items 参数 参数类型 描述 engine_id String 引擎规格的ID。如“caffe-1.0.0-python2.7”。 engine_name String 引擎规格的名称。如“Caffe”。 engine_version String 引擎规格的版本。对一个引擎名称,有多个版本的引擎,如使用python2.7的"Caffe-1.0.0-python2.7"等。 v1_compatible Boolean 是否为v1兼容模式。 run_user String 引擎默认启动用户uid。 image_info image_info object 引擎具体信息。 表4 image_info 参数 参数类型 描述 cpu_image_url String cpu规格下对应镜像。 gpu_image_url String gpu或者Ascend规格下对应镜像。 image_version String 镜像版本。
  • 响应示例 状态码: 200 ok { "total" : 20, "items" : [ { "engine_id" : "caffe-1.0.0-python2.7", "engine_name" : "Caffe", "engine_version" : "caffe-1.0.0-python2.7", "v1_compatible" : true, "run_user" : "", "image_info" : { "cpu_image_url" : "modelarts-job-dev-image/caffe1-cpu-cp27:1.0.0", "gpu_image_url" : "modelarts-job-dev-image/caffe1-gpu-cuda8-cp27:1.0.0", "image_version" : "3.1.0" } }, { "engine_id" : "horovod-cp36-tf-1.16.2", "engine_name" : "Horovod", "engine_version" : "0.16.2-TF-1.13.1-python3.6", "v1_compatible" : true, "run_user" : "", "image_info" : { "cpu_image_url" : "modelarts-job-dev-image/tensorflow-gpu-cuda10-cp36-horovod0162:1.13.1", "gpu_image_url" : "modelarts-job-dev-image/tensorflow-gpu-cuda10-cp36-horovod0162:1.13.1", "image_version" : "3.2.1" } }, { "engine_id" : "horovod_0.20.0-tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64", "engine_name" : "Horovod", "engine_version" : "horovod_0.20.0-tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64", "v1_compatible" : false, "run_user" : "1102", "image_info" : { "cpu_image_url" : "aip/horovod_tensorflow:train", "gpu_image_url" : "aip/horovod_tensorflow:train", "image_version" : "horovod_0.20.0-tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20210912152543-1e0838d" } }, "......", { "engine_id" : "tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64", "engine_name" : "TensorFlow", "engine_version" : "tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64", "v1_compatible" : false, "run_user" : "1102", "image_info" : { "cpu_image_url" : "aip/tensorflow_2_1:train", "gpu_image_url" : "aip/tensorflow_2_1:train", "image_version" : "tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20210912152543-1e0838d" } }, { "engine_id" : "xgboost-sklearn-python3.6", "engine_name" : "XGBoost-Sklearn", "engine_version" : "XGBoost-0.80-Sklearn-0.18.1-python3.6", "v1_compatible" : true, "run_user" : "", "image_info" : { "cpu_image_url" : "modelarts-job-dev-image/python-train-py36:secure", "gpu_image_url" : "", "image_version" : "2.0.10-20211101113705" } } ] }
  • 作业状态参考 作业状态如表1所示。 表1 作业状态 状态值 作业状态说明 0 JOBSTAT_UNKNOWN,作业状态未知。 1 JOBSTAT_INIT,作业初始化状态。 2 JOBSTAT_IMAGE_CREATING,作业镜像正在创建。 3 JOBSTAT_IMAGE_FAILED,作业镜像创建失败。 4 JOBSTAT_SUBMIT_TRYING,作业正在提交。 5 JOBSTAT_SUBMIT_FAILED,作业提交失败。 6 JOBSTAT_DELETE_FAILED,作业删除失败。 7 JOBSTAT_WAITING,作业正在排队中。 8 JOBSTAT_RUNNING,作业正在运行中。 9 JOBSTAT_KILLING,作业正在取消。 10 JOBSTAT_COMPLETED,作业已经完成。 11 JOBSTAT_FAILED,作业运行失败。 12 JOBSTAT_KILLED,作业取消成功。 13 JOBSTAT_CANCELED,作业取消。 14 JOBSTAT_LOST,作业丢失。 15 JOBSTAT_SCALING,作业正在扩容。 16 JOBSTAT_SUBMIT_MODEL_FAILED,提交模型失败。 17 JOBSTAT_DEPLOY_SERVICE_FAILED,部署服务失败。 18 JOBSTAT_CHECK_INIT,审核作业初始化。 19 JOBSTAT_CHECK_RUNNING,审核作业正在运行中。 20 JOBSTAT_CHECK_RUNNING_COMPLETED,审核作业已经完成。 21 JOBSTAT_CHECK_FAILED,审核作业失败。 父主题: 训练管理(旧版)
  • 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 content String 日志内容。如果日志大小没有超过上限(n兆)则返回全部内容,如果日志超过了上限(n兆)则返回最新的n兆的日志。2022/03/01 00:00:00 (GMT+08:00)后,此参数名称由“context”改为“content”。 current_size Integer 当前返回的日志大小(单位:字节)。最大为5兆。 full_size Integer 完整的日志大小(单位:字节)。
  • 响应示例 状态码: 200 ok { "content" : "[Modelarts Service Log]collect and upload ascend logs end at 2021-05-18-14:28:13\n[Modelarts Service Log]exiting..: \n [Modelarts Service Log]exiting...\n[Modelarts Service Log]exiting..: \n [Modelarts Service Log]exiting...\n[Modelarts Service Log]exit with : \n [Modelarts Service Log]exit with 0\n[Modelarts Service Log]exit with : \n [Modelarts Service Log]exit with 0\n[ModelArts Service Log][INFO][2021/05/18 14:28:14,207]:\n output-handler finalizing due to: [training finished]\n[ModelArts Service Log][INFO][2021/05/18 14:28:14,207]:\n output-handler finalized\n[Modelarts Service Log][sidecar] exiting at 2021-05-18-14:28:14\n[Modelarts Service Log][sidecar] wait python processes exit..: \n [Modelarts Service Log][sidecar] wait python processes exit...\n[Modelarts Service Log][sidecar] exit with :\n [Modelarts Service Log][sidecar] exit with 0", "current_size" : 126548, "full_size" : 5242880 }
  • URI GET /v2/{project_id}/training-jobs/{training_job_id}/tasks/{task_id}/logs/preview 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的 status.tasks 字段中获取。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的 status.tasks 字段中获取。
  • 作业状态参考 作业状态如表1所示。 表1 作业状态 状态值 说明 0 JOBSTAT_UNKNOWN,作业状态未知。 1 JOBSTAT_INIT,作业初始化状态。 2 JOBSTAT_IMAGE_CREATING,作业镜像正在创建。 3 JOBSTAT_IMAGE_FAILED,作业镜像创建失败。 4 JOBSTAT_SUBMIT_TRYING,作业正在提交。 5 JOBSTAT_SUBMIT_FAILED,作业提交失败。 6 JOBSTAT_DELETE_FAILED,作业删除失败。 7 JOBSTAT_WAITING,作业正在排队中。 8 JOBSTAT_RUNNING,作业正在运行中。 9 JOBSTAT_KILLING,作业正在取消。 10 JOBSTAT_COMPLETED,作业已经完成。 11 JOBSTAT_FAILED,作业运行失败。 12 JOBSTAT_KILLED,作业取消成功。 13 JOBSTAT_CANCELED,作业取消。 14 JOBSTAT_LOST,作业丢失。 15 JOBSTAT_SCALING,作业正在扩容。 16 JOBSTAT_SUBMIT_MODEL_FAILED,提交模型失败。 17 JOBSTAT_DEPLOY_SERVICE_FAILED,部署服务失败。 18 JOBSTAT_CHECK_INIT,审核作业初始化。 19 JOBSTAT_CHECK_RUNNING,审核作业正在运行中。 20 JOBSTAT_CHECK_RUNNING_COMPLETED,审核作业已经完成。 21 JOBSTAT_CHECK_FAILED,审核作业失败。 22 MOUNT_FAILED,挂载失败。 父主题: 训练管理(旧版)
  • 创建可视化作业 登录ModelArts管理控制台,在左侧导航栏中选择“训练作业”,然后单击“可视化作业”页签。 在可视化作业列表中,单击左上方“创建”,进入“创建可视化作业”界面。 其中,“计费模式”设置为“按需计费”,“作业类型”为“TensorBoard”和“MindInsight”两种类型。请根据实际情况填写可视化作业“名称”、“描述”,设置“训练输出位置”和“自动停止”参数。 “训练输出位置”:选择创建训练作业时的“训练输出位置”。 “自动停止”:设置是否开启自动停止功能。由于运行中的可视化作业会一直计费,为避免产生不必要的费用,您可以开启自动停止功能,在指定时间后自动停止可视化作业。目前支持设置为“1小时后”、“2小时后”、“4小时后”、“6小时后”、“自定义”。如果选择“自定义”的模式,可在右侧输入框中输入1~24范围内的任意整数。 图1 创建可视化作业 参数填写完成后,单击“下一步”进行规格确认。 规格确认无误后,单击“立即创建”,完成可视化作业的创建。 在可视化作业列表中,当状态变为“运行中”时,表示可视化作业已创建完成。您可以单击可视化作业名称进入查看详情。