云服务器内容精选

  • 资源占用情况 在任务运行中,资源占用情况模块显示任务占用的CPU、内存、GPU/显存利用率、占用率百分比的折线图。默认显示CPU占用情况折线图。 图7 资源占用情况 双击任一图例:显示全部资源占用折线图。 单击指定图例:只显示该图例折线图。 此模块也可显示多个计算节点运行任务时,资源占用的情况。 如果选择2个计算节点运行任务,则可选择查看单个节点资源占用情况。 如果1个计算节点上存在多张GPU,则会显示所有GPU占用情况。 资源占用情况功能模块,需要用户在制作 自定义镜像 时安装psutil与pynvml,参考命令如下: pip install psutil pynvml 如果未安装psutil与pynvml,则页面无法显示资源使用状况。
  • 训练任务相关操作 在“训练任务”列表,可对训练任务进行以下操作: 表1 训练任务相关操作 任务 操作步骤 查找任务 在搜索输入框中输入搜索条件,按回车键即可查询。 查看任务详情 单击任务名称,可在任务详情页查看该任务详情、参数信息、任务日志和资源占用情况。 任务详情:任务ID、名称、描述、状态、资源类型等信息。 参数详情:训练算法参数以及环境变量信息。 任务日志:任务运行过程中生成的日志信息,详情请查看训练任务日志查看和下载。 资源占用情况:显示任务占用的CPU、内存、GPU(显存)利用率、占用率等指标百分比折线图,详情请查看资源占用情况。 删除任务 单击操作栏的“删除”,删除单个任务。 勾选多个任务,单击列表上方的“删除”,可批量删除任务。 创建新任务 单击操作栏内的“创建新任务”,输入新任务名称(“任务组名-自定义名称”)和“删除原有任务”选项,创建新任务时可调整训练参数,如资源规格、训练数据集、参数列表和模型仓库。 停止任务 对于运行中、等待中的任务,用户可以单击操作栏的“停止”终止任务。 训练任务相关操作与任务所处状态约束关系请见下表: 表2 训练任务相关操作与任务所处状态约束 作业状态 创建新任务 删除 停止 排队中 - √ √ 提交中 - - - 提交失败 √ √ - 运行中 - - √ 运行异常 √ √ - 已完成 √ √ - 停止中 - - - 停止失败 - √ - 已停止 √ √ - 删除中 - - - 删除失败 - √ -
  • 训练任务日志查看和下载 训练任务运行的过程中生成日志,训练任务模块提供了日志的查看以及下载功能,支持用户查看训练任务的运行情况。训练任务生成的日志文件有以下四种: train-{id}-{index}.log:用户实际训练任务的训练日志。 train-{id}-{index}-init.log:Octopus平台提供的前置数据的准备日志。 train-{id}-{index}-sidecar.log:Octopus平台提供的任务流程控制日志,包括日志同步、结果上传。 octopus-train-{id}-{index}-supplemental.logs: Octopus平台任务异常退出或停止产生的错误信息输出日志,运行正常时不产生该日志。 {id}为该训练任务ID,{index}为节点编号,例如单节点single-0,多节点distributed-0 distributed-1。 详情页,单击“任务日志”,可查看该训练任务日志详情。支持在线浏览或下载至本地。如果日志较多,用户可在搜索框中输入关键字,查找指定日志内容。 图6,在日志服务页面中的日志列表部分详细展示了该训练任务包含的日志文件的大小以及最近写入时间。单击文件后的“查看”,算法训练的详细执行过程会在日志详情部分展示。用户也可在日志文件后的“操作”栏中,单击“下载”,即可将该日志文件下载到本地查看。 图6 日志文件