云服务器内容精选

  • 背景说明 针对ModelArts中的数据集,在创建数据集时,需指定“数据集输入位置”和“数据集输出位置”。两个参数填写的均是OBS路径。 “数据集输入位置”即原始数据存储的OBS路径。 “数据集输出位置”,指在ModelArts完成数据标注后,执行数据集发布操作后,在此指定路径下,按数据集版本,生成相关目录。包含ModelArts中使用的Manifest文件(包含数据及标注信息)。详细文件说明可参见数据集发布后,相关文件的目录结构说明。
  • 团队标注时,为什么团队成员收不到邮件? 团队标注时,成员收不到邮件的可能原因如下: 当数据集中的所有数据已完成标注,即“未标注”数据为空时,创建的团队标注任务,因为没有数据需要标注,不会给团队成员发送标注邮件。在发起团队标注任务时,请确保数据集中存在“未标注”数据。 只有当创建团队标注任务时,标注人员才会收到邮件。创建标注团队及添加标注团队的成员并不会发送邮件。 请确保您的邮箱已完成配置且配置无误。可参考管理成员,完成邮箱配置。 团队成员自检其邮箱是否有拦截设置。 父主题: 数据管理(旧版)
  • 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 delete_source 否 Boolean 是否删除源文件,对非文本类型数据集有效(文本类型数据集因为是导入的整个文本文件,故删除一条样本不会对源文本有影响)。可选值如下: false:不删除源文件(默认值) true:删除源文件(注意:此操作可能影响已使用这些文件的数据集版本或其他数据集,导致页面展示异常或者训练/推理异常) samples 否 Array of strings 样本ID列表。
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 results Array of BatchResponse objects 批量删除样本的响应列表。 success Boolean 操作是否执行成功。可选值如下: true:执行成功 false:执行失败 表4 BatchResponse 参数 参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 success Boolean 操作是否执行成功。可选值如下: true:执行成功 false:执行失败
  • URI GET /v2/{project_id}/processor-tasks/items 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 offset 否 Integer 分页列表的起始页,默认为0。 limit 否 Integer 指定每一页返回的最大条目数,取值范围[1,1000],默认为1000。
  • 响应示例 状态码: 200 OK { "total" : 4, "items" : [ { "template_id" : "sys_data_cleaning", "label_zh" : "label_zh to translate", "label_en" : "data cleaning" }, { "template_id" : "sys_data_validation", "label_zh" : "label_zh to translate", "label_en" : "data validation" }, { "template_id" : "sys_data_selection", "label_zh" : "label_zh to translate", "label_en" : "data selection" }, { "template_id" : "sys_data_augmentation", "label_zh" : "label_zh to translate", "label_en" : "data augmentation" } ] }
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 items Array of ProcessorTaskItem objects 算法类别的列表。 total Integer 总数。 表4 ProcessorTaskItem 参数 参数类型 描述 label_en String 算法类别的英文名称。 label_zh String 算法类别名称。 template_id String 算法类别的ID。
  • 不同类型数据集支持的功能列表 其中,不同类型的数据集,支持不同的功能,详细信息请参见表2。 表2 不同类型的数据集支持的功能 数据集类型 创建数据集 导入数据 导出数据 发布数据集 修改数据集 管理版本 智能标注 团队标注 自动分组 数据特征 一键模型上线 图像分类 支持 支持 支持 支持 支持 支持 支持 支持 支持 支持 支持 物体检测 支持 支持 支持 支持 支持 支持 支持 支持 支持 支持 支持 图像分割 支持 支持 支持 支持 支持 支持 - - 支持 - - 声音分类 支持 支持 - 支持 支持 支持 - - - - - 语音内容 支持 支持 - 支持 支持 支持 - - - - - 语音分割 支持 支持 - 支持 支持 支持 - 支持 - - - 文本分类 支持 支持 - 支持 支持 支持 - 支持 - - - 命名实体 支持 支持 - 支持 支持 支持 - 支持 - - - 文本三元组 支持 支持 - 支持 支持 支持 - 支持 - - - 表格 支持 支持 - 支持 支持 支持 - - - - - 视频 支持 支持 - 支持 支持 支持 - - - - - 自由格式 支持 - 支持 支持 支持 支持 - - - - -
  • 数据集的类型 当前ModelArts支持如下类型的数据集。包含图片、音频、文本、表格、视频和其他类别。 图片 图像分类:识别一张图片中是否包含某种物体。 物体检测:识别出图片中每个物体的位置及类别。 图像分割:识别出图片中每个物体的轮廓。 音频 声音分类:对声音进行分类。 语音内容:对语音内容进行标注。 语音分割:对语音进行分段标注。 文本 文本分类:对文本的内容按照标签进行分类处理。 命名实体:针对文本中的实体片段进行标注,如“时间”、“地点”等。 文本三元组:针对文本中的实体片段和实体之间的关系进行标注。 表格 表格:适合表格等结构化数据处理。文件格式支持csv。不支持标注,支持对部分表格数据进行预览,但是最多支持100条数据预览。 视频 视频标注:识别出视频中每个物体的位置及分类。目前仅支持mp4格式。 其他 自由格式:管理的数据可以为任意格式,目前不支持标注,适用于无需标注或开发者自行定义标注的场景。如果您的数据集需存在多种格式数据,或者您的数据格式不符合其他类型数据集时,可选择自由格式的数据集。 图1 自由格式数据集示例
  • 数据集管理流程及功能简介 图2 标注管理全流程 表1 功能介绍 功能 说明 创建数据集(旧版) 创建一个新的数据集。 图像分类 物体检测 文本分类 命名实体 文本三元组 声音分类 语音内容 语音分割 视频标注 针对不同类型的数据集,对数据进行标注。“自由格式”和“表格”类型的数据集暂不支持数据标注。 导入操作 将数据导入数据集中。 导出数据 支持将部分数据导出为新的数据集或者将数据导出至OBS。同时支持对任务历史进行查看和管理。 修改数据集 修改数据集的基本信息。如数据集名称、描述或标签等信息。 发布数据集 将标注后的数据集发布为新版本,以便应用于后续的模型构建。 管理数据集版本 通过数据集版本查看演进过程。 智能标注 支持对未标注的数据快速完成数据标注,为您节省70%以上的标注时间。 自动分组 您可以针对您选中的数据,执行自动分组,提升您的数据标注效率。 数据特征 对数据进行特征分析,帮助您了解数据。 团队标注简介 支持多人标注同一个数据集,且支持数据集创建者统一管理标注任务。添加团队及其成员,参与到数据集的标注工作。 数据处理 为了保障数据质量,以免对后续操作(如数据标注、模型训练等)带来负面影响,开发过程通常需要进行数据处理。常见的数据处理类型有:数据校验、数据清洗、数据选择、数据增强。 删除数据集 删除数据集以释放资源。