数据选择-华为云

AI开发平台MODELARTS-数据去冗余:输出说明

输出说明图像分类输出数据的目录结构如下所示。 output_path/ --Data/ ----class1/ # 如果输入数据有标注信息会一并输出，class1为标注类别 ------1.jpg ----class2/ ------2.jpg ------3.jpg --output.manifest 其中manifest文件内容示例如下所示。 { "id": "xss", "source": "obs://home/fc8e2688015d4a1784dcbda44d840307_14.jpg", "usage": "train", "annotation": [ { "name": "Cat", "type": "modelarts/image_classification" } ] } 物体检测输出数据的目录结构如下所示。 output_path/ --Data/ ----1.jpg ----1.xml # 如果输入数据有标注信息会一并输出，xml为标注文件 ----2.jpg ----3.jpg --output.manifest 其中manifest文件内容示例如下所示。 { "source":"obs://fake/be462ea9c5abc09f.jpg", "annotation":[ { "annotation-loc":"obs://fake/be462ea9c5abc09f.xml", "type":"modelarts/object_detection", "annotation-format":"PASCAL VOC", "annotated-by":"modelarts/hard_example_algo" } ] }

AI开发平台MODELARTS 数据选择

AI开发平台MODELARTS-数据去冗余:输入要求

输入要求算子输入分为两种，“数据集”或“OBS目录”。选择“数据集”，请从下拉框中选择ModelArts中管理的数据集及其版本。要求数据集类型与您在本任务中选择的场景类别一致。选择“OBS目录”，存放结构又分两种情况，“仅包含图片”或“包含图片和标注信息”。 “仅包含图片”：当目录下全是图片时，支持jpg、jpeg、png、bmp格式，嵌套子目录的图片也将全部读入。 “包含图片和标注信息”：根据不同数据类型，结构不同。图像分类，其目录结构如下所示。如下目录结构，仅支持单标签场景。 input_path/ --label1/ ----1.jpg --label2/ ----2.jpg --../ 物体检测，其目录结构如下所示。支持jpg、jpeg、png、bmp格式的图片，xml为标准的PACAL VOC格式标注文件。 input_path/ --1.jpg --1.xml --2.jpg --2.xml ...

AI开发平台MODELARTS 数据选择

AI开发平台MODELARTS-数据去冗余:RRD算子概述

RRD算子概述可以依据用户设置的比例去除差异最大的数据。图1 RRD效果图表1 高级参数说明参数名是否必选默认值参数说明 sample_ratio 否 0.9 数据留下的百分比。取值范围为0~1。例如0.9表示保留百分之90的原数据。 n_clusters auto auto 数据样本的种类数，默认为auto，即按照目录中图片个数取类别总数，可指定具体类别数，如4。 do_validation 否 True 是否进行数据校验，可填True或者False。表示数据去冗余前需要进行数据校验，否则只进行数据去重。

AI开发平台MODELARTS 数据选择

AI开发平台MODELARTS-数据去冗余:输入要求

输入要求算子输入分为两种，“数据集”或“OBS目录”。选择“数据集”，请从下拉框中选择ModelArts中管理的数据集及其版本。要求数据集类型与您在本任务中选择的场景类别一致。选择“OBS目录”，存放结构又分两种情况，“仅包含图片”或“包含图片和标注信息”。 “仅包含图片”：当目录下全是图片时，支持jpg、jpeg、png、bmp格式，嵌套子目录的图片也将全部读入。 “包含图片和标注信息”：根据不同数据类型，结构不同。图像分类，其目录结构如下所示。如下目录结构，仅支持单标签场景。 input_path/ --label1/ ----1.jpg --label2/ ----2.jpg --../ 物体检测，其目录结构如下所示。支持jpg、jpeg、png、bmp格式的图片，xml为标准的PACAL VOC格式标注文件。 input_path/ --1.jpg --1.xml --2.jpg --2.xml ...

AI开发平台MODELARTS 数据选择

AI开发平台MODELARTS-数据去冗余:输出说明

输出说明图像分类输出数据的目录结构如下所示。 output_path/ --Data/ ----class1/ # 若输入数据有标注信息会一并输出，class1为标注类别 ------1.jpg ----class2/ ------2.jpg ------3.jpg --output.manifest 其中manifest文件内容示例如下所示。 { "id": "xss", "source": "obs://home/fc8e2688015d4a1784dcbda44d840307_14.jpg", "usage": "train", "annotation": [ { "name": "Cat", "type": "modelarts/image_classification" } ] } 物体检测输出数据的目录结构如下所示。 output_path/ --Data/ ----1.jpg ----1.xml # 若输入数据有标注信息会一并输出，xml为标注文件 ----2.jpg ----3.jpg --output.manifest 其中manifest文件内容示例如下所示。 { "source":"obs://fake/be462ea9c5abc09f.jpg", "annotation":[ { "annotation-loc":"obs://fake/be462ea9c5abc09f.xml", "type":"modelarts/object_detection", "annotation-format":"PASCAL VOC", "annotated-by":"modelarts/hard_example_algo" } ] }

AI开发平台MODELARTS 数据选择

AI开发平台MODELARTS-数据去冗余:RRD算子概述

RRD算子概述可以依据用户设置的比例去除差异最大的数据。图1 RRD效果图表1 高级参数说明参数名是否必选默认值参数说明 sample_ratio 否 0.9 数据留下的百分比。取值范围为0~1。例如0.9表示保留百分之90的原数据。 n_clusters auto auto 数据样本的种类数，默认为auto，即按照目录中图片个数取类别总数，可指定具体类别数，如 4 do_validation 否 True 是否做数据校验，可填True或者False。表示数据去冗余前需要做数据校验，否则只做数据去重。

AI开发平台MODELARTS 数据选择

云服务器内容精选

数据选择

7*24

备案

专业服务

退订

建议反馈

售前咨询热线