数据处理预置算子说明-华为云

AI开发平台MODELARTS-数据校验:MetaValidation算子概述

MetaValidation算子概述 ModelArts的数据校验通过MetaValidation算子实现。当前ModelArts支持jpg、jpeg、bmp、png四种图片格式。物体检测场景支持xml标注格式，不支持“非矩形框”标注。针对您提供的数据集，MetaValidation算子支持对图片和xml文件进行数据校验：表1 图片类数据校验异常情况处理方案图片本身损坏无法解码过滤掉不能解码的图片图片通道可能是1通道、2通道，不是常用的3通道转换图片成RGB三通道图片格式不在ModelArts支持的格式范围内转换图片格式至jpg格式图片后缀与实际格式不符，但格式在ModelArts支持的格式内后缀转换成与实际格式一致图片后缀与实际格式不符，且格式不在ModelArts支持的格式内转换图片格式至jpg格式图片分辨率过大宽、高按指定大小同比例进行裁剪表2 标注类文件数据校验异常情况处理方案 xml结构残缺，无法解析过滤xml文件 xml中没有标注“object” 过滤xml文件 xml中没有矩形框“bndbox” 过滤xml文件某些标注“object”中没有矩形框“bndbox” 过滤标注“object” 图片经过裁剪后，xml文件中宽高不符修改错误宽高参数为图片真实宽高 xml中没有“width”、“height”字段根据图片真实宽高补全xml中的“width”、“height”字段和值图片经过裁剪后，xml中矩形框“bndbox”大小不符按图片裁剪比例缩放xml文件中“bnxbox”值 xml中矩形框“bndbox”宽或高值过小，显示为一条线矩形框宽或高差值小于2，移除当前“object” xml中矩形框“bndbox”最小值大于最大值移除当前“object” 矩形框“bndbox”超出图片边界，且超出部分占框面积50%以上移除当前“object” 矩形框“bndbox”超出图片边界，但超出部分小于框面积50% 矩形框“bndbox”拉回到图片边界数据校验过程不会改动原始数据，通过校验的图片或xml文件保存在指定的输出路径下。

AI开发平台MODELARTS 数据处理预置算子说明

AI开发平台MODELARTS-数据校验:输入要求

输入要求算子输入分为两种，“数据集”或“OBS目录”。选择“数据集”，请从下拉框中选择ModelArts中管理的数据集及其版本。要求数据集类型与您在本任务中选择的场景类别一致。选择“OBS目录”，存放结构又分两种情况，“仅包含图片”或“包含图片和标注信息”。 “仅包含图片”：当目录下全是图片时，支持jpg、jpeg、png、bmp格式，嵌套子目录的图片也将全部读入。 “包含图片和标注信息”：根据不同场景类型，结构不同。图像分类场景，其目录结构如下所示。如下目录结构，仅支持单标签场景。 input_path/ --label1/ ----1.jpg --label2/ ----2.jpg --../ 物体检测场景，其目录结构如下所示。支持jpg、jpeg、png、bmp格式的图片，xml为标准的PACAL VOC格式标注文件。 input_path/ --1.jpg --1.xml --2.jpg --2.xml ...

AI开发平台MODELARTS 数据处理预置算子说明

AI开发平台MODELARTS-数据校验:输出说明

输出说明图像分类输出数据的目录结构如下所示。 output_path/ --Data/ ----class1/ # 如果输入数据有标注信息会一并输出，class1为标注类别 ------1.jpg ------2_checked.jpg ----class2/ ------3.jpg ------4_checked.jpg ----5_checked.jpg --output.manifest 其中manifest文件内容示例如下所示。会给每一条数据加上一个校验属性"property":{"@modelarts:data_checked":true}。 { "id": "xss", "source": "obs://hard_example_path/Data/fc8e2688015d4a1784dcbda44d840307_14_checked.jpg", "property": { "@modelarts:data_checked": true }, "usage": "train", "annotation": [ { "name": "Cat", "type": "modelarts/image_classification" } ] } 物体检测在输出目录下，文件结构如下所示。 output_path/ --Data/ ----1_checked.jpg ----1_checked.xml # 如果输入数据在校验过程中经过了转换，文件名会加上'_checked' ----2.jpg # 如果输入数据未经过转换，则以原来的名字保存 ----2.xml --output.manifest 其中manifest文件内容示例如下所示。会给每一条数据加上一个校验属性"property":{"@modelarts:data_checked":true}。 { "source": "obs://hard_example_path/Data/be462ea9c5abc09f_checked.jpg", "property": { "@modelarts:data_checked": true }, "annotation": [ { "annotation-loc": "obs://hard_example_path/Data/be462ea9c5abc09f_checked.xml", "type": "modelarts/object_detection", "annotation-format": "PASCAL VOC", "annotated-by": "modelarts/hard_example_algo" } ] }

AI开发平台MODELARTS 数据处理预置算子说明

AI开发平台MODELARTS-数据清洗:输入要求

输入要求算子输入分为两种，“数据集”或“OBS目录”。选择“数据集”，请从下拉框中选择ModelArts中管理的数据集及其版本。要求数据集类型与您在本任务中选择的场景类别一致。选择“OBS目录”，存放结构又分两种情况，“仅包含图片”或“包含图片和标注信息”。 “仅包含图片”：当目录下全是图片时，支持jpg、jpeg、png、bmp格式，嵌套子目录的图片也将全部读入。 “包含图片和标注信息”：根据不同场景类型，结构不同。图像分类场景，其目录结构如下所示。如下目录结构，仅支持单标签场景。 input_path/ --label1/ ----1.jpg --label2/ ----2.jpg --../ 物体检测场景，其目录结构如下所示。支持jpg、jpeg、png、bmp格式的图片，xml为标准的PACAL VOC格式标注文件。 input_path/ --1.jpg --1.xml --2.jpg --2.xml ...

AI开发平台MODELARTS 数据处理预置算子说明

AI开发平台MODELARTS-数据清洗:输出说明

输出说明图像分类输出数据的目录结构如下所示。 output_path/ --Data/ ----class1/ # 若输入数据有标注信息会一并输出，class1为标注类别 ------1.jpg ----class2/ ------2.jpg ----3.jpg --output.manifest 其中manifest文件内容示例如下所示。 { "id": "xss", "source": "obs://home/fc8e2688015d4a1784dcbda44d840307_14.jpg", "usage": "train", "annotation": [ { "name": "Cat", "type": "modelarts/image_classification" } ] } 物体检测输出数据的目录结构如下所示。 output_path/ --Data/ ----1.jpg ----1.xml # 若输入数据有标注信息会一并输出，xml为标注文件 ----2.jpg ----3.jpg --output.manifest 其中manifest文件内容示例如下所示。 { "source":"obs://fake/be462ea9c5abc09f.jpg", "annotation":[ { "annotation-loc":"obs://fake/be462ea9c5abc09f.xml", "type":"modelarts/object_detection", "annotation-format":"PASCAL VOC", "annotated-by":"modelarts/hard_example_algo" } ] }

AI开发平台MODELARTS 数据处理预置算子说明

AI开发平台MODELARTS-数据清洗:参数说明

参数说明表1 数据清洗-PCC算子参数说明参数名是否必选默认值参数说明 prototype_sample_path 是 None 数据清洗正样例目录。目录应存放正样例图片文件，算法将这些图片为正样例，对输入中的数据进行过滤，即保留与“prototype_sample_path”目录下图片相似度高的数据。请输入一个真实存在的OBS目录，且目录下已包含提供的正样例图片，且以obs://开头。如：obs://obs_bucket_name/folder_name criticism_sample_path 否 None 数据清洗负样例目录。目录应存放负样例图片文件，算法将这些图片为负样例，对算法输入中的数据进行过滤，即保留与“criticism_sample_path”目录下图片相似度差距较大的数据。建议该参数和“prototype_sample_path”配合使用，可以提高数据清洗的准确性。请输入一个真实存在的OBS目录，且以obs://开头。如：obs://obs_bucket_name/folder_name n_clusters 否 auto 数据样本的种类数，默认值auto。您可以输入小于样本总数的整数或auto。auto表示使用正样本目录的图片个数作为数据样本的种类数。 simlarity_threshold 否 0.9 相似度阈值。两张图片相似程度超过阈值时，判定为相似图片，反之按非相似图片处理。输入取值范围为0~1。 embedding_distance 否 0.2 样本特征间距。两张图片样本特征间距小于设定值，判定为相似图片，反之按非相似图片处理。输入取值范围为0~1。 do_validation 否 True 是否做数据校验，可填True或者False。表示数据清洗前需要做数据校验，否则只做数据清洗。

AI开发平台MODELARTS 数据处理预置算子说明

云服务器内容精选

数据处理预置算子说明

7*24

备案

专业服务

退订

建议反馈

售前咨询热线