AI开发平台MODELARTS-数据校验:MetaValidation算子概述

时间:2024-04-30 18:33:59

MetaValidation算子概述

ModelArts的数据校验通过MetaValidation算子实现。当前ModelArts支持jpg、jpeg、bmp、png四种图片格式。物体检测场景支持xml标注格式,不支持“非矩形框”标注。针对您提供的数据集,MetaValidation算子支持对图片和xml文件进行数据校验:

表1 图片类数据校验

异常情况

处理方案

图片本身损坏无法解码

过滤掉不能解码的图片

图片通道可能是1通道、2通道,不是常用的3通道

转换图片成RGB三通道

图片格式不在ModelArts支持的格式范围内

转换图片格式至jpg格式

图片后缀与实际格式不符,但格式在ModelArts支持的格式内

后缀转换成与实际格式一致

图片后缀与实际格式不符,且格式不在ModelArts支持的格式内

转换图片格式至jpg格式

图片分辨率过大

宽、高按指定大小同比例进行裁剪

表2 标注类文件数据校验

异常情况

处理方案

xml结构残缺,无法解析

过滤xml文件

xml中没有标注“object”

过滤xml文件

xml中没有矩形框“bndbox”

过滤xml文件

某些标注“object”中没有矩形框“bndbox”

过滤标注“object”

图片经过裁剪后,xml文件中宽高不符

修改错误宽高参数为图片真实宽高

xml中没有“width”“height”字段

根据图片真实宽高补全xml中的“width”“height”字段和值

图片经过裁剪后,xml中矩形框“bndbox”大小不符

按图片裁剪比例缩放xml文件中“bnxbox”

xml中矩形框“bndbox”宽或高值过小,显示为一条线

矩形框宽或高差值小于2,移除当前“object”

xml中矩形框“bndbox”最小值大于最大值

移除当前“object”

矩形框“bndbox”超出图片边界,且超出部分占框面积50%以上

移除当前“object”

矩形框“bndbox”超出图片边界,但超出部分小于框面积50%

矩形框“bndbox”拉回到图片边界

数据校验过程不会改动原始数据,通过校验的图片或xml文件保存在指定的输出路径下。

support.huaweicloud.com/dataprocess-modelarts/dataprocess-modelarts-00003.html