AI开发平台MODELARTS-数据校验:MetaValidation算子概述
MetaValidation算子概述
ModelArts的数据校验通过MetaValidation算子实现。当前ModelArts支持jpg、jpeg、bmp、png四种图片格式。物体检测场景支持xml标注格式,不支持“非矩形框”标注。针对您提供的数据集,MetaValidation算子支持对图片和xml文件进行数据校验:
异常情况 |
处理方案 |
---|---|
图片本身损坏无法解码 |
过滤掉不能解码的图片 |
图片通道可能是1通道、2通道,不是常用的3通道 |
转换图片成RGB三通道 |
图片格式不在ModelArts支持的格式范围内 |
转换图片格式至jpg格式 |
图片后缀与实际格式不符,但格式在ModelArts支持的格式内 |
后缀转换成与实际格式一致 |
图片后缀与实际格式不符,且格式不在ModelArts支持的格式内 |
转换图片格式至jpg格式 |
图片分辨率过大 |
宽、高按指定大小同比例进行裁剪 |
异常情况 |
处理方案 |
---|---|
xml结构残缺,无法解析 |
过滤xml文件 |
xml中没有标注“object” |
过滤xml文件 |
xml中没有矩形框“bndbox” |
过滤xml文件 |
某些标注“object”中没有矩形框“bndbox” |
过滤标注“object” |
图片经过裁剪后,xml文件中宽高不符 |
修改错误宽高参数为图片真实宽高 |
xml中没有“width”、“height”字段 |
根据图片真实宽高补全xml中的“width”、“height”字段和值 |
图片经过裁剪后,xml中矩形框“bndbox”大小不符 |
按图片裁剪比例缩放xml文件中“bnxbox”值 |
xml中矩形框“bndbox”宽或高值过小,显示为一条线 |
矩形框宽或高差值小于2,移除当前“object” |
xml中矩形框“bndbox”最小值大于最大值 |
移除当前“object” |
矩形框“bndbox”超出图片边界,且超出部分占框面积50%以上 |
移除当前“object” |
矩形框“bndbox”超出图片边界,但超出部分小于框面积50% |
矩形框“bndbox”拉回到图片边界 |
![](https://support.huaweicloud.com/dataprocess-modelarts/public_sys-resources/note_3.0-zh-cn.png)
数据校验过程不会改动原始数据,通过校验的图片或xml文件保存在指定的输出路径下。