AI开发平台MODELARTS-数据清洗:参数说明

时间:2024-04-30 18:33:59

参数说明

表1 数据清洗-PCC算子参数说明

参数名

是否必选

默认值

参数说明

prototype_sample_path

None

数据清洗正样例目录。目录应存放正样例图片文件,算法将这些图片为正样例,对输入中的数据进行过滤,即保留与“prototype_sample_path”目录下图片相似度高的数据。

请输入一个真实存在的OBS目录,该目录下已包含提供的正样例图片,且以obs://开头。如:obs://obs_bucket_name/folder_name

criticism_sample_path

None

数据清洗负样例目录。目录应存放负样例图片文件,算法将这些图片为负样例,对算法输入中的数据进行过滤, 即保留与“criticism_sample_path”目录下图片相似度差距较大的数据。

建议该参数和“prototype_sample_path”配合使用,可以提高数据清洗的准确性。

请输入一个真实存在的OBS目录,且以obs://开头。如:obs://obs_bucket_name/folder_name

n_clusters

auto

数据样本的种类数,默认值auto。您可以输入小于样本总数的整数或auto。auto表示使用正样本目录的图片个数作为数据样本的种类数。

simlarity_threshold

0.9

相似度阈值。两张图片相似程度超过阈值时,判定为相似图片,反之按非相似图片处理。输入取值范围为0~1。

embedding_distance

0.2

样本特征间距。两张图片样本特征间距小于设定值,判定为相似图片,反之按非相似图片处理。输入取值范围为0~1。

do_validation

True

是否进行数据校验,可填True或者False。表示数据清洗前需要进行数据校验,否则只进行数据清洗。

support.huaweicloud.com/dataprocess-modelarts/dataprocess-modelarts-00004.html