AI开发平台MODELARTS-数据清洗:参数说明
参数说明
参数名 |
是否必选 |
默认值 |
参数说明 |
---|---|---|---|
prototype_sample_path |
是 |
None |
数据清洗正样例目录。目录应存放正样例图片文件,算法将这些图片为正样例,对输入中的数据进行过滤,即保留与“prototype_sample_path”目录下图片相似度高的数据。 请输入一个真实存在的OBS目录,该目录下已包含提供的正样例图片,且以obs://开头。如:obs://obs_bucket_name/folder_name。 |
criticism_sample_path |
否 |
None |
数据清洗负样例目录。目录应存放负样例图片文件,算法将这些图片为负样例,对算法输入中的数据进行过滤, 即保留与“criticism_sample_path”目录下图片相似度差距较大的数据。 建议该参数和“prototype_sample_path”配合使用,可以提高数据清洗的准确性。 请输入一个真实存在的OBS目录,且以obs://开头。如:obs://obs_bucket_name/folder_name。 |
n_clusters |
否 |
auto |
数据样本的种类数,默认值auto。您可以输入小于样本总数的整数或auto。auto表示使用正样本目录的图片个数作为数据样本的种类数。 |
simlarity_threshold |
否 |
0.9 |
相似度阈值。两张图片相似程度超过阈值时,判定为相似图片,反之按非相似图片处理。输入取值范围为0~1。 |
embedding_distance |
否 |
0.2 |
样本特征间距。两张图片样本特征间距小于设定值,判定为相似图片,反之按非相似图片处理。输入取值范围为0~1。 |
do_validation |
否 |
True |
是否进行数据校验,可填True或者False。表示数据清洗前需要进行数据校验,否则只进行数据清洗。 |