AI开发平台MODELARTS-数据去冗余:RRD算子概述
RRD算子概述
可以依据用户设置的比例去除差异最大的数据。
参数名 |
是否必选 |
默认值 |
参数说明 |
---|---|---|---|
sample_ratio |
否 |
0.9 |
数据留下的百分比。取值范围为0~1。例如0.9表示保留百分之90的原数据。 |
n_clusters |
auto |
auto |
数据样本的种类数,默认为auto,即按照目录中图片个数取类别总数,可指定具体类别数,如 4 |
do_validation |
否 |
True |
是否做数据校验,可填True或者False。表示数据去冗余前需要做数据校验,否则只做数据去重。 |