AI开发平台MODELARTS-数据去冗余:RRD算子概述

时间:2023-12-15 17:32:44

RRD算子概述

可以依据用户设置的比例去除差异最大的数据。

图1 RRD效果图
表1 高级参数说明

参数名

是否必选

默认值

参数说明

sample_ratio

0.9

数据留下的百分比。取值范围为0~1。例如0.9表示保留百分之90的原数据。

n_clusters

auto

auto

数据样本的种类数,默认为auto,即按照目录中图片个数取类别总数,可指定具体类别数,如 4

do_validation

True

是否做数据校验,可填True或者False。表示数据去冗余前需要做数据校验,否则只做数据去重。

support.huaweicloud.com/dataprocess-modelarts/toctopics/zh-cn_topic_0000001512706989.html