AI开发平台ModelArts-数据处理简介

时间:2023-11-01 16:16:40

数据处理简介

ModelArts平台提供的数据处理功能,基本目的是从大量的、杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。当数据采集和接入之后,数据一般是不能直接满足训练要求的。为了保障数据质量,以免对后续操作(如数据标注、模型训练等)带来负面影响,开发过程通常需要进行数据处理。常见的数据处理类型有以下四种:

  • 数据校验:通常数据采集后需要进行校验,保证数据合法。

    数据校验是指对数据可用性的基本判断和验证的过程。通常,我们采集的数据或多或少都会有很多格式问题,无法被进一步处理。以图像识别为例,用户经常会从网上找一些图片用于训练,但是其质量难以保证,有可能图片的名字、路径、后缀名都不满足训练算法的要求;图片也可能有部分损坏,造成无法解码、无法被算法处理的情况。因此,数据校验非常重要,可以帮助人工智能开发者提前发现数据问题,有效防止数据噪声造成的算法精度下降或者训练失败问题。

  • 数据清洗:数据清洗是指对数据进行去噪、纠错或补全的过程。

    数据清洗是在数据校验的基础上,对数据进行一致性检查,处理一些无效值。例如在深度学习领域,可以根据用户输入的正样本和负样本,对数据进行清洗,保留用户想要的类别,去除用户不想要的类别。

  • 数据选择:数据选择一般是指从全量数据中选择数据子集的过程。

    数据可以通过相似度或者深度学习算法进行选择。数据选择可以避免人工采集图片过程中引入的重复图片、相似图片等问题;在一批输入旧模型的推理数据中,通过内置规则的数据选择可以进一步提升旧模型精度。

  • 数据增强:

    数据扩增通过简单的数据扩增例如缩放、裁剪、变换、合成等操作直接或间接的方式增加数据量。

    图像生成应用相关深度学习模型,通过对原数据集进行学习,训练生成新的数据集的方式增加数据量。

support.huaweicloud.com/engineers-modelarts/modelarts_23_0316.html