检测样例: 检测结果以video_anti_porn对象存储在标注文件中: suggestion:对文件检测是否通过的结果,pass代表审核通过无相应的问题;review代表需要人工复核,您可以按照您的审核策略选择放通还是拦截;block代表待审文件存在问题。
数据过滤 图片元数据过滤 基于图片宽高、文件大小、宽高比阈值进行图片/图文数据清洗。 图文文本长度过滤 过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母,文本长度均计数为1。
数据工程工具链作为盘古大模型服务的重要组成部分,具备数据获取、清洗、数据合成、数据标注、数据评估、数据配比、数据发布和管理等功能。 该工具链能够高效收集和处理各种格式的数据,满足不同训练和评测任务的需求。
针对不同类型的数据集,平台提供了专用的清洗算子以及支持用户创建自定义算子实现个性化的数据清洗诉求。确保生成高质量的训练数据以满足业务需求和模型训练的要求。