这种情况可能是由于以下几个原因导致的,建议您依次排查: 数据质量:请检查训练数据中是否存在包含异常字符的数据,可以通过规则进行清洗。 训练参数设置:若数据质量存在问题,且因训练参数设置的不合理而导致过拟合,该现象会更加明显。
数据质量:请检查训练数据中是否存在包含异常截断的数据,可以通过规则进行清洗。 父主题: 大模型微调训练类
数据质量:请检查训练数据中是否存在文本重复的异常数据,可以通过规则进行清洗。 训练参数设置:若数据质量存在问题,且因训练参数设置的不合理而导致过拟合,该现象会更加明显。请检查训练参数中的 “训练轮次”或“学习率”等参数的设置,适当降低这些参数的值,降低过拟合的风险。
针对不同类型的数据集,平台提供了专用的清洗算子以及支持用户创建自定义算子实现个性化的数据清洗需求。确保生成高质量的训练数据以满足业务需求和模型训练的要求。
使用同步开源的清洗工具、金融数据分类器和安全风险识别分类器对原始数据集进行处理后,构建了更干净、具备金融特色、符合社会主义核心价值观的中、英文数据集。最终数据集包含936GB中文文本数据集,100GB英文文本数据集和1TB的高质量多模态数据集。