云服务器内容精选

  • 数据预处理优化 模型训练前,需要对数据进行加工,防止某些特征存在极端异常值或大面积错误数据,导致模型训练不稳定。可能会引发如下问题: 模型对异常值过度敏感,导致拟合异常值而非整体数据分布。 训练过程中损失波动较大,甚至出现梯度爆炸。 模型在测试集上表现不佳,泛化能力差。 优化调整策略如下: 通过统计学方法如计算四分位距、Z-score、样本分布等排查异常值。 通过可视化方法, 数据可视化 或者使用箱线图进行异常值的排查。 结合数据自身特征,进行异常数据的筛选。 对于异常值,视情况进行删除、替换、保留等操作,兼顾模型的收敛与鲁棒性。 优化举例: 某数据集中,盐度(S)变量在下载过程中存在数据块缺失与数据块偏移的问题,如图1、图2,导致在训练过程中盐度损失异常,波动大且不收敛,如图3。在删除异常数据后,如图4,盐度正常收敛。因此在训练过程中存在损失波动较大的情况,可以考虑数据异常的情况。 图1 盐度数据偏移与缺失样例-1 图2 盐度数据偏移与缺失样例-2 图3 盐度(S)异常的训练损失 图4 删除异常值后的训练损失 父主题: 盘古科学计算大模型调优实践