AI开发平台MODELARTS-模型微调:查看训练效果

时间:2024-04-11 20:22:53

查看训练效果

启动模型微调任务后,在微调大师列表单击操作列的“任务详情”,在弹窗中选择“指标效果”页签,可以查看训练效果。

表2 训练效果的指标介绍

指标名称

指标说明

NPU/GPU利用率

在训练过程中,机器的NPU/GPU占用情况(横坐标时间,纵坐标占用率)。

显存利用率

在训练过程中,机器的显存占用情况(横坐标时间,纵坐标占用率)。

吞吐

在训练过程中,每卡处理tokens数量(tokens/s/p)。每种框架计算方式不一致,例如,ATB可通过“samples per second*seq_lenth/总卡数”得到tokens/s/p,输出给throughout字段,seq_lenth取值在训练脚本中可以查看。

单机8卡吞吐量一般为1650tokens/s/p,双机16卡吞吐量一般为1625tokens/s/p。

说明:

自定义训练或 自定义镜像 训练,需要提前在训练启动脚本(例如“train.py”)中定义好迭代次数、LOSS和吞吐数据的存放位置,以及存放格式(必须是“迭代次数|loss|吞吐”),才能在此处正常查看吞吐和“训练LOSS”曲线。

训练LOSS

训练阶段的LOSS变化,模型在日志里用LOSS关键词记录数据,按照训练迭代周期记录LOSS值。

support.huaweicloud.com/aimarket-modelarts/ma_gallery_0009.html