AI开发平台MODELARTS-模型微调:查看训练效果
查看训练效果
启动模型微调任务后,在微调大师列表单击操作列的“任务详情”,在弹窗中选择“指标效果”页签,可以查看训练效果。
指标名称 |
指标说明 |
---|---|
NPU/GPU利用率 |
在训练过程中,机器的NPU/GPU占用情况(横坐标时间,纵坐标占用率)。 |
显存利用率 |
在训练过程中,机器的显存占用情况(横坐标时间,纵坐标占用率)。 |
吞吐 |
在训练过程中,每卡处理tokens数量(tokens/s/p)。每种框架计算方式不一致,例如,ATB可通过“samples per second*seq_lenth/总卡数”得到tokens/s/p,输出给throughout字段,seq_lenth取值在训练脚本中可以查看。 单机8卡吞吐量一般为1650tokens/s/p,双机16卡吞吐量一般为1625tokens/s/p。 说明:
自定义训练或 自定义镜像 训练,需要提前在训练启动脚本(例如“train.py”)中定义好迭代次数、LOSS和吞吐数据的存放位置,以及存放格式(必须是“迭代次数|loss|吞吐”),才能在此处正常查看吞吐和“训练LOSS”曲线。 |
训练LOSS |
训练阶段的LOSS变化,模型在日志里用LOSS关键词记录数据,按照训练迭代周期记录LOSS值。 |
- ModelArts模型训练_模型训练简介_如何训练模型
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- ModelArts推理部署_服务_访问公网-华为云
- ModelArts模型训练_超参搜索简介_超参搜索算法
- ModelArts推理部署_模型_AI应用来源-华为云
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云
- ModelArts分布式训练_分布式训练介绍_分布式调测
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts推理部署_创建AI应用_自定义镜像规范-华为云