-
设置plog日志 登录承载租户账户后,在左侧菜单页选择平台配置模块,并切换至运维配置页签。 点击添加按钮,在添加弹窗中将模块设置为训练,名称(config_key)设置为plog_level。 设置项目ID,其默认状态下是defalut,此默认状态表示为所有的项目设置plog日志级别,该字段支持填写项目id为其单独设置plog日志级别。 设置资源池,该项选择全局,表示为所有资源池设置plog日志级别;选择单个后,需要输入资源池ID,用于对资源池单独设置plog日志级别。 上述设置完成后,设置plog日志级别,详细说明参考获取训练日志。 完成设置后,查看plog日志并基于日志内容排查训练问题参考 表4 设置plog日志 参数类别 参数名称 说明 高级设置 plog日志 开启后plog日志功能,会记录模型训练过程中的执行过程、状态、错误等信息,盘古技术支持人员可通过plog日志定位模型训练问题。训练任务开始后可以在承载租户的OBS桶中查看。plog日志分级如下: DEBUG:记录模型训练过程中代码的执行流、变量状态、参数的变化等。 INFO:记录模型训练过程中的运行信息,通常包括一些重要的状态变化、执行的关键步骤、模型训练进度等。 WARNING:记录模型训练过程中的告警信息,可用于识别潜在的问题或异常情况。 ERROR:记录模型训练过程中的执行错误信息。
-
查看训练指标 对于训练状态为“已完成”的任务,单击任务名称,可在“训练结果”页面查看训练指标,模型的训练指标介绍请参见表2。 图1 查看训练指标 表2 训练指标说明 模型 训练指标 指标说明 NLP大模型 训练损失值 训练损失值是一种衡量模型预测结果和真实结果之间的差距的指标,通常情况下越小越好。 一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。
-
获取训练日志 单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。 对于训练异常或失败的任务可以通过训练日志定位训练失败的原因。典型训练报错和解决方案请参见NLP大模型训练常见报错与解决方案。 训练日志可以按照不同的节点(训练阶段)进行筛选查看。分布式训练时,任务被分配到多个工作节点上进行并行处理,每个工作节点负责处理一部分数据或执行特定的计算任务。日志也可以按照不同的工作节点(如worker-0表示第一个工作节点)进行筛选查看。 图2 获取训练日志
-
查看模型训练状态 在模型训练列表中查看训练任务的状态,各状态说明详见表1。 表1 训练状态说明 训练状态 训练状态含义 初始化 模型训练任务正在进行初始化配置,准备开始训练。 排队中 模型训练任务正在排队,请稍等。 运行中 模型正在训练中,训练过程尚未结束。 停止中 模型训练正在停止中。 已停止 模型训练已被用户手动停止。 失败 模型训练过程中出现错误,需查看日志定位训练失败原因。 已完成 模型训练已完成。