AI开发平台MODELARTS-查看日志和性能:查看性能

时间:2024-04-30 18:09:28

查看性能

训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。

  • 吞吐量:日志里存在samples per second参数。samples per second*seq_lenth/总卡数得到tokens/s/p,seq_lenth取值在训练脚本中可以查看,本示例中为4096。单机8卡吞吐量一般为1650tokens/s/p;双机16卡吞吐量一般为1625tokens/s/p。
  • loss收敛情况:日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况,如图2所示。

    单节点训练:训练过程中的loss直接打印在窗口上。

    多节点训练:训练过程中的loss打印在最后一个节点上。

    图2 Loss收敛情况
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1551.html