AI开发平台MODELARTS-Lite Server超节点定期压测:性能测试五:码流测试

时间:2025-05-29 09:01:27

性能测试五:码流测试

码流测试主要包含一键式打流和自定义打流。

表12 码流测试介绍

测试项名称

支持的打流方式

使用方法

一键式打流

CDR环回打流、光模块外接光纤回路器(自环器)打流

执行一键式打流命令,Ascend DMI工具将自动完成发送及接收指定device所有lane的码流,一段时间后关闭码流并查询结果。

自定义打流

CDR环回打流、光模块外接光纤回路器(自环器)打流、NPU直连打流

自定义打流是将一键式打流中的各步骤独立出来,用户可灵活控制打流的TX、RX方向开关和指定打流的具体lane。

打流方式主要有以下三种:

  • CDR环回打流:是指单个Device同时发送和接收,可用于检查从NPU的物理serdes端口到CDR单元的信号质量。在打流前请确保光模块在位,然后执行如下命令配置或解除CDR回环。

    配置CDR回环,t依次取值3和0,一次执行如下命令,其中i表示NPU卡id:

    hccn_tool -i 0 -scdr -t 3

    hccn_tool -i 0 -scdr -t 0

    解除CDR回环,t依次取值2和1:一次执行如下命令,其中i表示NPU卡id:

    hccn_tool -i 0 -scdr -t 2

    hccn_tool -i 0 -scdr -t 1

  • 光模块外接光纤回路器(自环器)打流:单个Device同时发送和接收,可用于检查NPU的物理serdes端口到光模块的信号质量,不需要设置环回。
  • NPU直连打流:NPU A的Serdes端口开启TX方向打流后,数据流通过被测链路到达NPU B的Serdes端口,NPU B的RX方向按照码型比对,统计接收到的数据统计误码情况,可检查两个NPU之间链路的信号质量(仅支持自定义打流)。

码流测试的可用参数,参数说明见表13

ascend-dmi --prbs-check -h
表13 码流测试参数说明

参数

说明

是否必填

[-pc, --pc, --prbs-check]

使用该参数进行prbs码流测试。

[-d, --device]

指定需要进行码流测试的Device ID。

  • Device ID是指昇腾AI处理器的逻辑ID,如果不填写则测试全量昇腾NPU芯片的码流。
  • 可同时指定多个Device ID,多个之间用逗号隔开。

[-dur, --dur, --duration]

指定码流测试的时长。

  • 参数取值范围为[3,10],单位为秒。
  • 不指定该参数时,默认值为3。

[--prbs-mode]

是否切换打流状态。

--取值为EN(Enable):开启。

--取值为DS(Disable):关闭。

  • 取值支持大小写。
  • 指定--prbs-mode为EN或DS时,信号发送端和信号接收端两个方向均会生效,无论是否指定--generator-pattern,--generator-lanes,--checker-pattern,--checker-lanes参数。
  • 指定--prbs-mode为EN时,支持指定-generator-pattern、--checker-pattern、--generator-lanes、--checker-lanes。
  • 指定--prbs-mode为DS时,停止打流。不支持指定-generator-pattern、--checker-pattern、--generator-lanes、--checker-lanes。
  • 本参数不支持与--show参数或--clear参数同时指定。

[--generator-pattern]

指定发送端的码流类型。

  • 当前支持测试的码流类型为:prbs7、prbs9、prbs10、prbs11、prbs15、prbs20、prbs23、prbs31。
  • 不指定该参数时,默认值为prbs31。
  • 指定码型时大小写均可生效,例如prbs7也可以写为PRBS7。
  • 本参数不支持与--show参数或--clear参数同时指定。

[--generator-lanes]

指定发送端的lane。

  • 可同时指定1个或多个lane,多个之间用逗号分开。指定多个lane时必须连续指定,如0,1,2或2,1,3,不支持非连续指定。
  • 如果不指定,则默认测试所有lanes。
  • 本参数不支持与--show参数或--clear参数同时指定。
  • 可取值为0、1、2、3。

[--checker-pattern]

指定接受端的码流类型。

  • 当前支持校验的码流类型为:prbs7、prbs9、prbs10、prbs11、prbs15、prbs20、prbs23、prbs31。
  • 不指定该参数时,默认值为prbs31。
  • 指定码型时大小写均可生效,例如prbs7也可以写为PRBS7。
  • 本参数不支持与--show参数或--clear参数同时指定。

[--checker-lanes]

指定接收端的lane。

  • 可同时指定1个或多个lane,多个之间用逗号分开。指定多个lane时必须连续指定,如0,1,2或2,1,3,不支持非连续指定。
  • 如果不指定,则默认测试所有lanes。
  • 本参数不支持与--show参数或--clear参数同时指定。
  • 可取值为0、1、2、3。

[-show, --show, --show-diagnostic-info]

展示码流测试的结果。

  • 本参数不支持与以下参数同时指定:--clear、--prbs-mode、--generator-pattern、--generator-lanes、--checker-pattern、--checker-lanes。
  • 展示信息后当前码流测试的结果即会被清空。

[-clear, --clear, --clear-diagnostic-info]

清空码流测试的结果信息。

  • 本参数不支持与以下参数同时指定:--show、--prbs-mode、--generator-pattern、--generator-lanes、--checker-pattern、--checker-lanes。
  • 支持除以上参数外的其余参数同时指定。

一键式打流使用示例如下:

ascend-dmi -pc -d 9--pattern prbs15 -dur 5
图5 一键式打流示例
表14 一键式打流回显参数说明

参数

说明

device

表示NPU的逻辑ID。

lane

表示RoCE链路的lane通道ID。

error count

误码数,最大值为67092480,表示满误码。

error rate

误码率,当误码率小于10-5为信号质量正常。

alos

值为0表示正常;值为1通常表示输入信号幅度过低。

times

表示打流时长。

自定义打流使用示例如下:

# 开启Device8和Device9码流测试
ascend-dmi -pc --clear --device 8,9-q
# Device8和Device9,发送端为lane0和lane1,码型为prbs20;接收端为lane2和lane3,码型为prbs23
ascend-dmi -pc --prbs-mode EN -q --device 8,9--generator-pattern prbs20 --generator-lanes 0,1--checker-pattern prbs23 --checker-lanes 2,3
# 展示Device8和Device9码流测试结果
ascend-dmi -pc --show-diagnostic-info -d 8,9-q
# 关闭Device8和Device9上的打流
ascend-dmi -pc --prbs-mode DS -d 8,9-q
# 清空Device8和Device9上的打流结果
ascend-dmi -pc --clear-diagnostic-info -d 8,9-q
图6 自定义打流示例
表15 自定义打流回显参数说明

参数

说明

Lane

对应RoCE链路的lane id。

Check Enable

接收端的check状态。0:关闭,1:开启

Pattern

RX方向check的码型。

Error-Bits

误码数,上限为67092480(满误码)。

Bit-Error Rate(BER)

误码率,误码数÷总传输bit数×100%。

ALOS

正常打流时需要为0,为1通常表示信号幅度过低;未打流时无意义无需关注。

Period

距离上一次操作控制打流/读取check结果的时间。

support.huaweicloud.com/usermanual-server-modelarts/usermanual-server-0036.html