AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step6 推理服务的高阶配置(可选)

时间:2025-05-19 09:57:51

Step6 推理服务的高阶配置(可选)

如需开启以下高阶配置,请在Step3 配置NPU环境时增加需要开启的高阶配置参数。

  • 词表切分

    在分布式场景下,默认不使用词表切分能提升推理性能,同时也会增加单卡的显存占用。不建议开启词表并行,如确需使用词表切分,配置以下环境变量。

    export USE_VOCAB_PARALLEL=1

    关闭词表切分的命令:

    unset USE_VOCAB_PARALLEL

    配置后重启推理服务生效。

  • Matmul_all_reduce融合算子

    使用Matmul_all_reduce融合算子能提升全量推理性能,该算子对驱动和固件版本要求较高,默认不开启。如需开启,配置以下环境变量。

    export USE_MM_ALL_REDUCE_OP=1

    关闭Matmul_all_reduce融合算子的命令:

    unset  USE_MM_ALL_REDUCE_OP

    配置后重启推理服务生效。

  • 查看详细日志

    查看详细耗时日志可以辅助定位性能瓶颈,但会影响推理性能。如需开启,配置以下环境变量。

    export DETAIL_TIME_ LOG =1
    export RAY_DEDUP_LOGS=0

    关闭详细日志命令:

    unset  DETAIL_TIME_LOG

    配置后重启推理服务生效。

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1969.html
提示

您即将访问非华为云网站,请注意账号财产安全