AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step6 推理服务的高阶配置(可选)
Step6 推理服务的高阶配置(可选)
如需开启以下高阶配置,请在Step3 配置NPU环境时增加需要开启的高阶配置参数。
- 词表切分
在分布式场景下,默认不使用词表切分能提升推理性能,同时也会增加单卡的显存占用。不建议开启词表并行,如确需使用词表切分,配置以下环境变量。
export USE_VOCAB_PARALLEL=1
关闭词表切分的命令:
unset USE_VOCAB_PARALLEL
配置后重启推理服务生效。
- Matmul_all_reduce融合算子
使用Matmul_all_reduce融合算子能提升全量推理性能,该算子对驱动和固件版本要求较高,默认不开启。如需开启,配置以下环境变量。
export USE_MM_ALL_REDUCE_OP=1
关闭Matmul_all_reduce融合算子的命令:
unset USE_MM_ALL_REDUCE_OP
配置后重启推理服务生效。
- 查看详细日志
查看详细耗时日志可以辅助定位性能瓶颈,但会影响推理性能。如需开启,配置以下环境变量。
export DETAIL_TIME_ LOG =1 export RAY_DEDUP_LOGS=0
关闭详细日志命令:
unset DETAIL_TIME_LOG
配置后重启推理服务生效。