华为云首页用户手册

AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step6 推理服务的高阶配置（可选）

AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step6 推理服务的高阶配置（可选）

时间：2025-05-19 09:57:51

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）

Step6 推理服务的高阶配置（可选）

如需开启以下高阶配置，请在Step3 配置NPU环境时增加需要开启的高阶配置参数。

词表切分
 在分布式场景下，默认不使用词表切分能提升推理性能，同时也会增加单卡的显存占用。不建议开启词表并行，如确需使用词表切分，配置以下环境变量。
```
export USE_VOCAB_PARALLEL=1
```
关闭词表切分的命令：
```
unset USE_VOCAB_PARALLEL
```
配置后重启推理服务生效。

Matmul_all_reduce融合算子
 使用Matmul_all_reduce融合算子能提升全量推理性能，该算子对驱动和固件版本要求较高，默认不开启。如需开启，配置以下环境变量。
```
export USE_MM_ALL_REDUCE_OP=1
```
关闭Matmul_all_reduce融合算子的命令：
```
unset  USE_MM_ALL_REDUCE_OP
```
配置后重启推理服务生效。

查看详细日志
 查看详细耗时日志可以辅助定位性能瓶颈，但会影响推理性能。如需开启，配置以下环境变量。
```
export DETAIL_TIME_ LOG =1
export RAY_DEDUP_LOGS=0
```
关闭详细日志命令：
```
unset  DETAIL_TIME_LOG
```
配置后重启推理服务生效。

上一篇：AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

下一篇：AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step2 准备模型代码包和权重文件

新客秒杀 L实例 2核1G 2M

29元/年

企业专享 X实例 2核4G 5M

198元/年

域名建站 com域名 1元

立即前往

免费体验 90+云产品免费体验

立即前往

AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step6 推理服务的高阶配置（可选）

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题