AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step4 部署并启动推理服务
时间:2025-06-24 10:36:02
Step4 部署并启动推理服务
在Step3中的terminal部署并启动推理服务。有2种方式,使用vllm-api启动推理服务,或者使用openai-api启动推理服务。参考命令如下:
# 使用vllm-api python vllm/entrypoints/api_server.py \ --model="${model_path}" \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.95 \ --max-model-len=4096 \ --trust-remote-code \ --dtype="float16" \ --host=0.0.0.0 \ --port=8080 # 使用openai-api python vllm/entrypoints/openai/api_server.py \ --model="${model_path}" \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.95 \ --max-model-len=4096 \ --trust-remote-code \ --dtype="float16" \ --host=0.0.0.0 \ --port=8080
参数说明:
- --model:模型地址,模型格式是Huggingface的目录格式。
- --tensor-parallel-size:并行卡数。
- --gpu-memory-utilization:0~1之间的float,实际使用的显存是系统读取的最大显存*gpu-memory-utilization。
- --max-model-len:最大数据输入+输出长度,不能超过模型配置文件config.json里面定义的“max_position_embeddings”和“seq_length”;如果设置过大,会占用过多显存,影响kvcache的空间。不同模型推理支持的max-model-len长度不同,具体差异请参见附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明。
- --hostname:服务部署的IP,使用本机IP 0.0.0.0。
- --port:服务部署的端口。
服务启动后,会打印如下信息。
server launch time cost: 15.443044185638428 s INFO: Started server process [2878] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1969.html