AI开发平台MODELARTS-分离部署推理服务:什么是分离部署
时间:2025-05-19 09:57:50
什么是分离部署
大模型推理是自回归的过程,有以下两阶段:
分离部署场景下,全量推理和增量推理在不同的容器上进行,用于提高资源利用效率。
分离部署的实例类型启动分为以下三个阶段:
- 步骤六 启动全量推理实例:必须为NPU实例,用于启动全量推理服务,负责输入的全量推理。全量推理占用至少1个容器。
- 步骤七 启动增量推理实例:必须为NPU实例,用于启动增量推理服务,负责输入的增量推理。增量推理占用至少1个容器。
- 步骤八 启动scheduler实例:可为CPU实例,用于启动api-server服务,负责接收推理请求,向全量或增量推理实例分发请求,收集推理结果并向客户端返回推理结果。服务调度实例不占用显卡资源,建议增加1个容器,也可以在全量推理或增量推理的容器上启动。
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_91004.html