华为云首页用户手册

数据工坊 DWR-应用场景:LLM大语言模型推理

时间：2025-05-23 18:54:01

数据工坊 DWR

LLM大语言模型推理

需求和挑战

随着LLM推理的飞速发展，LLM推理需求急速增加，LLM推理包含多种任务，如：多轮对话交互、信息检索和文本生成（包括代码）等。

LLM推理场景的需求和主要挑战如下：

保持连贯性：受限于显存容量原因，多轮交互使智能助手很容易“忘记”对话中更早的部分或重复自己说过的话。

推理吞吐性能低：LLM在线推理需要满足大量消费者用户同时使用，受限于AI内存墙瓶颈，单卡推理吞吐性能低，大量用户并发访问时时延高，导致用户需要部署大量AI推理算力资源，推理吞吐资源成本高。
推理延迟高：在大模型推理过程中，从输入指令到模型产生预测并输出内容的时间过高，严重影响用户体验，尤其是和智能助手进行多轮对话时。

解决方案

针对AI推理场景面临的痛点问题，华为云通过EMS加速推理业务，提升推理业务吞吐，降低推理时延，降低推理资源部署成本。LLM在线推理场景示意图如图1所示。

由于AI服务器内存墙瓶颈，EMS利用AI集群的空闲内存构建分布式内存池，实现显存容量的扩展，突破单机内存的瓶颈。通过EMS将LLM推理中的多轮对话、公共前缀等场景下的历史KVCache缓存在EMS中，LLM推理时直接复用EMS缓存中的历史KVCache，无需重新计算历史KVCache，通过以存代算，降低了推理首Token时延（Time To First Token，TTFT），同时也节省了推理算力，提高推理吞吐，加速了大模型推理服务的效率。

建议搭配服务

AI开发平台 ModelArts、云容器引擎 CCE、高性能弹性文件服务 SFS Turbo、对象存储服务 OBS。

图1 LLM大语言模型推理