数据工坊 DWR-应用场景:LLM大语言模型推理

时间:2025-05-23 18:54:01

LLM大语言模型推理

需求和挑战

随着LLM推理的飞速发展,LLM推理需求急速增加,LLM推理包含多种任务,如:多轮对话交互、信息检索和文本生成(包括代码)等。

LLM推理场景的需求和主要挑战如下:

  • 保持连贯性:受限于显存容量原因,多轮交互使智能助手很容易“忘记”对话中更早的部分或重复自己说过的话。
  • 推理吞吐性能低:LLM在线推理需要满足大量消费者用户同时使用,受限于AI内存墙瓶颈,单卡推理吞吐性能低,大量用户并发访问时时延高,导致用户需要部署大量AI推理算力资源,推理吞吐资源成本高。
  • 推理延迟高:在大模型推理过程中,从输入指令到模型产生预测并输出内容的时间过高,严重影响用户体验,尤其是和智能助手进行多轮对话时。

解决方案

针对AI推理场景面临的痛点问题,华为云通过EMS加速推理业务,提升推理业务吞吐,降低推理时延,降低推理资源部署成本。LLM在线推理场景示意图如图1所示。

由于AI服务器内存墙瓶颈,EMS利用AI集群的空闲内存构建分布式内存池,实现显存容量的扩展,突破单机内存的瓶颈。通过EMS将LLM推理中的多轮对话、公共前缀等场景下的历史KVCache缓存在EMS中,LLM推理时直接复用EMS缓存中的历史KVCache,无需重新计算历史KVCache,通过以存代算,降低了推理首Token时延(Time To First Token,TTFT),同时也节省了推理算力,提高推理吞吐,加速了大模型推理服务的效率。

建议搭配服务

AI开发平台 ModelArts云容器引擎 CCE高性能弹性文件服务 SFS Turbo、 对象存储服务 OBS

图1 LLM大语言模型推理
support.huaweicloud.com/productdesc-ems/ems_01_0300.html
提示

您即将访问非华为云网站,请注意账号财产安全