数据工坊 DWR-应用场景:LLM大语言模型推理
LLM大语言模型推理
需求和挑战
随着LLM推理的飞速发展,LLM推理需求急速增加,LLM推理包含多种任务,如:多轮对话交互、信息检索和文本生成(包括代码)等。
LLM推理场景的需求和主要挑战如下:
- 保持连贯性:受限于显存容量原因,多轮交互使智能助手很容易“忘记”对话中更早的部分或重复自己说过的话。
- 推理吞吐性能低:LLM在线推理需要满足大量消费者用户同时使用,受限于AI内存墙瓶颈,单卡推理吞吐性能低,大量用户并发访问时时延高,导致用户需要部署大量AI推理算力资源,推理吞吐资源成本高。
- 推理延迟高:在大模型推理过程中,从输入指令到模型产生预测并输出内容的时间过高,严重影响用户体验,尤其是和智能助手进行多轮对话时。
解决方案
针对AI推理场景面临的痛点问题,华为云通过EMS加速推理业务,提升推理业务吞吐,降低推理时延,降低推理资源部署成本。LLM在线推理场景示意图如图1所示。
由于AI服务器内存墙瓶颈,EMS利用AI集群的空闲内存构建分布式内存池,实现显存容量的扩展,突破单机内存的瓶颈。通过EMS将LLM推理中的多轮对话、公共前缀等场景下的历史KVCache缓存在EMS中,LLM推理时直接复用EMS缓存中的历史KVCache,无需重新计算历史KVCache,通过以存代算,降低了推理首Token时延(Time To First Token,TTFT),同时也节省了推理算力,提高推理吞吐,加速了大模型推理服务的效率。
建议搭配服务