数据工坊 DWR-EMS基本概念

时间:2025-05-23 18:54:01

EMS基本概念

KVCache

KVCache(Key-Value Cache)是用于加速大型语言模型(如Transformer模型)推理过程的技术,KVCache通过缓存Attention机制中的Key和Value矩阵(K和V),以避免在生成新token时重复计算历史序列的中间结果,减少冗余计算,从而显著提升了推理效率。

LLM推理

LLM(Large Language Model)推理服务旨在为大规模语言模型(LLM)的推理任务提供高效、低延迟的在线服务能力。EMS通过KVCache缓存、多级缓存、分布式内存池化以及智能亲和调度等技术,加速推理速度并降低资源消耗。

激活凭证

您可以在EMS控制台创建激活凭证,您需要使用激活凭证激活EMS后才能正常使用EMS内存缓存功能。

support.huaweicloud.com/productdesc-ems/ems_01_1001.html
提示

您即将访问非华为云网站,请注意账号财产安全