数据工坊 DWR-EMS基本概念
EMS基本概念
KVCache
KVCache(Key-Value Cache)是用于加速大型语言模型(如Transformer模型)推理过程的技术,KVCache通过缓存Attention机制中的Key和Value矩阵(K和V),以避免在生成新token时重复计算历史序列的中间结果,减少冗余计算,从而显著提升了推理效率。
LLM推理
LLM(Large Language Model)推理服务旨在为大规模语言模型(LLM)的推理任务提供高效、低延迟的在线服务能力。EMS通过KVCache缓存、多级缓存、分布式内存池化以及智能亲和调度等技术,加速推理速度并降低资源消耗。
激活凭证
您可以在EMS控制台创建激活凭证,您需要使用激活凭证激活EMS后才能正常使用EMS内存缓存功能。