数据工坊 DWR-EMS以存代算:以存代算原理
以存代算原理
在Transformer模型的推理过程中,由于AI服务器的显存容量限制,现有的推理系统无法在AI服务器的显存中持续保存多轮对话的KVCache缓存。为了应对这一问题,系统通常会丢弃已处理对话的KV缓存,以腾出显存空间来服务新的请求。然而,当这些被丢弃的KV缓存对应的对话再次出现时,系统必须重新计算这些KV缓存,如图1 中的(a)所示。这种重复计算不仅浪费了计算资源,还增加了推理成本。
为了减少成本并提升推理性能,EMS服务引入了以存代算技术CachedAttention,如图1 中的(b)所示。该技术利用EMS中的大容量分布式内存池来存储和复用多轮对话中产生的KVCache缓存,而不是直接丢弃它们。具体操作是,将一个会话对应的历史KV缓存保存到EMS中,当该对话重新激活时,再从EMS中加载并复用这些KV缓存,从而避免了重复计算。
通过以存代算技术,EMS有效地避免了多轮对话中的重复计算,显著降低了首字时延,提高了推理预填充阶段的吞吐量,并降低了端到端的推理成本。