KV-Cache是如何让DeepSeek推理加速的?

在GTC 2025上,不出所料地,nVidia让全世界再次感受到作为这一轮大模型的技术领导者的深厚积累,挤爆牙膏的创新能力。

在本次的GTC众多猛料中,毫无疑问,Dynamo的发布,是Deepseek后,nVidia对于外界负面质疑的一次响亮的宣告。

认可Deepseek,拥抱Deepseek,借势Deepseek,强调开源模型带来巨大推理市场需求增长,nVidia向市场证明:在这一轮Deepseek掀起的狂潮中,自己依然是最大的赢家——而Dynamo正是这一主张的关键证据。

那么,什么是Dynamo?

NVIDIA Dynamo is a high-throughput, low-latency open-source inference serving framework for deploying generative AI and reasoning models in large-scale distributed environments.

NVIDIA Dynamo 是一款高吞吐量、低延迟的开源推理服务框架,用于在大规模分布式环境中部署生成式 AI 和推理模型。

Dynamo结合了最新的LLM推理相关的技术进展,并深度结合nVidia生态中的硬件底层创新,实现了极为亮眼的性能提升,达到了:

30倍Deepseek R1 671B的推理吞吐效率

70%的首Token延迟降低

在强大而活跃的LLM社区面前,nVidia总是能够脱颖而出,遥遥领先,保持Tier-0级别的存在。

那么,Dynamo性能狂飙背后都有哪些秘密?

  • 分离预填充和解码推理阶段,以提高每块 GPU 的吞吐量。
  • 根据波动的需求对 GPU 进行动态调度,以优化性能。
  • 采用大语言模型感知的请求路由,避免KV-Cache重新计算的成本。
  • 加速 GPU 之间的异步数据传输,以减少推理响应时间。
  • 在不同内存层级之间进行KV-Cache卸载,以提高系统吞吐量。

不难看出,KV-Cache在Dynamo的技术成功中,扮演了极为重要的角色。那么什么KV-Cache?KV-Cache在LLM的推理框架中扮演了什么角色?KV-Cache能带来什么样的收益呢?

——先从Dynamo的总体架构入手:

大致上,Dynamo框架中推理需要经历一下若干阶段:

  1. 用户发起API调用,提交Input,这里的Input可以是:
    • 1)从0开始的全新对话,或者终止一断时间后恢复的对话
    • 2)进行中的活跃对话。
  2. Input 经过 Smart Router,根据Input和对话的内容进一步确定请求的走向:
    • 如用户提交Input为情况1,Prefill Worker会接手对话
      • 如此时Input能够命中KV-Cache,则整个计算可以被跳过,直接从KV-Cache中加载,如果无法命中KV-Cache(例如模型版本更新,或者由于容量问题,KV-Cache被抛弃),则重新计算Attention,输出第一个Token,并将结果写入KV-Cache,此时按照调度规则,后续的Token输出,会由 Decode Worker接管。
    • 如用户提交Input为情况2):则直接进行计算,依然会尝试读/写KV-Cache,如命中KV-Cache,则也会直接加载KV-Cache,省略计算步骤,并给出下一个Token。

通过以上简单的流程描述,可以看出,KV-Cache用存储置换计算流程,从而极大的提高了推理过程中的吞吐效率,并极大的提高了长上下文情况下的首token延迟,对用户体验是极大的帮助。

同时,显而易见的,KV-Cache命中率高低,是决定整个方案合理性和必要性关键因素,这里,不妨引用Deepseek披露的结果:

DeepSeek在工程层面进一步压缩成本。昼夜资源调配:白天高峰时段全力支持推理服务,夜间闲置节点转用于研发训练,最大化硬件利用率;缓存命中率达56.3%:通过KVCache硬盘缓存减少重复计算,在输入token中,有3420亿个(56.3%)直接命中缓存,大幅降低算力消耗。

甚至,Deepseek更进一步,针对KV-Cache的这一特性,干脆直接结合商业模式,直接将Cache命中的收益,作为API服务的价格优惠返还给客户:

驿心科技提供了业界最简单、易用的分布式KV-Cache后端服务,具备以下优势:

  1. 能够从让KV-Cache以Posix接口方式,无缝接入Dynamo等相关主流推理框架。
  2. 广泛的存储资源管理整合:支持:1)内存; 2) 本地NVMe; 3) 本地磁盘 3)异地OSS
  3. 充分利用推理GPU节点的高速本次磁盘,大幅度提升KV-Cache读/写 性能,最大可实现单节点 120GB/s 读/写速度
  4. 不同级别的Cache数据流动,由可编程的元数据实现配置变更管理,秒级实现Cache在不通设备中的流动和汰换。
  5. 支持存储设备接入的水平扩展,实现近乎无限容量的Cache空间扩展。

Scroll to Top