KV-Cache是如何让DeepSeek推理加速的？

在GTC 2025上，不出所料地，nVidia让全世界再次感受到作为这一轮大模型的技术领导者的深厚积累，挤爆牙膏的创新能力。

在本次的GTC众多猛料中，毫无疑问，Dynamo的发布，是Deepseek后，nVidia对于外界负面质疑的一次响亮的宣告。

认可Deepseek，拥抱Deepseek，借势Deepseek，强调开源模型带来巨大推理市场需求增长，nVidia向市场证明：在这一轮Deepseek掀起的狂潮中，自己依然是最大的赢家——而Dynamo正是这一主张的关键证据。

那么，什么是Dynamo？

NVIDIA Dynamo is a high-throughput, low-latency open-source inference serving framework for deploying generative AI and reasoning models in large-scale distributed environments.

NVIDIA Dynamo 是一款高吞吐量、低延迟的开源推理服务框架，用于在大规模分布式环境中部署生成式 AI 和推理模型。

Dynamo结合了最新的LLM推理相关的技术进展，并深度结合nVidia生态中的硬件底层创新，实现了极为亮眼的性能提升，达到了：

30倍Deepseek R1 671B的推理吞吐效率

70%的首Token延迟降低

在强大而活跃的LLM社区面前，nVidia总是能够脱颖而出，遥遥领先，保持Tier-0级别的存在。

那么，Dynamo性能狂飙背后都有哪些秘密？

分离预填充和解码推理阶段，以提高每块 GPU 的吞吐量。

根据波动的需求对 GPU 进行动态调度，以优化性能。

采用大语言模型感知的请求路由，避免KV-Cache重新计算的成本。

加速 GPU 之间的异步数据传输，以减少推理响应时间。

在不同内存层级之间进行KV-Cache卸载，以提高系统吞吐量。

不难看出，KV-Cache在Dynamo的技术成功中，扮演了极为重要的角色。那么什么KV-Cache？KV-Cache在LLM的推理框架中扮演了什么角色？KV-Cache能带来什么样的收益呢？

——先从Dynamo的总体架构入手：

大致上，Dynamo框架中推理需要经历一下若干阶段：

用户发起API调用，提交Input，这里的Input可以是：
- 1）从0开始的全新对话，或者终止一断时间后恢复的对话
- 2）进行中的活跃对话。
Input 经过 Smart Router，根据Input和对话的内容进一步确定请求的走向：
- 如用户提交Input为情况1），Prefill Worker会接手对话：
  - 如此时Input能够命中KV-Cache，则整个计算可以被跳过，直接从KV-Cache中加载，如果无法命中KV-Cache（例如模型版本更新，或者由于容量问题，KV-Cache被抛弃），则重新计算Attention，输出第一个Token，并将结果写入KV-Cache，此时按照调度规则，后续的Token输出，会由 Decode Worker接管。
- 如用户提交Input为情况2）：则直接进行计算，依然会尝试读/写KV-Cache，如命中KV-Cache，则也会直接加载KV-Cache，省略计算步骤，并给出下一个Token。

通过以上简单的流程描述，可以看出，KV-Cache用存储置换计算流程，从而极大的提高了推理过程中的吞吐效率，并极大的提高了长上下文情况下的首token延迟，对用户体验是极大的帮助。

同时，显而易见的，KV-Cache命中率高低，是决定整个方案合理性和必要性关键因素，这里，不妨引用Deepseek披露的结果：

DeepSeek在工程层面进一步压缩成本。昼夜资源调配：白天高峰时段全力支持推理服务，夜间闲置节点转用于研发训练，最大化硬件利用率；缓存命中率达56.3%：通过KVCache硬盘缓存减少重复计算，在输入token中，有3420亿个（56.3%）直接命中缓存，大幅降低算力消耗。

甚至，Deepseek更进一步，针对KV-Cache的这一特性，干脆直接结合商业模式，直接将Cache命中的收益，作为API服务的价格优惠返还给客户：

驿心科技提供了业界最简单、易用的分布式KV-Cache后端服务，具备以下优势：

能够从让KV-Cache以Posix接口方式，无缝接入Dynamo等相关主流推理框架。
广泛的存储资源管理整合：支持：1）内存; 2) 本地NVMe; 3) 本地磁盘 3）异地OSS
充分利用推理GPU节点的高速本次磁盘，大幅度提升KV-Cache读/写性能，最大可实现单节点 120GB/s 读/写速度
不同级别的Cache数据流动，由可编程的元数据实现配置变更管理，秒级实现Cache在不通设备中的流动和汰换。
支持存储设备接入的水平扩展，实现近乎无限容量的Cache空间扩展。