KV cache

可以先理解为:保存注意力键值的推理缓存

模型读长对话时,不会每次都从头重算全部内容。KV cache 就像它临时放在桌面上的历史计算草稿;草稿越厚,桌面越容易不够用。

关键结构图

当前相关远处弱强

中心节点写「KV cache」,周围连接 AI-native storage、LLM statelessness、memory wall,用细线表示相邻路径和调用方向。

KV cache 是大模型推理时保存 attention key/value 的上下文缓存。它让模型不用每一步都重新计算所有历史 token,但长上下文、并发推理和 agent 长任务会让这个缓存快速膨胀。

当你需要理解模型之外还有哪些基础设施支撑 AI 能力时,可以用「KV cache」命名这块砖,再连接相邻概念继续判断。

KV cache 是长上下文的隐性成本中心。上下文越长、并发越多、agent 运行越久,KV cache 对内存和存储路径的压力越大。它把“上下文越长越好”这个直觉改写成工程问题:长上下文需要付出真实的内存、带宽和调度成本。

在拆解一个 AI 系统为什么能稳定运行时,你可以用「KV cache」标记其中最需要被看见的结构,再检查它提供了什么证据、边界或行动方向。

在整理「AI 基础设施」主题时,把「KV cache」和「AI-native storage」放在同一路径里,可以帮助读者从单点概念走向可复用的判断框架。

类型:系统结构 / 概念整理

事实线:这张卡把「KV cache」整理为概念提炼: KV cache 是大模型推理时保存 attention key/value 的上下文缓存。

依据:1000 Bricks 本地砖块库的概念定义、相邻砖块关系和AI 基础设施、系统架构和工具链讨论。

边界:适用于「AI 基础设施、算力、存储、运行时和工具系统」主题下的理解、复盘和设计判断;不等于行业统一标准或对所有场景都成立的结论。

常见误读:不要把它当作某篇材料的原文摘要,也不要因为概念名清晰就忽略具体情境和验证证据。