Study Core AI KV Cache

PyTorch 的 KV Cache 管理模式

通过 register_buffer 在模型初始化时预分配固定空间：

register_buffer("k_cache", torch.zeros(N_LAYERS, 1, MAX_SEQ_LEN, D_MODEL))
register_buffer("v_cache", torch.zeros(N_LAYERS, 1, MAX_SEQ_LEN, D_MODEL))

特点：

每层生成新的 KV 后，通过 copy_ 追加到预分配空间：

new_k = ...  # 当前 step 的 key
self.k_cache[layer_idx].copy_(torch.stack(new_k), non_blocking=True)

特点：

在 torch.export 时声明 state_names，Converter 遍历 FX Graph 时会自动识别这些状态变量，并为它们生成对应的 placeholder 节点。

效果： KV cache 不再是模型的内部状态，而是被提升为图的输入/输出接口。

导出的推理函数中，KV cache 作为独立的输入参数传入：

inputs + kv_cache → executable() → outputs + new_kv_cache

关键差异：

PyTorch 模式的局限： KV cache 与模型强耦合，导致 vLLM 必须自己实现一套外部的 paged attention 来绕过这个限制。

Core AI 模式的优点： 将 KV cache 抽象为独立的输入/输出流，天然支持：

抛开一些目标上的区别，core ai的设计扩展性更好