FEATUREDr/LocalLLaMA· rssEN21:38 · 05·04
FastDMS 把 KV 缓存压到 1/5~1/8,跑得比 vLLM BF16/FP8 还快
FastDMS 放出了一个 MIT 许可的实现,核心是把模型推理时占显存的 KV 缓存压到原来的 1/5 到 1/8。在 8K 上下文长度下,Llama-3.2-1B 用 6.4 倍压缩后困惑度是 9.200;Qwen3-8B 在压缩系数 c=1 时,KV 缓存从 1.406 GiB 直接降到 0.184 GiB。和很多只算字节数的方案不同,它真的把淘...
#Inference-opt#NVIDIA#University of Warsaw#University of Edinburgh
精选理由
我会先打个折,这个项目目前只给了 Llama-3.2-1B 的复现实验,更大规模模型的验证还没看到,所以别急着当通用方案。但它的钩子确实强:KV 缓存压缩 6.4 倍,同时推理速度还比 vLLM 的 BF16/FP8 快,这跟“压缩必降速”的直觉对着干。正文给出了具体的 PPL 和显存占用对比,数字可追溯。真正值得盯的是它回收了被踢掉的物理槽位,不只是账面上少占点字节,这对长上下文推理的显存管理是实打实的改进。来源是开源实现和 Reddit 讨论,不是厂商通稿,信息可信度还行,但权威性一般,所以分数定在 80 这个区间。
一句话点评
FastDMS 把 KV 缓存压到 1/5 到 1/8,而且真的释放了显存,不是只算字节数。但正文被 Reddit 屏蔽了,看不到实测延迟和精度损失细节,先打个折。
锐评
这条消息的核心卖点是“真压缩”——很多方案只告诉你 KV 缓存的字节数变少了,但显存并没腾出来,FastDMS 声称它物理回收了被淘汰的缓存槽位。从摘要看,Llama-3.2-1B 在 6.4 倍压缩下困惑度 9.200,Qwen3-8B 的 KV 缓存从 1.4 GiB 直接降到 0.18 GiB,数字上挺省钱。
但问题在于,我们拿到的正文被 Reddit 屏蔽了,只留了个摘要。这意味着几个关键信息全缺:压缩后的实际推理速度到底快了多少、长文本下的困惑度会不会崩、不同压缩系数对生成质量的影响曲线。另外,MIT 许可虽然友好,但代码质量和易用性也得等看到仓库才能判断。如果这些数据补不上,目前只能当个“看起来不错”的待验证方案,别急着往生产环境搬。
HKR 分解
hook ✓knowledge ✓resonance ✓