FEATUREDr/LocalLLaMA· rssEN12:26 · 06·14
小米上线 MiMo V2.5,用 DFlash 和 Persistent Kernel 把推理速度拉到每秒 1000–3000 token
小米的 MiMo V2.5 模型已经对外服务,官方宣称推理速度达到每秒 1000 到 3000 个 token,靠的是 DFlash(一种加速注意力计算的机制)和 Persistent Kernel(让 GPU 核心持续干活不空转)。DFlash 的模型权重已经放出来了,开源代码也说很快会发。不过 Reddit 原帖正文被安全策略拦了,只剩标题,所以实...
#Inference-opt#Xiaomi#MiMo
精选理由
MiMo V2.5 宣称的 1000-3000 tps 和两个具名加速机制(DFlash、Persistent Kernel)信息量够硬,权重已出、代码承诺开源,对本地部署的人直接有用。分数没给更高是因为 Reddit 正文被拦了,只剩标题,很多细节没法核实,这点先别太激动。
一句话点评
小米 MiMo V2.5 推理速度标称 1000-3000 tps,但原帖正文被 Reddit 安全策略拦了,只剩标题,实测延迟、并发数、硬件配置全没披露。这个 tps 大概率是理想批处理峰值,单用户实际体验会低不少,先打个折。
锐评
这条消息来自 Reddit 标题,正文被屏蔽,信息缺口很大。小米说 MiMo V2.5 推理速度到了每秒 1000 到 3000 个 token,靠的是 DFlash 和 Persistent Kernel 两项加速技术。DFlash 是一种让注意力计算更省时的机制,Persistent Kernel 则是让 GPU 核心持续跑、减少空闲等待。模型权重已经放出来了,开源代码说很快会发。
但关键信息全缺:这个速度是在什么显卡上跑的、同时处理多少请求、单次请求的首 token 延迟是多少,正文都没披露。标题里的 tps 数字通常是厂商在最优批处理条件下测出来的峰值,单用户用起来可能只有几分之一。DFlash 模型权重虽然能下载,但没有配套推理代码的话,普通开发者很难复现这个速度。
如果开源代码真能按时发、而且文档清楚,对想在本地跑大模型的人是个好消息。现在只能等小米兑现承诺,同时看看有没有第三方实测数据出来。
HKR 分解
hook ✓knowledge ✓resonance ✓