今天 AI 圈在拼开源、拼速度、拼收购
今天 AI 圈最值得看的不在某个模型又刷榜了,是几件事同时发生:MiniMax 把 428B 的大模型权重直接放出来,蚂蚁百灵开源了三款新模型,Kimi 给代码模型加了高速通道但价格翻倍,Salesforce 花 36 亿美元买下 AI 客服公司 Fin。另一边,美国政府一纸禁令让 Anthropic 直接关停两款模型,五角大楼也在把工作负载从 Anthropic 切走。先来看 MiniMax 这一手。
MiniMax 把 428B 大模型开源了,激活参数只有 23B
这条我先不打折——MiniMax 上周五把 M3 模型的权重直接放出来了,总参数 428B,每次推理只激活 23B,同时发了 MSA 稀疏注意力论文,专门降长上下文推理成本。M3 是第一个从预训练阶段就用图文交错数据练出来的开源模型,不是事后补的多模态。
发布两周后,M3 在 Artificial Analysis 综合智能指数和 GDPval-AA 上拿了开源第一,Code Arena WebDev 进了帕累托最优序列,Vals.AI 榜单居国产模型首位。输出速度已经从约 30 TPS 提到约 80 TPS,官方说还要再提速 30-40%。
428B 总参、23B 激活这个配比挺有意思。大参数量保证了知识容量,小激活量控制了推理成本,加上 MSA 稀疏注意力专门优化长文本,这套组合拳打的是"大模型的能力、小模型的成本"。不过现在缺的是跟同级别模型的具体对比分数,以及训练花了多少钱——这两个数字能帮我们判断这到底是技术突破还是资源堆出来的。
蚂蚁百灵三款新模型全开源,混合注意力架构把推理拉到 340 tokens/s
蚂蚁百灵今天发了 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的技术报告,代码和权重都公开了。三款模型用了同一种 Hybrid Linear Attention 架构,把 Lightning Attention 和 MLA 按 7:1 的比例拼在一起,主要图长文本跑得快、省资源。
Ling-2.6-flash 在 4 块 H20 上每秒能吐 340 个 token,1T 版训练效率比上代高了约 4 倍。这个速度在开源模型里相当能打,尤其考虑到 H20 不是最顶级的卡。
但报告没提具体训练花了多少钱。蚂蚁这种体量的公司开源模型,战略意图比技术突破更值得看——是在建生态、抢开发者心智,还是真有成本优势想走开源商业化路线?目前看更像前者。
Kimi K2.7 Code 出了高速版,输出快 5-6 倍但价格翻倍
Kimi 给 K2.7 Code 加了个高速通道。模型本身没变,但输出速度拉到常规编程约 180 Token/s、短上下文能冲到 260 Token/s,是普通版的 5-6 倍。代价是 API 调用价格翻倍,Kimi Code Plan 用户消耗按 3 倍算。用的时候必须开思考模式,关掉会报错或退回 K2.6。
跟上一代 K2.6 比,K2.7 Code 在长上下文编程指令遵循、长程任务性能上有提升,平均 token 消耗减少 30%。庆祝发布,API 开放平台推出三周充赠活动,充值 500 元及以上享 20%-30% 代金券。
这个定价策略挺直接:速度快了,多收钱。对需要高频交互的开发者来说,180 Token/s 的体验确实爽,但三倍消耗对重度用户是笔不小的开支。Kimi 这是在用速度分层定价,试探开发者愿意为低延迟付多少钱。
LMSYS 发布 DFlash 投机解码,Qwen 3.5 397B 吞吐量提升 4.3 倍
LMSYS 联合 Z Lab 和 Modal 推出了 DFlash 投机解码方案,搭配新的 Spec V2 引擎。DFlash 不用传统草稿模型一个词一个词地猜,而是用"块扩散"一次并行生成一整块候选词,更贴合 GPU 的胃口。
核心技巧是 KV 注入:直接把目标大模型中间层的隐藏状态塞进草稿模型的 KV 缓存里,让草稿模型跳过理解全文的步骤,专心预测下一个词块。在 Qwen 3.5 397B-A17B(BF16) 的 HumanEval 数据集上、并发 1 时,吞吐量达到基线的 4.3 倍。
投机解码不是新概念,但 DFlash 的块扩散 + KV 注入把效率推到了新高度。对跑大模型推理服务的团队来说,4.3 倍吞吐量意味着同样的硬件能服务更多用户,或者同样的用户量能用更少的卡。等独立基准出来,这个数字如果能复现,推理成本会再降一截。
Salesforce 花 36 亿美元买下 AI 客服公司 Fin
Salesforce 周一宣布以 36 亿美元收购 Fin,一家做 AI 客服的平台,前身就是 Intercom。Fin 的 AI 客服能在在线聊天、WhatsApp、短信、电话和 Slack 这些渠道上自动回答客户问题。Salesforce 打算把 Fin 的团队和技术整合进 Agentforce——这是它现有的企业级平台,让公司自己搭建能自动干活的 AI 智能体。
交易预计在 Salesforce 2027 财年第四季度(即 2027 年初)完成。Fin 联合创始人兼 CEO Eoghan McCabe 继续担任 CEO,研发负责人 Des 继续领导研发。
36 亿美元买一个 AI 客服公司,Salesforce 这是在补 Agentforce 的短板。但缺 Fin 的具体客户数、营收和续费率,这笔钱花得值不值还不好说。AI 客服赛道现在挤满了玩家,Salesforce 靠收购能不能跑出来,得看整合速度和客户留存。
美国政府下令 Anthropic 关停两款模型,五角大楼也在切走工作负载
今天 Anthropic 挨了两刀。第一刀来自美国商务部,上周五发出出口管制令,要求 Anthropic 禁止所有外国公民(包括自家外籍员工)访问 Mythos 5 和 Fable 5 这两个模型。Anthropic 直接关停了这两款模型,高管飞到华盛顿跟财政部长 Bessent、商务部长 Lutnick 谈。政府拿一个越狱漏洞说事,Anthropic 反驳说这个漏洞很窄、不通用,而且 OpenAI 的模型也有类似问题。
第二刀来自五角大楼。五角大楼已经转移了超过三分之二的日常 AI 工作负载,不再用 Anthropic 的模型,目标是在 9 月前完全清零。起因是年初五角大楼想让 Anthropic 签一份协议,允许把 Claude 用于大规模监控和全自动武器,CEO Dario Amodei 以模型还不够可靠为由拒绝了。之后五角大楼把 Anthropic 列为"供应链风险",还起诉了但没披露细节。
这两件事放一起看,Anthropic 的安全牌打得两面不讨好。政府嫌你不够安全要禁你,军方嫌你太安全要切你。Dario 拒绝签全自动武器协议,从安全理念上说得通,但商业代价是丢了一个大客户。政府拿越狱漏洞关停模型,Anthropic 说漏洞很窄,但谈判结果和恢复时间都没公布——这条先别急着下结论,等双方谈完再看。
今日小信号
- 英伟达发债 200 亿美元:时隔五年重返债券市场,分 7 批,最长 30 年期利率比国债高 0.9 个百分点。钱用于日常运营和还旧债,跟 Alphabet、亚马逊靠借债填 AI 算力窟窿一个路子。连卖显卡最赚钱的公司也开始借钱搞基建了。
- 字节跳动上线 Seedance 2.0 Mini:视频生成成本直接砍半,720p 每秒约 0.5 元,速度是标准版的两倍。官方说画质没怎么降,主要给电商和营销批量出片用。但没提最长能生成多少秒、模型参数量,也没给画质对比样本,"画质相当"这个说法先打个折。
- 苹果 Siri 推倒重来:新负责人 Mike Rockwell 在 WWDC 闭门会上交了底,去年其实有个能跑的原型,但团队觉得太凑合,直接把旧 Siri 架构拆了,基于新的大模型从头搭建。新版 Siri 变成独立应用,原生支持多模态。这种内部决策细节很少公开讲,值得看一眼。
- AI 裁员潮日均砍 974 人:今年科技公司已裁约 15 万人,速度比去年快 44%。Block 砍了近一半员工,CEO 说 AI 不是主因,投资人 Marc Andreessen 却说这是"银弹借口"。两边话术都别全信。
- 支付宝内测 AI 助手"阿宝":右滑就能对话办事,查公积金、调小程序省掉手动翻菜单。但官方只放了 100 个邀请码,没提模型来源和正式上线时间,目前更像 PR 试探。
- Meta 在 Facebook 上线 AI 搜索模式:从公开帖子合成答案,相当于给 Facebook 装了个"生态内版 Perplexity"。但公开帖子质量参差不齐,如果直接拿营销号内容当答案,体验会打折扣。
- 毕业生被 AI 检测整疯了:手写判 99% AI 率,AI 写的反而 0%。学生花了一百多块反复测,就为了把数字压到学校要求的 40% 以下。同一篇论文在三个平台测出 48%、44%、59%,差异大到没法信。这些检测工具连"什么是人写的"都没搞明白。