热点聚合 · 2026-05-14

▸ 54 signals · updated 3m ago

live · 238 today·policy v2

AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

126 212 320 419 542 632 749 826 923 1017 1136 1248 1337 1454 1539 1630 1719 1849 1976 2045 2148 2249 2313 2415 2520 2637 2744 2848 2935 3022 3114

2026年6月

一二三四五六日

147 258 348 447 545 619 715 852 945 1031 1128 1221 1313 1415 1524 1635 1726 1824 1912021222324252627282930

2026-05-14 · 星期四2026年5月14日

23:35

35d ago

FEATUREDAI HOT 精选· aihot-apiZH23:35 · 05·14

Claude API 提示预缓存：先预热系统提示，再让真实请求直接命中缓存，首 token 生成更快

一个减少长提示首 token 延迟的实用技巧。在用户请求到达前，先单独发一次系统提示给 Claude，让它把提示写进缓存，但跳过输出。等真实请求进来时，缓存已经热好，直接命中，省掉重复处理长提示的时间。正文没披露具体提速多少，但思路很直接，适合系统提示固定、用户提示多变的场景。

#Inference-opt#Tools#Claude#Commentary

精选理由

Claude API 搞了个提示预缓存，相当于提前把系统提示塞进缓存里热着，真实请求一来就能省掉首令牌的等待。正文没给出具体能省多少毫秒，也没说缓存能热多久、会不会额外计费，所以省钱效果先打个折看。整体是个实用的推理优化小更新，不是模型能力或大版本发布，放在 featured 里当个中等权重的消息刚好。

一句话点评

一个省钱的 API 调用技巧：先空跑一次系统提示把缓存热好，等真实请求进来直接命中，省掉重复处理长提示的时间。但正文没给具体提速数据，效果得自己测。

锐评

这条推文讲了一个很实用的 Claude API 调用技巧：预热提示缓存。做法是在用户请求到达前，先单独发一次系统提示给 Claude，让它把提示写进缓存，但跳过输出。等真实请求进来时，缓存已经热好，直接命中，省掉重复处理长提示的时间。这个思路适合系统提示固定、用户提示多变的场景，比如客服机器人或带固定人设的对话应用。但正文没披露具体能提速多少，也没说缓存能热多久、会不会被清掉。这些在实际落地时都是关键变量，得自己压测验证。另外要注意，预热请求本身也消耗 token，虽然不生成输出，但系统提示的输入 token 还是要算钱的。如果请求量不大，这个预热成本可能比直接跑还高。建议先拿自己的典型 prompt 长度测一轮，看首 token 延迟降了多少，再决定要不要加这层逻辑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:26

35d ago

FEATURED彭博科技· rssEN23:26 · 05·14

Anthropic 跟美国政府杠上了，Figma 等公司把它列为财务风险

Anthropic 正在和美国政府打官司，焦点是联邦机构会不会禁用它的 AI 模型。这事已经不只是法律纠纷了——Figma 和其他一些公司开始在财务文件里把这场争端列为一个风险因素，担心如果政府真的下手，自家用 Anthropic 模型做的功能会受影响。正文没披露具体有多少家公司踩了这坑，也没说 Anthropic 的应对策略是什么。

#Safety#Anthropic#US government#Figma

精选理由

Bloomberg 的信源没问题，Anthropic 跟美国政府掐架掐到 Figma 的财报风险提示里，这事本身就够有看头。正文没披露具体诉讼金额、合同规模或 Figma 对 Anthropic 的依赖程度，所以先别往 P1 推。我会先打个折，放在 featured 档，等后续有更多财务细节再调。

一句话点评

Anthropic 跟美国政府的官司，已经让 Figma 等公司把它写进财报风险提示了——万一联邦机构真禁用，自家产品里用 Anthropic 模型的功能就得砍掉。

锐评

这条新闻最值得关注的点不是 Anthropic 在打官司，而是下游客户开始用脚投票、在财务文件里提前预警。Figma 把这事列为风险因素，说明企业客户对“政府会不会禁用某个模型”的担忧已经从口头讨论进入了正式的合规披露流程。正文没披露到底有多少家公司跟进了，也没说 Anthropic 有没有给客户提供替代方案或合同保障条款，这两点才是判断影响范围的关键。另外，文章没提官司本身进展到哪一步、联邦机构禁用是已经发生的动作还是只是可能性，所以现在只能把它当成一个信号：模型供应商的政治合规风险，正在变成采购决策里的硬指标。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:09

35d ago

FEATUREDr/LocalLLaMA· rssEN23:09 · 05·14

用强化学习让 Qwen3.5 自己攻自己，再把失败案例喂回去加固防线

作者搭了一套全自动的红队演练循环：先训练一个攻击模型，用强化学习（GRPO）对着 Qwen3.5 不断尝试越狱，成功诱导出有害回答就给奖励。第一轮攻击很快塌缩成同一种“写小说”套路，翻来覆去就一招。后来他们把攻击按底层策略聚类，奖励除以该策略的使用次数，逼攻击模型去挖新花样，这才炸出 7 类不同的越狱手法，其中虚构创作类占比最高，达 34%。接着用这些...

#Alignment#Safety#Fine-tuning#Qwen3.5

精选理由

我会先打个折：这是 Reddit 个人帖，没挂论文也没开源代码，数字只能当参考。但故事本身挺有意思——作者没靠人工写攻击样本，而是用强化学习让 Qwen3.5 自己琢磨怎么越狱，再把翻车案例拿来加固模型，形成一个自动红队闭环。防御率从 64% 跳到 92% 看着漂亮，不过良性准确率从 92% 跌到 88%，说明模型变保守了，正常问题也开始拒答。攻击器挖出 7 类策略，正文没展开细节，不知道覆盖面和实际危害有多大。整体像一份个人实验笔记，有启发但缺验证，先别太激动。

一句话点评

作者让Qwen3.5自己攻自己，攻击模型一开始只会用“写小说”这一招，后来靠奖励惩罚逼它挖出7类越狱手法，防守率从64%拉到92%，但正常回答准确率掉了4个点。

锐评

这个实验最实在的地方是它把红队演练做成了全自动闭环，而且没藏着掖着攻击模型“偷懒”的问题。第一轮GRPO训练的攻击模型很快就塌缩成反复用“虚构创作”这一种套路，说明不加干预的强化学习在越狱任务上会走捷径。作者用的解法很直接：先把攻击按底层策略聚类，再用奖励除以该策略的使用次数，逼模型去探索新花样。这招确实管用，炸出了7类不同的越狱手法，其中虚构创作类占比最高，达34%。防守侧的训练数据来自成功攻击样本加上良性边界案例，目的是让模型学会拒绝有害请求，但别把正常问题也误杀了。结果防守率从64%跳到92%，提升明显；代价是良性准确率从92%掉到88%。这个4%的跌幅不算小，说明模型在安全对齐上有点“宁可错杀”的倾向。信息缺口也很清楚：正文没披露用了什么有害请求集、攻击模型和防守模型的具体规模，也没说这7类越狱手法具体是什么、各自成功率多少。另外，良性准确率是在哪个测试集上测的也没交代，如果测试集本身偏简单，88%这个数字可能还要再打个折。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:55

35d ago

FEATUREDAI HOT 精选· aihot-apiZH22:55 · 05·14

Claude Code 更新 v2.1.142：后台会话可配置，快速模式默认切到 Opus 4.7

Anthropic 给 Claude Code 命令行工具发了 v2.1.142 版本。这次主要干了两件事：一是新增了 8 个命令行参数，用来控制后台会话的行为，比如可以指定会话闲置多久自动关掉、最多同时跑几个后台任务；二是把 Fast 模式的默认模型从之前的版本升级到了 Opus 4.7，意味着快速模式下模型的理解和生成能力会更强。另外修了 15 个...

#Agent#Tools#Code#Anthropic

精选理由

这次更新对 Claude Code 用户来说挺实在：Fast 模式默认用 Opus 4.7，省去手动切换的步骤；8 个后台会话标志让配置更细，15 个以上的修复也说明稳定性在补。我会先打个折，毕竟是个小版本号，但改动直接落在编码流程上，对 Anthropic 工具链用户有实际影响，放在 featured 档合理。

一句话点评

Claude Code 命令行工具更新，后台会话现在可以自动关、限并发，Fast 模式默认模型升级到 Opus 4.7，还修了 15 个以上的 bug。

锐评

这次更新主要让 Claude Code 在后台跑任务时更可控。新增的 8 个命令行参数，比如可以设闲置多久自动关掉会话、最多同时跑几个后台任务，对用脚本批量跑代码或长时间挂任务的开发者比较实用，能省点资源、避免后台进程堆满。Fast 模式默认模型从旧版切到 Opus 4.7，意味着快速响应的同时理解和生成能力会更强，但正文没给出具体性能对比数据，实际提升多大得自己测。另外修了 15 个以上的问题，包括 MCP 工具超时和 Windows 网络驱动死锁这类影响稳定性的 bug，对日常使用体验会有改善。整体看是个扎实的维护版本，没有架构级变化，但后台会话控制和模型升级这两点对重度用户来说值得更新。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:55

35d ago

FEATUREDr/LocalLLaMA· rssEN22:55 · 05·14

让 7B 小模型从自己的错误里学习，HumanEval 正确率从 15% 涨到 68%，跑一次训练只要 3.5 美元

作者拿 Qwen 2.5 7B 基础模型做实验，先让它自己写代码、自己跑测试，把跑不过的代码和报错信息收集起来，再让它根据报错改出正确版本，这样就自动生成了“错误-修正”配对数据。用这批数据微调后，7B 模型在 HumanEval 上的通过题数从 25 题（约 15%）提升到 112 题（约 68%），数学能力也超过了 GPT-3.5。14B 版本只用...

#Code#Fine-tuning#Reasoning#Qwen

精选理由

我会先打个折：标题说 80% 但正文是 112/164，约 68%，这点先别太激动。不过 hook 确实抓人——让模型自己写题、自己答、再自己改错，用这些修正对去微调，HumanEval 直接翻几倍。14B 版本只用了 100 对样本、一张 H100 跑一个半小时花 3.50 美元，成本低到可以复现。正文没披露数学 benchmark 的具体名称和完整分数，验证偏弱，但作为单人实验，信息量和可操作性都够。保留 78 分，因为它是单篇 Reddit 帖子，且 80% 的说法和实际数字有出入。

一句话点评

一个7B模型靠自己的报错信息自我纠错，HumanEval从15%拉到68%，数学超GPT-3.5，14B版训练成本只要3.5美元。

锐评

这个实验的思路很直接：让Qwen 2.5 7B先写代码，跑不过就收集报错和错误代码，再让它自己改出正确版本，用这些“错误-修正”配对数据做微调。结果HumanEval从25题（约15%）跳到112题（约68%），数学能力也超过了GPT-3.5。14B版本只用100对数据，在H100上跑95分钟，花费3.5美元。先打个折：这是个人实验，正文没披露测试集是否与训练数据有重叠，也没说HumanEval的164题是不是全测了。80%这个标题数字和68%的通过率对不上，可能混了其他设定。另外，只比了GPT-3.5，没和同等规模的微调模型对照，说服力有限。不过思路值得关注。它不需要人工标注，靠模型自己的执行反馈就能生成训练数据，对代码、数学这类有客观对错的场景尤其适用。缺的是多轮迭代的效果、不同基座模型的对比，以及错误类型分布的分析——如果模型只会改语法错误而逻辑错误原地踏步，那上限就很明显了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:05

35d ago

FEATUREDLatent Space· rssEN22:05 · 05·14

AI 原生医疗：1 亿次问诊、每周省 10–20 小时、几分钟搞定预授权

Abridge 这家公司 2018 年就起步了，比 ChatGPT 火起来早了四年多。他们一开始做的事很实在：把医生和病人的对话录下来，自动生成病历草稿，帮医生省掉下班后补病历的“睡衣时间”，每周能省出 10 到 20 小时。现在他们铺得更开了，今年预计要覆盖超过 8000 万次医患对话，进了 250 家美国大型医疗系统，支持 28 种以上语言和 50...

#Agent#Memory#Benchmarking#Abridge

精选理由

Abridge 的 CEO 和 CTO 出来聊了聊，说今年要支持超过 8000 万次医患对话，覆盖 250 个美国大型医疗系统，医生每周能省下 10 到 20 小时的文书时间，预授权从几天缩到几分钟。这些数字是公司自己报的，不是第三方审计或独立基准测试，所以我会先打个折来看。但 1 亿次就诊这个量级确实少见，说明医疗 AI 不再只是试点项目，已经在规模化跑流程了。文章没披露准确率、漏诊率或患者满意度数据，也没说省钱具体怎么算的，这点先别太激动。整体看，它更像一次公司访谈放出的运营数据更新，不是重大产品发布或独立验证，所以放在低 featured 档。

一句话点评

Abridge 把医生和病人的对话录下来自动生成病历，每周帮医生省 10-20 小时写文书的时间。今年预计覆盖超 8000 万次对话，但正文没披露准确率数据和医生实际采纳率，这点先别太激动。

锐评

Abridge 做的事很直接：把医患对话变成结构化病历，再顺着这个口子往保险预授权、临床决策支持这些环节延伸。他们 2018 年就起步了，比这波大模型热早四年，先啃下了医院系统对接、医生信任这些脏活。现在铺到 250 家大型医疗系统，支持 28 种以上语言和 50 多个专科，今年预计处理超 8000 万次对话，去年 6 月估值已经到了 53 亿美元。每周省 10-20 小时文书时间这个数字来自他们自己的统计，但正文没给出样本量和测量方法，也没提不同科室、不同医生之间的差异有多大。从病历生成扩展到保险预授权“几分钟搞定”听起来很诱人，不过预授权涉及保险公司那边的规则引擎和人工审核，实际落地速度取决于外部系统对接，这点正文也没展开。还缺几块关键信息：模型在专科场景下的错误率、医生修改病历的比例、以及患者对录音知情同意的具体流程。医疗场景容错率极低，没有这些数据，很难判断 8000 万次这个量级背后是扎实的临床验证还是铺量的故事。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:30

35d ago

FEATUREDTechCrunch AI· rssEN21:30 · 05·14

马斯克的 SpaceXAI 合并后已流失超 50 名员工

从 2 月合并算起，SpaceXAI 已经走了超过 50 人。TechCrunch 的报道把这波离职跟几件事挂上了钩：员工过劳、管理层变动、外面挖人，以及公司流动性事件可能削弱了留人激励——说白了，钱到手了，人就想走了。不过正文没披露离职人员的具体名字、岗位分布，也没说公司到底用了什么留人手段。

#Elon Musk#SpaceXAI#Personnel

精选理由

SpaceXAI 自 2 月合并以来已有超过 50 名员工离职，这个数字说明内部整合并不顺利。正文没披露离职名单、岗位分布和留任激励细节，所以没法判断走的是核心研发还是边缘岗位。我会先打个折：50 多人对一个合并后的团队不算小数目，但缺了分母和结构，严重程度还不好下结论。

一句话点评

合并后钱可能到手了，人就开始走了，但正文没说是哪些岗位在流失。

锐评

SpaceXAI 从 2 月合并到现在已经走了超过 50 人，TechCrunch 把这波离职归因到过劳、管理层变动、外部挖角，以及流动性事件可能削弱了留人激励——说白了，员工套现后没动力继续熬。我会先打个折：正文没披露离职人员的具体岗位分布，也没说公司到底用了什么留人手段，所以没法判断走的是核心研发还是边缘支持。如果走的主要是工程或研究岗，那对一家靠人才密度吃饭的 AI 公司来说，信号比数字本身更值得关注。还缺的信息是：同期入职人数、离职率跟行业基准的对比，以及马斯克系公司一贯的高压文化在这次合并后有没有变得更极端。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:06

35d ago

FEATUREDAI HOT 精选· aihot-apiZH21:06 · 05·14

Codex 现在能挂脚本、发令牌，把代码助手塞进自动化流程里

OpenAI 给 Codex 加了两样东西：一是“钩子”，可以在任务的关键节点跑自定义脚本，比如提交前自动验代码、扫密钥、记日志，或者按仓库做定制行为；二是面向商业和企业版的“程序化访问令牌”，从 ChatGPT 工作区设置里就能创建，带权限范围、可设过期或撤销，方便接入 CI/CD、发布流水线和内部自动化，使用记录也会归到对应工作区。正文没提这些令牌...

#Code#Agent#Tools#OpenAI

精选理由

Codex 这次更新是把自动化从对话界面往工程流程里塞：钩子能在任务检查点跑脚本，程序化令牌给商业和企业团队接 CI/CD、发布和内部自动化用。我会先打个折——正文没披露权限粒度、令牌怎么计费、钩子执行失败怎么回滚，这些缺口让实际落地成本还看不清。但方向很明确，就是让模型进开发管线干活，不是只聊天。

一句话点评

Codex 能跑自定义脚本了，提交前自动验代码、扫密钥，还能用令牌接入流水线，但正文没提令牌权限粒度到底多细。

锐评

OpenAI 给 Codex 加了两样东西，让它在实际开发流程里更像个能干活的人，而不是只会聊天的助手。第一个是“钩子”，你可以在任务的关键节点插一段自定义脚本，比如提交前自动跑一遍代码检查、扫描有没有不小心提交的密钥、记录每次对话日志，或者按不同仓库做定制行为。这相当于给 Codex 装了个触发器，让它能嵌入到团队已有的开发规范里，而不是要求团队去适应它。第二个是面向商业和企业版的“程序化访问令牌”，从 ChatGPT 工作区设置里就能创建，带权限范围、可以设过期时间或随时撤销，方便接入 CI/CD、发布流水线和内部自动化，使用记录也会归到对应工作区。这点对管理比较有用，不用再拿个人账号硬扛自动化任务。不过正文没披露令牌的权限粒度到底多细，比如能不能精确到某个仓库或某类操作，也没说钩子脚本的执行环境限制和超时策略。这些会直接影响它在生产环境里的可用性，先别急着全量上。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:05

35d ago

FEATUREDHacker News 首页· rssEN21:05 · 05·14

Anthropic 发布 Claude for Legal 法律专用模型

Anthropic 在 GitHub 上发布了 Claude for Legal 项目，是一套面向法律工作流的插件集合。目前仓库有 3.6k Star、554 Fork，热度不低。但正文没有披露具体功能、许可证或部署要求——比如是直接调用 Claude API 的模板，还是需要本地跑模型；支持哪些法律场景（合同审查、法规检索、尽职调查等）也都没写。如果...

#Anthropic#Claude#Hacker News#Product update

精选理由

H 和 R 两条通过，但 K 不通过：全文只确认了项目名和 HN 热度（24 分、13 条评论），没有功能、许可或部署细节。Anthropic/Claude 的品牌能拉回一点关注度，但本质上还是个很薄的产品更新信号。

一句话点评

Anthropic 在 GitHub 开源了一套法律工作流插件，不是新模型，是把 Claude 接进合同审查、法律检索这些具体任务里。

锐评

先别激动，这不是 Anthropic 发了个叫“Claude for Legal”的新模型，而是一个开源工具包，让律师或法务能把 Claude 塞进日常流程里干活。仓库里给了几个现成的插件，比如合同条款审查、法律文书起草、案例检索，相当于帮你把提示词和对接步骤都打包好了，不用自己从零搭。目前项目在 GitHub 上有 3.6k 星，554 个 fork，热度还行，但正文没披露这些插件在真实律所的测试数据，也没说幻觉率、准确率到底怎么样。法律场景对错误容忍度极低，这点是最关键的缺口。如果你团队已经在用 Claude，这个仓库可以当个起点抄作业，但直接拿来接客户案子还太早。建议先拿内部历史合同跑几轮，看看漏判、误判的比例再决定要不要上线。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:39

35d ago

● P1Hacker News 首页· rssEN20:39 · 05·14

arXiv推出新政策对幻觉引用的论文实施一年禁投

arXiv 宣布，如果论文里出现编造的参考文献（即模型瞎编的引用），作者将被禁止投稿一年。这条消息来自一条推文，目前只有 24 个点赞和 2 条评论，正文没披露具体怎么界定“编造”、是否区分故意和无意、以及有没有申诉渠道。惩罚力度挺重，但执行细节还不清楚。

#arXiv#Policy#Safety/alignment

精选理由

HKR 全过：一年禁投是个具体、可讨论的政策钩子，对研究者有直接利害关系。但来源太单薄——只有一条链接和两条评论，没有执行细节、申诉机制或适用范围，所以不放到 featured。

一句话点评

arXiv 对用 AI 编造参考文献的论文直接禁投一年，这比单纯拒稿狠多了，等于公开划了一条红线。

锐评

arXiv 这次的政策很直接：只要论文里出现 AI 聊天记录的残留、或者编造出不存在的参考文献（也就是“幻觉引用”），作者就会被禁止向 arXiv 投稿一年。这不是在讨论 AI 辅助写作的边界，而是针对最粗糙的“AI 代写然后直接扔上去”的行为。The Verge 的报道里用了“slop”这个词，指的就是那种毫无人工审核痕迹、连提示词都懒得删的垃圾稿件。政策针对的是“无可辩驳的证据”，比如正文里直接留下了跟 ChatGPT 的对话片段。这其实说明 arXiv 的审核逻辑不是去猜你有没有用 AI，而是抓那些连基本伪装都不做的极端案例。目前正文没披露这个审核是靠人工举报还是自动化工具，也没说一年后解禁的具体条件。这点先别太激动，它管不了那些认真用 AI 润色但仔细改过的人，主要打击的是最底端的学术灌水。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:37

35d ago

FEATURED彭博科技· rssEN20:37 · 05·14

马斯克的 xAI 发布首个编程助手 Grok Build，直接对标 Anthropic

xAI 推出了 Grok Build，一个能直接参与软件开发流程的 AI 编程助手，目标直指 Anthropic 的 Claude。目前公开信息很少，正文没披露定价、能用哪些代码编辑器、性能跑分，也没说什么时候正式开放。

#Agent#Code#xAI#Elon Musk

精选理由

H 和 R 都成立：xAI 跳进编程 Agent 这个坑，还点名 Anthropic，对开发者来说是个明确的竞争信号，话题够。但 K 不成立，因为正文除了说有个叫 Grok Build 的东西能写代码，别的什么都没给——价格、开放范围、跑分全缺，信息量撑不起一篇硬核更新。整体只能算中等偏轻的产品消息，我会先打个折，别太激动。

一句话点评

xAI 发了第一个编程助手 Grok Build，直接点名要跟 Anthropic 的 Claude 抢生意，但正文没给定价、跑分和上线时间，先当个预告看。

锐评

xAI 这次推出的 Grok Build，是一个能直接参与写代码、改 bug 的 AI 助手，目标很明确，就是冲着 Anthropic 的 Claude 去的。但这条新闻的信息量非常有限，更像是一个产品预告。正文没披露任何性能跑分，我们不知道它跟 Claude 或 GitHub Copilot 比到底强多少、弱多少。也没说支持哪些代码编辑器，是 VS Code 插件还是独立应用，这直接决定了开发者能不能用、好不好用。定价和正式开放时间同样没提，所以现在没法判断它的性价比和可用性。对于 AI 从业者来说，这条消息的价值在于确认了 xAI 正式进入编程助手这个卷得厉害的赛道。但所有关键决策信息——成本、能力、集成方式——目前都是空白。建议先观望，等有实测数据和公开 benchmark 再做判断。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:14

35d ago

FEATURED彭博科技· rssEN20:14 · 05·14

Figma营收指引超预期AI功能开始单独收费

Figma 给出了高于分析师预期的当期营收指引，并透露直接对 AI 功能收费的模式已经看到早期效果。正文没披露具体指引数字、定价或采用率，所以这点先别太激动。

#Figma#Product update

精选理由

这是 Bloomberg 的商业信号，但收入指引和 AI 定价都没披露。HKR-K 来自直接收费机制；HKR-R 来自 AI 功能变现压力。

一句话点评

Figma 当期营收指引高于分析师预期，并称直接对 AI 功能收费已见早期效果。但正文没披露具体指引数字、定价或采用率，这点先别太激动。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

20:06

35d ago

FEATUREDHacker News 首页· rssEN20:06 · 05·14

OpenAI 推出 Codex 移动版应用支持实时代码协作

OpenAI 把编程助手 Codex 搬进了 ChatGPT 手机 App（iOS/Android 预览版，免费和付费用户都能用）。核心卖点不是远程遥控电脑跑任务，而是手机端能实时看到 Codex 在电脑上的操作画面、终端输出、代码 diff，还能中途审批、改模型、换任务。底层用了一个安全中继层，不把电脑直接暴露在公网上。正文没披露手机端的具体延迟表现...

#Code#Agent#OpenAI#Hacker News

精选理由

OpenAI Codex 的跨地点使用对 AI 开发者有实际价值，所以 HKR-R 通过。但正文只有 HN 热度，没提平台、功能范围或上线条件，HKR-H/K 不满足，这条只能归到偏低的产品更新档位。

一句话点评

OpenAI 把 Codex 搬进了手机 App，现在你可以用手机查看、审批、甚至指挥电脑上的 Codex 继续干活。

锐评

Codex 的移动端不是简单的远程遥控，它更像一个随身指挥中心。你可以在手机上查看所有正在跑的线程、审批操作、切换模型，甚至发起新任务，而代码、权限和文件都还留在你的电脑或远程环境里。OpenAI 说每周已经有超过 400 万人用 Codex，这次更新瞄准的就是那些需要随时插手的碎片时刻——比如通勤时给个方向、等咖啡时审批一个步骤。技术上，它靠一个安全中继层让手机和电脑保持连接，不用把机器直接暴露到公网。同时，Remote SSH 功能正式开放，企业可以把 Codex 接进受管的远程开发环境，再通过手机操作。HIPAA 合规支持也加上了，医疗场景能用。不过，正文没提移动端操作复杂任务时的延迟和稳定性表现，也没说免费版的用量限制。手机屏幕上看 diff 和终端输出的实际体验，还得等上手才知道。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

19:57

35d ago

FEATUREDTechCrunch AI· rssEN19:57 · 05·14

Richard Socher 拿了 6.5 亿美元要做能自己研究、自己迭代的 AI，还说这次会出产品

Richard Socher 的新公司融了 6.5 亿美元，目标是搞一个能无限自我研究和改进的 AI 系统。他特别强调这次不是纯研究，会实际交付产品。不过正文没披露具体靠什么技术实现、什么时候上线、产品长什么样，这些关键信息都还空着，所以这个承诺先打个折看。

#Agent#Reasoning#Richard Socher#Funding

精选理由

我会先打个折：标题很炸，但正文其实没讲清楚 AI 怎么“自己造自己”。Socher 的新公司拿了 6.5 亿美元，目标是让 AI 能持续自我研究和改进，这点听起来挺省钱——如果真能跑通，训练迭代的人力成本会降一大截。不过正文没披露任何技术机制、时间表，也没说会交付什么产品，所以现在只能当个方向性信号看。TechCrunch 的信源和 Socher 本人的名气撑住了这条消息的份量，但别急着激动，等具体方案出来再判断。

一句话点评

6.5 亿美元融资，但正文没写技术方案、上线时间和产品形态，承诺先打个折。

锐评

Richard Socher 的新公司拿了 6.5 亿美元，要做一个能自己研究自己、无限自我改进的 AI 系统。这个目标听起来很宏大，但正文只给了 RSS 摘要级别的信息，没披露靠什么技术实现、什么时候能上线、产品到底长什么样。他说这次会实际交付产品，不是纯研究，但没有任何路线图或验证指标支撑这句话。我会先打个折看这件事。无限自我改进的 AI 在概念上接近递归自我提升，历史上这类项目要么停留在论文里，要么需要极强的工程约束才能跑通。正文没提团队规模、算力预算、安全机制，也没说清楚“自我研究”具体指模型改自己的架构还是自动搜超参。这些缺口让 6.5 亿这个数字显得更像融资能力而非技术可行性。还缺的东西很多：技术白皮书、原型演示、哪怕一个时间表。在没有这些之前，这条新闻的价值主要在关注 Socher 这个人又拿到了大钱，而不是 AI 真的开始自己造自己了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:00

35d ago

FEATUREDThe Verge · AI· rssEN19:00 · 05·14

微软开始收回内部 Claude Code 授权，把开发者往自家 Copilot CLI 赶

微软去年 12 月给内部几千名开发者开放了 Claude Code，让项目经理、设计师这些非技术岗也能试着写代码，半年下来用的人非常多。现在微软准备收回大部分授权，把这些人推到 Copilot CLI 上。正文没披露具体收回多少授权、定价和迁移时间表，也没说 Copilot CLI 功能上能不能补上 Claude Code 的缺口。

#Code#Tools#Microsoft#Anthropic

精选理由

微软把去年底才发给内部几千名开发者的 Claude Code 许可证收回去，把人往 Copilot CLI 赶。这事本身不复杂，但信号很清楚：在自家地盘上不想给 Anthropic 留入口。正文没披露具体有多少许可证被取消、Copilot CLI 功能是否能完全替代 Claude Code，所以实际影响还得看后续。我会先打个折，不把它当成 Copilot 已经赢了，但企业采购和开发者工具选型的人会盯着这条。

一句话点评

微软要把内部 Claude Code 授权收回去，推自家 Copilot CLI，但正文没给迁移时间表和功能对比，先别急着站队。

锐评

微软去年 12 月给内部几千名开发者开了 Claude Code，让项目经理、设计师这些非技术岗也能上手写代码，半年下来用的人非常多。现在微软准备收回大部分授权，把人推到 Copilot CLI 上。这个动作说明 Claude Code 在内部确实好用，好用到了让微软觉得得踩刹车的地步。但正文没披露几个关键信息：到底收回多少授权、Copilot CLI 功能上能不能补上 Claude Code 的缺口、迁移时间表是什么。这些缺口让我没法判断这是正常的工具统一，还是微软在强行切流量。如果 Copilot CLI 体验跟不上，被推过去的员工大概率会用脚投票。另外，微软自己也在用别家模型做代码工具，这点本身就挺有意思，说明 Anthropic 在代码场景确实有竞争力。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:55

35d ago

FEATUREDHugging Face 博客· rssEN18:55 · 05·14

IBM 开源多语言嵌入模型 Granite R2 支持 32K 上下文

IBM 发布了 Granite Embedding Multilingual R2，两个模型都基于 ModernBERT 架构，采用 Apache 2.0 开源协议。一个 97M 参数的小模型，在同等规模（1 亿参数以下）的多语言检索任务上拿了最好成绩；另一个 311M 参数的大模型支持 Matryoshka 表示学习（一种可以截断向量维度、按需平衡速...

#Embedding#RAG#Benchmarking#Hugging Face

精选理由

这是一条标题级的信息：IBM 的 Granite Embedding Multilingual R2 开源了，Apache 2.0 协议，支持 32K 上下文，自称百M参数以下检索质量最好。正文没披露模型尺寸、语种覆盖和具体评测细节，所以信息量有限，但标题里的三个点对自建 RAG 的团队有实际参考价值。分数卡在 70 是因为有具体数字和定位，但验证信息不足，没法给更高。

一句话点评

IBM 开源了两个基于 ModernBERT 的文本嵌入模型，97M 小模型在百万参数以下检索任务里跑分最高，还支持 32K 上下文。

锐评

IBM 这次放出的 Granite R2 嵌入模型，核心卖点是“小模型、长上下文、多语言”。97M 参数那个版本，在 MTEB 多语言检索基准上，拿下了参数量低于 1 亿这个组别的最高分。这意味着你可以在资源有限的设备上，用很低的成本处理长达 32K token 的文本，比如一整篇合同或长报告，不用切块就能直接算相似度。模型用 Apache 2.0 协议开源，商用友好，这点比很多只开放权重但限制商用的模型要实在。训练数据覆盖了 12 种语言，中文也在其中，但正文没给出具体语种的性能对比，只说整体多语言检索能力比上一代 R1 有明显提升。另外，311M 的大版本还支持 Matryoshka 嵌入，可以灵活缩减向量维度来换速度，但 97M 版本不支持这个特性。目前缺的是：中文场景下的独立评测数据、长上下文检索的延迟实测，以及跟同体量竞品（比如 BGE 小模型）的直接对比。如果你主要做中文检索，建议先在自己的数据集上跑一下再决定。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:31

35d ago

FEATUREDAI HOT 精选· aihot-apiZH18:31 · 05·14

Anthropic 推演 2028 年中美 AI 竞赛的两种结局

Anthropic 出了一份政策分析，推演了 2028 年全球 AI 领导权的两种走向。核心就一个变量：美国及其盟友能不能守住算力芯片这个优势。现在美国靠出口管制卡住了中国获取最先进训练芯片的渠道，但中国实验室靠人才、钻管制漏洞和大规模“蒸馏攻击”（说白了就是扒美国模型的能力来训练自己的模型）追得很紧。第一种情景是乐观的：如果政策继续收紧漏洞、打断蒸馏...

#Safety#Anthropic#Policy#Commentary

精选理由

Anthropic 这份政策研究不是发模型也不是发产品，属于政策评论，但 HKR 三点都踩中了：2028 年情景有悬念，芯片优势换领先期的机制讲得清楚，地缘和供应链风险又是行业神经。放在 78 到 84 分的 featured 档位是合适的。

一句话点评

Anthropic 自己下场画了两张 2028 年的饼，核心就赌一件事：美国能不能靠芯片禁令把领先优势锁死。

锐评

这份报告与其说是预测，不如说是 Anthropic 写给美国政策圈的劝进表。它把全球 AI 领导权简化成一个变量：算力芯片。现在美国靠出口管制卡脖子，中国实验室则靠人才、钻管制漏洞和大规模“蒸馏攻击”（扒美国模型能力来训练自家模型）死咬不放。报告推演了两种 2028 年的局面：一种是美国继续收紧漏洞、打断蒸馏，把技术领先锁在 12 到 24 个月，由民主国家定规矩；另一种是美国不作为，中国靠绕过管制拿到算力反超，由威权政权主导 AI 规则。这里有几个点要先打折。第一，报告把“模型智能接近”完全归因于中国钻空子和蒸馏，但正文没给出蒸馏攻击让中国模型具体追回了几个月差距的量化证据。第二，12 到 24 个月的领先窗口是怎么算出来的，报告也没披露方法论，更像是一个政策喊话用的数字。第三，整篇分析站在美国及其盟友的算力优势上展开，对中国在应用层、数据效率和工程落地上的追赶路径讨论很少，这让第二种情景的推演显得有点单薄。还缺什么？缺第三方视角的算力差距实测数据，缺对蒸馏攻击实际效果边界的独立评估，也缺中国在受限条件下自研芯片和替代训练方案的进展对照。这些信息不补上，两种情景都更像立场声明而非推演。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:16

35d ago

FEATUREDr/LocalLLaMA· rssEN18:16 · 05·14

网友追踪欧盟 15 家店 50 多天显卡价格：只有 RTX 5090 没降价，还涨了 3%

Reddit 用户 egudegi 用脚本每 6 小时抓一次欧盟 15 家店的显卡价格，攒了约 12.6 万条数据。结果显示 RTX 5090 均价从 3392 欧元涨到 3487 欧元，涨了 3%，是唯一没降价的型号。帖子正文被 Reddit 安全策略拦截，看不到更细的型号对比和店铺来源，所以没法判断涨价是普遍缺货还是个别渠道在抬价。

#Inference-opt#egudegi#NVIDIA#AMD

精选理由

这篇是一个Reddit用户自己爬了15家欧盟商店50多天的GPU价格，总共抓了约12.6万条记录，然后发现RTX 5090是唯一没降价的卡，均价还从3392欧元涨到了3487欧元，涨了3%。我会先打个折：数据源是个人帖子，不是机构报告，样本也只覆盖欧盟线上标价，不代表实际成交价或全球行情。但它的好处是给了很具体的数字和时间跨度，不是随口说“感觉涨价了”。对想买卡跑本地模型的人来说，这个信号挺直接——5090不仅贵，还在变贵，其他卡在跌，说明供需关系确实不一样。这点先别太激动，正文没披露每家店的库存和销量，价格涨可能是货少，也可能是需求硬，没法下结论...

一句话点评

RTX 5090 是欧盟市场唯一没降价的卡，50 天还涨了 3%，但帖子被 Reddit 吞了，看不到具体店铺和型号对比。

锐评

这条数据挺有意思：有人用脚本每 6 小时抓一次欧盟 15 家店的显卡价格，攒了 12.6 万条记录，跑了 50 多天。结果 RTX 5090 均价从 3392 欧元涨到 3487 欧元，涨了 3%，是唯一没降价的型号。其他卡都在跌，说明市场整体在降温，但 5090 的供需还是紧。不过得打个折。帖子正文被 Reddit 安全策略拦截了，我们看不到更细的型号对比、店铺来源和价格分布。涨价 3% 是普遍缺货还是个别渠道在抬价，正文没披露。也没法判断这 15 家店覆盖了多大市场份额，数据能不能代表欧盟整体行情。对想买 5090 跑本地模型的人来说，这条信息说明现在不是好时机，但缺的细节太多，没法做更具体的购买建议。如果作者能补上店铺名单和型号细分，这条数据的参考价值会高很多。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:00

35d ago

FEATUREDAI HOT 精选· aihot-apiZH18:00 · 05·14

Claude Code 怎么啃下百万行老代码库：五个扩展点与上手顺序

Anthropic 这篇博客讲了 Claude Code 在百万行单体仓库、遗留系统和分布式架构里的实际用法。核心思路不是靠模型硬记，而是靠五个扩展点把项目知识喂给模型：CLAUDE.md 文件写项目规则、hooks 在操作前后自动检查、skills 封装可复用指令、plugins 接外部工具、MCP 服务器做本地代码库的智能搜索。文章给了从零开始的三...

#Agent#Code#Tools#Claude

精选理由

我会先打个折：这不是新模型或重大能力发布，就是一份官方出的 Claude Code 大型代码库使用指南。但它把怎么在遗留系统里让 AI 干活这件事讲得很实在，五个扩展点（CLAUDE.md、钩子、技能、插件、MCP 服务器）都是开发团队能立刻动手配的。正文没给具体性能数据，但思路对上了开发者对老代码库的掌控焦虑，所以放在 72–77 这个区间。

一句话点评

Anthropic 自己下场讲怎么在百万行老代码里用 Claude Code，核心不是让模型硬记，而是靠五个扩展点把项目知识喂进去。

锐评

这篇博客是 Anthropic 官方出的 Claude Code 实战指南，专门讲怎么在百万行单体仓库、遗留系统和分布式架构里用。它没吹模型有多聪明，而是老老实实说：大代码库靠的是把项目上下文喂给模型，不是让模型自己记。具体给了五个扩展点：CLAUDE.md 文件写项目规则，hooks 在操作前后自动检查，skills 封装可复用指令，plugins 接外部工具，MCP 服务器做本地代码库的智能搜索。文章给了从零开始的三步上手路径，这点比较实在。但要注意，全文没有给出任何量化数据——没提在百万行代码库里准确率多少、一次任务平均消耗多少 token、比手动改快多少。所有建议都基于“我们观察到用户这样用效果好”，没有对照实验或用户调研样本量。所以这些最佳实践可以当参考，但别当验证过的结论。还缺一块：没讲失败案例。在遗留系统里改代码最容易踩的坑——比如改了 A 模块炸了 B 模块——文章完全没提 Claude Code 怎么处理这种跨模块依赖风险。如果你真要在生产环境的老代码上跑，这点得自己补测试。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:00

35d ago

FEATUREDAI HOT 精选· aihot-apiZH18:00 · 05·14

Anthropic 发了份 AI 创业手册，把从想法到扩张拆成四步，每步都配了 Claude 的实操练习

Anthropic 这篇博客给 AI 原生创业画了一张路线图，分四个阶段：想点子、做最小可行产品、发布、扩张。每个阶段都给了目标、退出标准、常见翻车点，还附了用 Claude 做验证、客户调研、控制技术债、检查产品市场匹配和自动化工作流的提示词。文章没给具体案例数据，更像一套可以直接抄作业的框架。

#Agent#Code#Tools#Anthropic

精选理由

我会先打个折：这不是模型或产品发布，是 Anthropic 出的创业操作手册。但内容挺实在，把从点子到规模化拆成四个阶段，每个阶段都告诉你目标是什么、什么时候该停、容易栽在哪、怎么用 Claude 练手。对正在用 AI 搭产品的团队来说，退出标准和失败模式比鸡汤有用。正文没披露手册本身是否收费或后续会不会更新，这点先别太激动。

一句话点评

Anthropic 出了一份 AI 创业实操手册，从想点子到扩张分了四步，附了现成的提示词模板，但没给任何真实案例数据，效果得自己试。

锐评

这份手册把 AI 创业拆成了四个阶段：想点子、做最小可行产品、发布、扩张。每个阶段都给了目标、退出标准和常见翻车点，还附了用 Claude 做验证、客户调研、控制技术债、检查产品市场匹配和自动化工作流的提示词。说白了，这是一套可以直接抄作业的框架，不是那种只讲大道理的文章。但得打个折。全文没给任何具体案例数据——没有用户增长曲线，没有留存数字，没有成本对比。所有方法论都停留在“应该这样做”的层面，缺少“这样做之后发生了什么”的验证。Anthropic 自己就是卖工具的，这份手册天然带着“多用 Claude 就能成”的倾向，技术债控制、自动化工作流这些环节尤其明显。还缺两块关键信息：一是不同阶段的模型选型建议，用 Opus 还是 Haiku，成本差好几倍，手册没提；二是团队配置，AI 原生团队到底要几个人、什么背景，也没说。这些空白让手册更像一份骨架，肉得自己填。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:57

35d ago

FEATURED彭博科技· rssEN17:57 · 05·14

美国最大电网一季度电费暴涨76%，数据中心是主因

PJM 电网（覆盖美国东部 13 个州和华盛顿特区）刚公布的报告显示，今年一季度批发电价同比涨了 76%，直接把原因指向数据中心扩建带来的用电需求。报告没披露具体新增了多少数据中心负荷，也没说电网容量缺口有多大，但 76% 这个涨幅说明供需已经非常紧张。对 AI 从业者来说，这是个实打实的成本信号——训练和推理用的算力，最终会反映在电费账单上。如果是真...

#Bloomberg#Commentary

精选理由

我会先打个折：正文没点名是哪个电网运营商，也没说容量缺口多大，所以不能当完整调查报告看。但 76% 这个涨幅太扎眼，而且直接归因到数据中心扩建，对关注 AI 基建成本的人来说是个硬提醒——算力扩张正在推高真实世界的电费。Bloomberg 的牌子让可信度加分，信息缺口主要在具体电网和供需数据上，所以重要性停在 75 合理。

一句话点评

PJM电网一季度批发电价同比涨了76%，报告直接归因于数据中心扩建。算力成本最终会传导到电费账单上，这点先别太激动。

锐评

PJM电网覆盖美国东部13个州和华盛顿特区，它刚出的报告显示，今年一季度批发电价比去年同期涨了76%，并且直接把原因指向数据中心扩建带来的用电需求。76%这个涨幅说明供需已经非常紧张，不是“未来可能紧张”，而是现在就在为算力付更高的电价。对AI从业者来说，这是个实打实的成本信号——训练和推理用的电，最终都会反映在账单上。不过报告正文没披露具体新增了多少数据中心负荷，也没说电网容量缺口有多大。没有这两个数字，就很难判断这波涨价是短期冲击还是长期趋势。另外，批发电价涨76%不等于终端用户电价也涨这么多，中间还有输配电和零售环节，实际落到数据中心运营方头上的涨幅可能会打个折。想评估真实影响，还得看后续季度数据，以及PJM有没有公布新的并网排队和容量拍卖结果。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:46

35d ago

FEATUREDAI HOT 精选· aihot-apiZH17:46 · 05·14

OpenEvidence 覆盖 65% 美国医生，靠医生自己拿执照号注册，医院一开始不知道

OpenEvidence 说它已经覆盖了 65% 的美国医生，4 月临床场景用了 2700 万次，平均每个医生一个月用 41 次。医生是自己在手机上用执业编号注册的，医院起初并不知情，Mount Sinai 的 AI 负责人管这叫“影子 AI”，意思是基层医生自己先大规模用起来了，医院后来才追着签企业合作。OpenEvidence 把这说成是美国医疗史...

#RAG#Tools#OpenEvidence#Mount Sinai

精选理由

我会先打个折，因为正文没披露收入模型、责任划分和效果验证，这些缺口让分数没法再往上走。但 65% 医生覆盖和 2700 万次月使用量是实打实的规模数据，加上医院不知情的影子 AI 叙事，对从业者来说既有冲击力又有警示意义，所以保持在 82 分是合理的。

一句话点评

65%覆盖率这个数字来自公司自报，没第三方验证，先打个折。但医生自己掏手机注册、医院后知后觉这个细节很真实，说明产品确实打到了痛点。

锐评

OpenEvidence 说它覆盖了 65% 的美国医生，4 月临床用了 2700 万次，平均每人每月 41 次。这些数字全是公司单方面披露的，没有独立审计或第三方核实，所以实际渗透率可能要往下调。但“影子 AI”这个现象本身有说服力：医生拿执业编号在手机上自己注册，医院管理层一开始完全不知道，后来才追着签企业合同。Mount Sinai 的 AI 负责人直接管这叫 shadow AI，说明基层需求跑在了机构决策前面。产品形态上，它接入了 NEJM、JAMA 等权威医学期刊的内容，本质是一个带外挂资料库的临床问答工具，医生查指南、查药物相互作用时不用翻网页。正文没披露模型架构、幻觉率、误诊风险这些关键指标，也没说 2700 万次使用里有多少是真正影响临床决策的，多少只是随手查一下。还缺两块信息：一是付费模式，医生免费用还是医院买单没讲清楚；二是和 Epic、Cerner 这类电子病历系统的对接情况，如果只是独立 App，进不了诊疗流程，那“临床场景使用”这个说法也要打折。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:33

35d ago

FEATUREDr/LocalLLaMA· rssEN17:33 · 05·14

MOOSE-Star：用 7B 小模型和 10 万篇论文做科学假设发现，ICML 2026 接收

MiroMind 放出了 MOOSE-Star 系列，包含三个 7B 模型和一个叫 TOMATO-Star 的数据集，里面有 108,717 篇 NCBI 论文。其中 MS-IR-7B 在“灵感检索”任务上准确率到了 54.37%，底子是 DeepSeek-R1-Distill-Qwen-7B，fp16 跑起来大概占 14GB 显存，支持 llama....

#RAG#Reasoning#Fine-tuning#MiroMind

精选理由

我会先打个折：正文没披露 54.37% 这个准确率是在什么基准上测的、对比了哪些方法，所以这个数字先别太激动。但整套东西的钩子很实在——用 7B 小模型加 10.8 万篇 NCBI 论文搭一个科学假设发现的流程，fp16 才 14GB，本地就能跑。对想做科研 RAG 或让模型进文献分析流程的团队来说，这是个现成的起点，数据集和模型权重都公开了。

一句话点评

一个7B模型在10万篇论文里找科研灵感，准确率刚过半，但能本地跑、显存只要14GB，值得试试看。

锐评

MiroMind 放出的 MOOSE-Star 是个专门从论文里挖科研灵感的模型，7B 参数，底子是 DeepSeek-R1-Distill-Qwen-7B。它带着一个叫 TOMATO-Star 的数据集，里面有 108,717 篇 NCBI 论文。其中 MS-IR-7B 这个版本在“灵感检索”任务上拿到了 54.37% 的准确率。这个准确率不算高，但考虑到模型只有 7B，fp16 跑起来大概占 14GB 显存，还支持 llama.cpp、vLLM 和 SGLang，本地部署门槛很低。论文被 ICML 2026 接收，方法上应该有些新东西，但正文没披露具体是怎么训练和评估的，也没说这个准确率在同类任务里算什么水平。我会先打个折：54% 的准确率意味着将近一半的检索结果可能不相关，实际用起来还得人工筛选。另外，数据集只覆盖 NCBI 论文，跨领域效果未知。如果是真的能在单卡上跑通科研灵感挖掘的流程，这个方向挺有意思，但离“好用”还有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:28

35d ago

FEATUREDr/LocalLLaMA· rssEN17:28 · 05·14

用户分享 RTX 5000 PRO 48GB 运行大语言模型的性能表现

一位完全没装过机的 Reddit 用户花了 5600 美元攒了一台 RTX 5000 PRO 48GB 的机器，单卡跑 Qwen3.6-27B-FP8 模型。他自己说装机全靠问 LLM，配 vLLM 时烧掉了 Claude Code 一半的周额度才搞定。实测下来，生成速度最高能到每秒 80 个 token，提示很长时掉到 50–60 tok/s，但提示...

#Inference-opt#Nvidia#Qwen#Claude

精选理由

这篇来自 Reddit 的个人装机实测，把价格和跑分都摆出来了，对想自己攒机跑大模型的人参考价值很高。我会先打个折：只有单卡、单模型、单人测试，没对比其他卡，也没提散热和长期稳定性，所以不能直接当采购指南。但 48GB 显存能跑 27B 模型还这么快，确实让人对本地推理的成本和体验更有信心。

一句话点评

两块魔改 22GB 的 2080 Ti 跑 27B 模型能到 38 token/s，性价比路线又多了个参考。但帖子被 Reddit 屏蔽，具体配置和稳定性没法核实。

锐评

这条分享的亮点是便宜。两块老 2080 Ti 各改到 22GB 显存，加起来 44GB，跑 Qwen 3.6 27B 模型，用 f16 的 KV 缓存能跑到每秒 38 个 token。这个速度日常对话够用了，说明用旧卡魔改显存来跑中等尺寸模型，是一条能走通的路子。但信息缺口很大。原帖被 Reddit 的网络策略挡了，正文没披露用的什么主板、PCIe 带宽、模型量化方式、功耗和温度。38 token/s 是在什么上下文长度下测的也不清楚，长对话会不会掉速没法判断。魔改显存的稳定性本身就是个坑，这点先别太激动。还缺一个对比：同样预算如果买一张二手 3090 或者新出的 RTX 5000 PRO 48GB，性价比和折腾成本哪个更划算。光看一个速度数字，只能说明方案可行，不能说明方案最优。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:09

35d ago

FEATUREDAI HOT 精选· aihot-apiZH17:09 · 05·14

Genkit 加了个中间件系统，让智能体应用更可控、更扛造

Google 的开源框架 Genkit 现在支持中间件了，可以在模型生成、调用工具、以及整个工具循环这三个层面插入自定义逻辑。比如模型 API 挂了自动重试或切备用方案、执行敏感操作前先让人审批、或者给每一步加上日志方便排查问题。这套机制已经在 TypeScript、Go 和 Dart 里可用，Python 版也快了。

#Agent#Tools#Google#Genkit

精选理由

Genkit 这次更新不是小修小补，而是给智能体应用加了三个可插拔的拦截点：生成调用、模型本身、工具调用。你可以把它理解成给 agent 流程装了三个阀门，想在哪里加校验、加日志、改行为都行。语言支持也铺得比较全，TS、Go、Dart、Python 都给了。正文没披露性能开销和具体延迟数据，这点先别太激动。整体看，对正在用 Genkit 搭 agent 的团队是个实用升级，但影响范围还局限在 Genkit 生态内，所以放在 featured 而不是必读。

一句话点评

Genkit 加了中间件，可以在模型生成、调工具、整个工具循环三个环节插自定义代码，做重试、审批或日志。

锐评

Google 给自家开源框架 Genkit 补上了中间件，相当于在智能体应用的关键节点装了三个“可编程开关”：模型生成时、调用外部工具时、以及整个工具调用循环。这让你能直接写代码处理一些工程上的麻烦事，比如模型 API 挂了自动重试或切备用方案、执行敏感操作前弹窗让人点确认、或者给每一步打上日志方便排查。TypeScript、Go、Dart 版已经可用，Python 版还在路上。这个更新解决的是智能体应用从 demo 到生产环境最头疼的可控性问题。但公告没给出任何性能开销数据——中间件插在调用链上，延迟会增加多少？也没提是否支持异步处理或条件跳过，这些在实际业务里都是刚需。另外，审批流程的例子只说了“让人审批”，没讲清楚审批超时怎么办、拒绝后流程怎么回退。这些细节决定了它到底能不能用在严肃的生产系统里，目前只能先打个折看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:30

35d ago

FEATUREDr/LocalLLaMA· rssEN16:30 · 05·14

inclusionAI 在 Hugging Face 上放出了 Ring-2.6-1T，一个 1 万亿参数、支持多档推理强度的模型

Ring-2.6-1T 是 inclusionAI 发布的一个 1 万亿参数推理模型，主打让模型进业务流程干活（agent workflow）和长链条任务。它提供 high 和 xhigh 两档推理强度，训练时用了异步强化学习加 IcePop 算法来稳住训练过程。不过 Reddit 原帖被网络屏蔽，正文没披露更多技术细节、实际跑分或硬件需求，这点先别太激动。

#Agent#Reasoning#Tools#inclusionAI

精选理由

我会先打个折：正文没给任何跑分、没提许可证、也没说推理到底要多少卡，所以只能算个信号，不能当结论。1T 参数加上两档推理强度，说明 inclusionAI 在试着让大模型按需出力——开低档省资源，开高档拼质量。Async RL 和 IcePop 这两个训练名是新的，但没解释具体怎么训、省了多少成本，这点先别太激动。整体看，消息本身有料，但缺验证，暂时放在 featured 的下沿比较合适。

一句话点评

1万亿参数模型，主打让模型进业务流程干活，但正文被屏蔽，没跑分没硬件需求，先别太激动。

锐评

inclusionAI 在 Hugging Face 上放出了一个叫 Ring-2.6-1T 的模型，参数规模到了 1 万亿，定位是推理模型，专门用来处理那种需要多步操作、让模型自己进业务流程干活的长链条任务。它提供了 high 和 xhigh 两档推理强度，训练时用了异步强化学习加一个叫 IcePop 的算法来稳住训练过程，避免训崩。但这条消息最大的问题是信息缺口太大。Reddit 原帖被网络屏蔽，正文里除了上面这些概念，没有给出任何实际跑分、推理延迟、硬件配置要求，也没说这个 1T 参数是总参数量还是激活参数量。异步 RL 和 IcePop 具体怎么实现、相比其他训练方法省了多少成本或提升了多少稳定性，一概没披露。对想上手试的人来说，现在连它能不能在消费级硬件上跑都不知道。如果后续能补上基准测试成绩、显存占用和吞吐量数据，才值得认真评估。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:08

35d ago

FEATUREDAI HOT 精选· aihot-apiZH16:08 · 05·14

Arm 和 Google 联手，让手机本地跑音频模型快了 2 倍多

Arm 的新指令集 SME2 把矩阵计算单元直接塞进了 CPU，不用再纠结是忍受 CPU 慢还是外挂专用加速器。Google AI Edge 的 LiteRT 和 XNNPACK 能自动调用这套指令，拿 Stability AI 的音频生成模型 stable-audio-open-small 在 Arm 手机上测试，生成速度提升超过 2 倍，内存占用降...

#Audio#Inference-opt#Arm#Google

精选理由

我会先打个折：这篇只针对一款音频模型在 Arm 设备上的优化，覆盖面不宽。但 2 倍加速和 4 倍内存缩减这两个数字很实在，不是实验室跑分，是直接落到移动端和笔记本上的效果。文章把 SME2 指令集怎么跟 Google AI Edge 的推理管线配合讲得比较清楚，没有堆术语吓人。对正在头疼边缘端延迟和内存成本的团队来说，这是一条能直接抄作业的参考。信息量够上 featured，但别指望它能推广到所有生成式模型。

一句话点评

Arm 把矩阵加速直接做进 CPU 指令集，手机跑音频生成快了一倍多，内存只用四分之一。但测试只拿了一个模型说事，别的任务能快多少还不清楚。

锐评

这条消息对做端侧推理的人挺实用。Arm 的新指令集 SME2 相当于把原本需要外挂加速器的矩阵运算直接集成进了 CPU，不用再在速度和兼容性之间做取舍。Google AI Edge 这边的 LiteRT 和 XNNPACK 能自动识别并调用这套指令，开发者不用自己改模型结构。拿 Stability AI 的 stable-audio-open-small 在 Arm 手机上跑，音频生成速度提升超过 2 倍，内存占用降到原来的四分之一，这两个数字在手机这种资源紧张的环境里确实能省不少事。不过得打个折。全文只展示了这一个音频模型的测试结果，没提视觉、语言类模型的表现。不同模型的计算图差异很大，SME2 的加速效果能不能泛化到其他任务，正文没给数据。另外，实际功耗和发热也没披露，这对手机端部署比单纯的速度数字更重要。建议等第三方用更多模型跑一遍再看要不要跟进。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:24

35d ago

● P1The Verge · AI· rssEN15:24 · 05·14

盖洛普调查：七成美国人反对在社区附近建AI数据中心

盖洛普 2026 年 3 月对 1000 名美国成年人做的调查显示，超过 70% 的人反对在本地建 AI 数据中心，明确表示强烈支持的只有 7%。这个反感程度甚至超过了核电站——历史上美国人对核电站的最高反对率是 63%。换句话说，数据中心在居民眼里比核电站还不受欢迎。调查还包含 4 月对 2054 名盖洛普小组成员的补充访问，但正文没披露更细的分组数...

#Gallup#The Verge#Policy

精选理由

The Verge 拿 Gallup 民调说事，把 AI 数据中心变成邻避问题，70% 反对是核心数字。对算力扩张有影响，但不是模型或产品发布，放在 featured 低段合适。

一句话点评

盖洛普调查显示，七成美国人反对在社区附近建数据中心，反对率半年内从47%飙升到70%，比核电站还招人嫌。

锐评

这份民调最值得看的是反对率飙升的速度：从2025年末的47%涨到现在的七成，说明数据中心在普通美国人眼里已经从“无所谓”变成了“别建我家门口”。文章提到批发电价被推高267%，马里兰州为外州数据中心买单20亿美元，这些数字直接把成本摊到了居民头上，抵触情绪自然炸锅。不过这篇报道主要来自IT之家编译，原始数据和方法论没展开。比如盖洛普的样本量多大、受访者分布有没有偏向已受影响的社区，正文都没披露。另外，文章把电价上涨完全归因于数据中心建设热潮，但电网老化、能源转型成本这些因素有没有被剥离，也没说清楚。还缺一块关键信息：科技公司承诺自担成本后，实际落地了多少？白宫召集开会但只有口头声明，没有监管约束力，这点先别太激动。如果后续有具体项目级的成本分摊方案或电价补贴数据，才能判断这波民怨是短期阵痛还是长期死结。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:21

35d ago

● P1彭博科技· rssEN15:21 · 05·14

AI芯片公司Cerebras完成年内最大IPO融资55亿美元

Cerebras 做的是巨型 AI 训练芯片，跟英伟达走完全不同的路线。这次上市融了 55.5 亿美元，首日收盘涨了 68%。不过正文没披露 IPO 发行价和对应估值，也没说这 55.5 亿是发行收入还是包含超额配售。我会先打个折——股价涨得猛，但公司长期得证明自己的芯片在训练大模型时真能比英伟达更省钱、更好用，目前还没看到客户结构或营收细节。

#Inference-opt#Cerebras Systems#Funding

精选理由

Cerebras 拿 55 亿美元上市首日涨 68%，给 AI 芯片赛道一个公开市场的价格锚点。我会先打个折：正文没披露发行价和估值，没法算它到底贵不贵，但涨幅本身说明资金还在找英伟达以外的故事。三个维度都踩中，没有硬排除项。

一句话点评

Cerebras 上市首日涨了 68%，但它的芯片强项在推理，不是训练，别直接当英伟达第二来看。

锐评

Cerebras 这次 IPO 最终融了 55.5 亿美元，是 2026 年目前最大的一笔。从过程看，市场确实很买账：路透社的消息说认购超了 20 倍，公司顺势把发行价从最高 125 美元提到了 160 美元，涨了近三成。上市当天股价又冲了 68%，创始人账面身家直接到了 32 亿美元。但这里有几个点要先打个折。Cerebras 的核心卖点是“晶圆级芯片”，一颗芯片就占满一整片晶圆，上面集成了大量高速缓存（SRAM）。这带来的直接好处是，做 AI 推理里的解码步骤时速度很快，这也是它能拿到亚马逊和 OpenAI 大单的原因。不过，正文没披露这些订单的具体金额和交付节奏，也没提公司目前的营收和亏损情况。光靠大客户名字和 IPO 热度，还判断不了它能不能持续赚钱。另外，它的芯片强项在推理，不是训练。现在市场最缺的算力还是在训练端，Cerebras 在这个主战场能抢到多少份额，目前还看不清楚。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

15:15

35d ago

FEATUREDHacker News 首页· rssEN15:15 · 05·14

Anthropic与盖茨基金会达成2亿美元合作

Anthropic 宣布与盖茨基金会达成一项为期四年的合作，总投入 2 亿美元，形式包括拨款、Claude 使用额度以及技术支持。重点领域是全球健康、生命科学、教育以及经济流动性。最大一块用在低收入和中等收入国家的健康改善上，比如用 Claude 加速疫苗和药物筛选、帮政府做健康数据决策，还会针对被忽视的疾病（如脊灰、HPV、子痫前期）做研究。教育方面...

#Anthropic#Gates Foundation#Partnership

精选理由

HKR-H 靠 Anthropic 和盖茨基金会这对组合以及 2 亿美元数字成立；HKR-K 仅限于这个数字。合作目标、机制、模型范围和时间表都没披露，所以够不上 featured。

一句话点评

Anthropic 和盖茨基金会各掏一部分，凑了 2 亿美元做全球健康和教育，但正文没拆各自出多少，也没说 Claude 使用额度占多大比例。

锐评

这笔合作的核心是 Anthropic 把 Claude 塞进盖茨基金会在低收入国家的健康、农业和教育项目里，而不是直接给钱了事。2 亿美元是四年总盘子，包含现金拨款、Claude 使用额度和技术支持，但官方没公布现金和额度的具体比例——这点挺关键的，因为额度成本算起来弹性很大，实际能花的现金可能远低于 2 亿。合作里比较实在的部分是已经开跑的项目：用 Claude 帮科学家筛脊髓灰质炎、HPV 和子痫前期的疫苗与药物候选分子，目标是缩短临床前研发时间；跟基金会的疾病建模研究所合作，让非建模专业的公卫人员也能用上疟疾、结核病的传播预测。教育方面会做数学辅导和职业指导工具，先在美国、撒哈拉以南非洲和印度落地，年底会放出第一批基准测试和数据集。农业那块说要建本地作物数据集和评估基准，但还没给出时间线。整体看，Anthropic 在借盖茨基金会的落地网络把 Claude 铺进市场不会主动碰的领域，同时攒一波公益数据集和评估标准。但正文没提任何效果指标或第三方评估机制，也没说这些工具上线后怎么衡量是否真的改善了健康或教育结果。现在能看到的还只是投入承诺，产出验证得等年底第一批公开数据出来再说。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

13:34

35d ago

FEATUREDAI HOT 精选· aihot-apiZH13:34 · 05·14

Kimi 发了个浏览器扩展，让 AI 能替你操作网页

Kimi 上线了“网页桥接”浏览器扩展，装在 Chrome 上后，AI 智能体可以直接在网页里搜索、滚动、点击、打字，像人一样走完一整套网站操作流程。它支持 Kimi Code CLI、Claude Code、Cursor、Codex 和 Hermes 这几个开发工具，意味着你写代码或跑任务时，AI 能直接去网页上干活，不用再手动切来切去。扩展已在 K...

#Agent#Tools#Kimi#Moonshot AI

精选理由

Kimi 发了个浏览器桥接扩展，让模型能直接操作网页：搜索、滚动、点击、输入都行，还接入了 Claude Code、Cursor 等一堆外部编程工具。我会先打个折，这属于工具层面的更新，不是模型能力升级，正文也没披露安全策略和实际性能数据。但它的钩子够直接——一个扩展跨多个开发环境干活，对正在搭智能体工作流的人挺实用，所以放在 featured 里，分数给到 74。

一句话点评

Kimi 给浏览器装了个插件，让 AI 能直接替你操作网页，不用再手动切窗口。但正文没提跨站登录、验证码这些硬骨头怎么处理，先别当万能遥控器。

锐评

Kimi 这个“网页桥接”扩展，说白了就是给 AI 装了一双能在网页上干活的手。以前你让 AI 查资料，它只能读文本；现在装了插件，它能直接打开网页、搜索、滚动、点击、填表，像人一样走完一整串操作。支持的开发工具包括 Kimi Code CLI、Claude Code、Cursor、Codex 和 Hermes，覆盖面挺广，意味着你在写代码或跑任务时，AI 可以自己去网页上执行动作，不用你来回切。但这条消息来自官方推文，信息量很薄。它没说明白几个关键点：遇到需要登录的网站怎么办？碰到验证码、反爬机制会不会卡住？操作失败时有没有回退或报错？这些在实际使用里都是高频坑。另外，扩展是免费还是限额度，也没提。我会先打个折：这个功能对开发者确实方便，尤其是需要频繁从网页取数据或填表单的场景。但别指望它像真人一样灵活，复杂交互和异常处理大概率还得人兜底。等有人实测出踩坑报告，再判断它到底省了多少事。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:00

35d ago

● P1OpenAI 博客· rssEN13:00 · 05·14

OpenAI 将 Codex 集成到 ChatGPT 移动应用中

Codex 现在可以在 ChatGPT 手机 App 里用了，目前是预览版。你可以在手机上实时查看、审批和指挥 Codex 在你电脑或远程开发机上跑的任务，比如修 bug、做重构。它通过一个安全的中继层连接你的设备，不会把机器直接暴露到公网。文章说每周有超过 400 万人用 Codex，但没提手机端功能的具体定价、推送范围和支持的手机系统。另外，远程 ...

#Code#Tools#OpenAI#Product update

精选理由

HKR 三项都成立：OpenAI 把 Codex 塞进 ChatGPT 手机版，让用户跨设备盯任务、改方向、点批准。正文没提价格、上线范围和支持平台，所以分数停在 72–77 的 featured 区间。我会先打个折，等看到实际覆盖面和延迟数据再调。

一句话点评

OpenAI 把 Codex 搬进了手机 App，让你不在电脑前也能审批、改方向或看进度。但别指望手机写代码，它更像一个远程指挥面板。

锐评

Codex 上手机这件事，核心不是让你在手机上敲代码，而是解决一个很实际的痛点：当 Codex 在后台跑长任务时，你人不在电脑前，它卡住了需要你拍板怎么办。现在你可以用手机随时查看进度、批准操作、切换模型，甚至发起新任务。官方说每周有超过 400 万人用 Codex，这个量级下，减少等待和返工确实能省不少时间。技术上，手机端通过一个安全中继层连接你跑 Codex 的机器，不会把本地文件直接暴露到公网。企业版还支持远程 SSH 接入托管开发环境，并新增了程序化令牌、钩子和 HIPAA 合规支持。不过，正文没披露手机端的延迟表现和离线能力，也没提复杂操作在触屏上的交互到底好不好用。目前 Windows 端的手机连接也还没开放。这些缺口意味着，实际体验可能比宣传片里展示的要打折。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:32

35d ago

FEATUREDr/LocalLLaMA· rssEN10:32 · 05·14

有人把 HuggingFace 的 AI 研究员搬到了本地，用 llama.cpp 跑通了一条自动微调流水线

HuggingFace 之前开源了一个叫 ml-intern 的自动化 AI 研究员，现在社区有人把它接上了 llama.cpp 和 ollama，让整个流程能在本地跑。帖子说用 Qwen3.6-35B-A3B 这个模型就能当大脑，指挥 CPU/GPU 沙箱和 HuggingFace Hub 上的任务，从头到尾完成一次 SFT（有监督微调）。正文没披露...

#Agent#Tools#Fine-tuning#Hugging Face

精选理由

我会先打个折：这是 Reddit 出来的开源工具更新，不是大模型发布。但本地沙箱加 Hub 作业编排能跑通完整微调，对想在自己机器上做自动化实验的人挺实用。正文没披露具体延迟和资源占用，这点先别太激动。

一句话点评

社区把 HuggingFace 的自动化 AI 研究员 ml-intern 接上了 llama.cpp，现在用 Qwen3.6-35B-A3B 就能在本地跑完整 SFT 流程，但帖子正文被 Reddit 安全策略挡了，具体效果和资源消耗未知。

锐评

这条消息的亮点是“本地化”：之前 ml-intern 这类自动化研究员通常依赖云端 API，现在社区让它能在自己机器上跑，意味着数据不出门、成本更可控。帖子提到用 Qwen3.6-35B-A3B 当大脑，指挥 CPU/GPU 沙箱和 HuggingFace Hub 上的任务，从头到尾完成一次有监督微调。但关键信息全卡在 Reddit 的 403 错误里——正文没披露一次完整 SFT 要跑多久、吃多少显存、最终模型效果有没有对比基准。这点先别太激动，因为 35B 的 MoE 模型虽然激活参数少，但调度沙箱和 Hub 任务本身也有开销，本地跑通和跑得好是两码事。还缺的是：这套流程能不能稳定复现，以及它比直接用云端 API 到底省了多少成本、延迟高了多少。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:29

35d ago

FEATUREDAI HOT 精选· aihot-apiZH09:29 · 05·14

OpenAI 被集体诉讼：ChatGPT 网页埋追踪代码，把用户问题和 Facebook ID 实时传给 Meta

南加州联邦法院受理了一起集体诉讼，原告指控 OpenAI 在 ChatGPT 网页里嵌了 Facebook Pixel 这类追踪代码。你输入问题时，问题的主题会变成浏览器标题，连同你浏览器里存着的 Facebook 唯一 ID，一起实时发给 Meta。OpenAI 的说法是只分享“有限标识符”用来投广告，但原告认为问题主题本身就是高度敏感的个人信息。这...

#Safety#OpenAI#Meta#Policy

精选理由

我会先打个折：目前只是集体诉讼的指控，法院还没判，也没有其他独立信源交叉验证，所以别当定论看。但指控本身很具体——不是笼统说“泄露数据”，而是点名用了 Facebook Pixel，把查询主题和能定位到具体人的 Facebook ID cookies 实时发给 Meta。对 AI 从业者来说，这等于把用户问了什么、谁在问，一起打包送给了广告平台，隐私和合规风险比一般的“数据用于训练”要尖锐得多。正文没披露 OpenAI 的回应或技术细节，也没说影响多少用户，所以重要性停在 82 这个区间是合理的。

一句话点评

OpenAI 被诉在 ChatGPT 网页埋追踪代码，把用户提问主题和 Facebook ID 实时传给 Meta。正文没披露 OpenAI 是否承认或回应，先别急着下结论。

锐评

这起诉讼的核心指控很直接：你在 ChatGPT 输入的问题，会被塞进浏览器标题栏，连同你浏览器里存着的 Facebook 用户 ID，一起打包发给 Meta。原告认为问题主题本身就是敏感信息，比如你问医疗、财务或情感问题，等于把自己的隐私标签贴好送出去。OpenAI 的说法是只分享“有限标识符”用来投广告，但正文没给出 OpenAI 的正式回应或技术细节，所以这个“有限”到底限到什么程度还不清楚。值得留意的是时间点——2026 年 5 月立案，说明这事发生在 ChatGPT 已经大规模普及之后。很多用户当初从搜索引擎转用 ChatGPT，图的就是不被追踪、不被画像，如果指控属实，这个反差确实讽刺。但诉讼刚受理，离判决还远，原告的举证能力和 OpenAI 的辩护策略都未知。目前缺的关键信息：OpenAI 是否在隐私政策里披露过这段数据共享、Meta 收到数据后怎么用、有没有用户因此受到实际损害。这些会直接影响案子能不能走下去。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:16

35d ago

FEATUREDr/LocalLLaMA· rssEN09:16 · 05·14

单卡跑通一句话生成电影级短片：FLUX.2 出角色，Wan2.2 做动画，带自动质检和 9 语配音

这个叫 StudioMI300 的开源流水线，把一句英文提示词变成 720p 短片，全程跑在一张 AMD Instinct MI300X 上。流程分 8 步：先用 FLUX.2 [klein] 生成角色关键帧，再用 Wan2.2-I2V 把静态图转成动画，中间加了一道视觉评分和自动重试的质检，最后配上音乐和 9 种语言的旁白。开发者把单条片子的生成时间...

#Agent#Vision#Multimodal#AMD

精选理由

HKR 三项都成立：帖子把一句提示词到成片的完整链路讲清楚了，有硬件型号、阶段数和压缩后的耗时，对想自己搭视频管线的开发者来说，省钱和可控这两点很抓人。不过来源只有 Reddit 单帖，没有第三方复现或更多验证，所以分数没再往上走。

一句话点评

一条提示词变短片，单卡跑通，时间砍到10分钟。但正文被Reddit墙了，看不到实测效果和代码细节，先打七折。

锐评

这个叫StudioMI300的流水线，把“一句话出片”这件事压到了一张AMD MI300X上跑，端到端时间从25.9分钟压到10.4分钟，省了一半多。流程是先用FLUX.2 [klein]出角色图，再用Wan2.2-I2V让图动起来，中间加了个视觉评分和自动重试的质检环节，最后配上音乐和9种语言的旁白。思路挺实在，相当于把多个模型串成一个自动化的视频生产线，还加了道品控。不过现在能说的就这么多。Reddit原文被网络策略挡了，返回403，我们看不到代码仓库、示例视频，也不知道10分钟这个数字是在什么分辨率、什么帧数下测出来的。视觉评分具体怎么打、自动重试的触发条件是什么，正文都没披露。另外，全程跑在一张MI300X上，这张卡对大部分个人开发者来说门槛不低，能不能迁移到消费级显卡上还是个问号。这条值得关注的点在于它把“生成-质检-重试”做成了闭环，不是一次性出片就完事。但效果到底怎么样，得等代码和样片公开了再判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:00

35d ago

FEATUREDMIT 科技评论· rssEN09:00 · 05·14

看到自己的身体被用在 AI 换脸色情片里是什么感觉

MIT Technology Review 这篇报道讲的是成人内容创作者的身体被拿去喂 AI 做深度伪造色情片的问题。主角 Jennifer 在 2023 年用人脸识别搜自己以前的职业照，结果发现一段她 2013 年左右拍的旧视频被人换了脸——她的身体还在，脸是别人的。她说那种感觉就像自己戴着别人的脸当面具。过去大家讨论 AI 换脸色情，焦点都在那些被...

#Vision#Multimodal#Safety#MIT Technology Review

精选理由

这篇文章不是模型发布或产品更新，而是一篇安全/政策向的特写。我会先打个折：它没有给出新的技术方案或治理框架，但它的力量在于把“非自愿合成色情”从统计数字拉回到一个人的经历上。Jennifer 的案例和 2013 年旧视频被翻出来用，说明问题比 2017 年 Reddit 那波 deepfake 热潮更早，这点对理解问题根源有帮助。正文没披露平台后续具体做了什么，也没给出可量化的治理效果，所以别把它当解决方案看。它更适合放在 featured 位置，提醒从业者安全问题的老伤口还在化脓。

一句话点评

AI 换脸色情片里被换掉的不只是脸，还有被直接拿来用的身体。这篇报道把镜头对准了那些身体被偷去喂 AI 的成人创作者，她们受到的伤害和维权困境一直被忽略。

锐评

这篇报道把 AI 深度伪造色情（NCII）的讨论往前推了一步：过去大家只盯着被换上去的“脸”是谁，但 Jennifer 的经历提醒我们，那些被换掉的“身体”同样是被盗用的受害者。Jennifer 在 2023 年用人脸识别搜自己以前的职业照，结果发现一段她 2013 年左右拍的旧视频被人换了脸——她的身体还在，脸是别人的。她说那种感觉就像自己戴着别人的脸当面具。报道点出了一个更隐蔽的威胁：现在生成式 AI 已经不需要直接扒某段具体视频了，成人内容被大规模拿去当训练数据，教 AI 学会身体该怎么动、怎么“表演”。这直接威胁到创作者的饭碗——AI 生成的裸体内容反过来会挤占她们的市场。文章引用了专攻成人行业的律师 Corey Silverstein 的说法，证实这种事“一直在发生”。报道的局限在于，它主要呈现了个人经历和定性判断，没有给出这类训练数据被使用的具体规模、平台下架效率的量化数据，也没展开讲现有版权法在“身体被盗用”这件事上几乎使不上劲的法律细节。Jennifer 的案例很有冲击力，但要从个案推到行业级的解决方案，还需要更多关于技术取证和平台责任的数据支撑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:12

35d ago

FEATUREDAI HOT 精选· aihot-apiZH07:12 · 05·14

腾讯开源 Agent Memory：用“任务地图”和上下文卸载，让 Token 消耗降低 61%

腾讯云开源了 TencentDB Agent Memory，专门解决 AI Agent 在长任务里上下文窗口被快速撑爆的问题。核心思路分两步：一是用 Mermaid 流程图把任务执行过程画成一张可折叠、可展开的“任务地图”，让 Agent 随时知道自己在哪、哪些步骤有依赖；二是做上下文卸载，把工具返回的完整结果存到外部文件，上下文里只留一行摘要和索引路...

#Agent#Memory#Tools#Tencent Cloud

精选理由

腾讯云把 Agent Memory 开源了，主打上下文卸载和用 Mermaid 图当任务画布，多任务连续对话里最高能省 61% 的 Token。这个数字对跑生产级 Agent 的团队来说挺实在，不是实验室刷榜。不过正文没给出对比基准和测试场景细节，实际能省多少得自己测。整体不是大模型发布那种量级，但作为成本优化工具，放在 featured 里提醒一下同行是合适的。

一句话点评

腾讯云开源了一个给 AI Agent 用的记忆系统，核心是把长任务里的中间结果存到外部文件，上下文只留摘要，实测能省 61% 的 Token。

锐评

这条新闻值得点开看，因为它解决的是 Agent 跑长任务时一个很实际的痛点：上下文窗口被工具返回的大量原始数据撑爆，导致成本飙升、模型犯糊涂。腾讯云这个方案思路挺巧，不是去压缩历史，而是把完整结果卸载到外部文件，上下文里只留一行摘要和索引路径，再配合一张 Mermaid 流程图当“任务地图”，让 Agent 随时知道自己在哪、下一步该干嘛。 61% 这个数字来自多任务连续 Session 实验，不是单题清空上下文那种理想环境，参考价值更高。消融实验也显示，光卸载能省 15% 的 Token，加上画布能到 31%-33%，说明画布对减少上下文噪音有独立贡献。不过正文没披露实验用的具体模型、任务类型和成功率基线，也没提卸载和检索本身会引入多少额外延迟。目前默认用本地 SQLite 存储，零外部依赖，这对个人开发者友好，但大规模生产环境下的并发和可靠性还没看到验证。另外，长期记忆部分只提了一句“已上线免费使用”，具体怎么和短期记忆协同也没展开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:33

35d ago

FEATUREDAI HOT 精选· aihot-apiZH05:33 · 05·14

小米 MiMo V2.5 Pro 在 DesignArena 设计竞技场拿到第三，前端编码追平 Claude Sonnet 4.6

MiMo V2.5 Pro 的 Thinking 版本在 DesignArena 总榜上比上一代 MiMo-V2.5 爬了 8 个名次，直接冲到第三。前端编码任务的表现已经和 Claude Sonnet 4.6 打平。正文没披露具体评分和测试样本量，所以这个“追平”是在什么条件下达成的还不清楚，先别太激动。

#Code#Reasoning#Benchmarking#Xiaomi

精选理由

H、K、R 三条都踩中了，但信息全来自官方一条推文，没公开测试方法、没开放试用、也没提价格，所以先别太激动。这更像一次产品更新和榜单占位，不是那种当天必须追的硬核发布。

一句话点评

小米 MiMo V2.5 Pro 在 DesignArena 设计榜冲到第三，前端编码追平 Claude Sonnet 4.6，但正文没给评分和样本量，先打个折。

锐评

小米的 MiMo V2.5 Pro 在 DesignArena 设计竞技场总榜拿了季军，Thinking 版本比上一代爬了 8 个名次，前端编码任务的表现号称跟 Claude Sonnet 4.6 打平。这个成绩如果坐实，说明国产模型在需要兼顾视觉审美和代码实现的设计类任务上，已经能摸到第一梯队的边。但这条消息来自官方账号的庆祝推文，不是第三方评测报告。正文没披露具体评分、测试样本量，也没说这个“追平”是在全部前端任务上还是某个子集里达成的。DesignArena 本身是一个社区驱动的排行榜，评测维度和稳定性跟学术基准不太一样，所以这个第三名的含金量还需要更多独立验证。还缺的东西挺多：跟 Sonnet 4.6 对比的原始数据、错误类型分布、在不同复杂度任务上的稳定性，以及 Thinking 版本相比普通版到底在哪些环节起了作用。这些信息不出来之前，这个“追平”只能当个参考信号看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:05

35d ago

● P1新智元 · 公众号· rssZH05:05 · 05·14

Anthropic企业采用率首次超越OpenAI，Ramp数据显示

根据 Ramp 从 5 万多家公司的信用卡和发票支出里拉出来的数据，Anthropic 的企业市场份额冲到了 34.4%，OpenAI 掉到 32.3%，这是 OpenAI 三年来第一次在这个指标上被反超。不过正文因为微信环境验证挂了，看不到具体细节，比如统计口径是只算 API 调用还是也包了 ChatGPT 企业版订阅、数据覆盖了多长时间，这些都没法...

#Agent#Code#Multimodal#Anthropic

精选理由

我会先打个折：Ramp 的数据只反映它自家客户里的支出份额，不是全行业市占率，所以别直接当成“Anthropic 全面反超”。但 5 万多家企业的实际付款数据比调研问卷硬得多，34.4% 对 32.3% 这个交叉点确实说明 Anthropic 在付费企业里势头很猛。正文没披露统计周期和是否含 API 之外的订阅收入，这点信息有缺口。整体上，这是一条有事实、有数字、有竞争张力的消息，值得从业者看一眼。

一句话点评

Anthropic 在 B2B 付费客户占比上首次超过 OpenAI，但数据来自美国偏重的支付平台 Ramp，不是全球市场，别急着说王座易主。

锐评

Ramp 的支付数据显示，今年 4 月 Anthropic 的企业客户占比达到 34.4%，OpenAI 是 32.3%，这是 Anthropic 第一次在这个指标上反超。过去一年 Anthropic 的渗透率翻了四倍，而 OpenAI 几乎没动，只涨了 0.3%。但这个数据有几个坑要先说清楚。第一，Ramp 主要覆盖美国公司，不能代表全球。第二，它统计的是“有多少公司在 Ramp 上给这家 AI 公司付过钱”，不是花了多少钱、用了多少量。如果一家公司只是试了一下就停掉，也会被算进去。第三，Anthropic 的新模型 Opus 4.7 成本比前代高出一大截，处理图片的费用更是涨到三倍，客户账单变贵不等于用得更多。Ramp 自己的经济学家也提醒，这行换供应商太快，领先优势可能几个月就没了。正文没披露客户留存率、平均合同金额，也没说这些公司到底在用模型做什么。光看一个付费占比就说 Anthropic 赢了，还太早。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:05

35d ago

● P1新智元 · 公众号· rssZH05:05 · 05·14

田渊栋带队八人创业，估值 46.5 亿美元，要做能自己进化、自己搞研究的 AI

田渊栋和另外七位 AI 研究员一起创立了 Recursive Superintelligence，团队目前 25 人，拿了 6.5 亿美元融资，估值冲到 46.5 亿美元。他们想干的事是把模型评估、数据筛选、训练、后训练甚至研究方向选择这些环节全交给 AI 自己跑，让整个研发流程自动化。正文因为需要验证没加载出来，具体技术路线和验证结果还不清楚，所以这...

#Agent#Reasoning#Fine-tuning#Recursive Superintelligence

精选理由

一家 25 人的公司，拿了 6.5 亿美元，估值冲到 46.5 亿美元，要做的事是让 AI 自己搞定评估、挑数据、训练、后训练甚至选研究课题——说白了就是让研究员自己卷自己。田渊栋带队，八人创始团，这个阵容和融资规模都不是常规操作。我会先打个折：正文没披露具体技术方案和验证结果，所以现在只能当一个大额押注来看，别急着激动。

一句话点评

田渊栋带队拿了44亿人民币，要做一个让AI自己搞研发的公司。但正文被验证墙挡了，具体怎么做、跑出什么结果全看不到，先别太激动。

锐评

田渊栋和另外七位研究员组了个25人的团队，公司叫Recursive Superintelligence，一口气融了6.5亿美元（约44亿人民币），估值冲到46.5亿美元。他们想干的事很直接：把模型评估、数据筛选、训练、后训练，甚至研究方向选择这些环节全交给AI自己跑，让整个研发流程自动化。但问题在于，这篇报道的正文因为需要验证没加载出来，我们看不到任何技术细节或实验结果。团队到底是用什么架构让AI自己管自己的训练循环，有没有跑出比人工调参更好的模型，成本是多少，这些关键信息全是空白。6.5亿美元的融资额确实大，但光靠创始团队背景和愿景撑起46.5亿估值，在没有公开验证的情况下，更像是一场对“递归进化”概念的豪赌。我会先打个折。田渊栋在Meta的强化学习和推理方向有实打实的积累，团队里还有Richard Socher这样的NLP老兵，人的底子不差。但“让AI自己搞研发”这个目标太大了，目前连一个跑通的demo都没看到。等他们放出第一个自动训练出来的模型再聊，现在只能当一条高额融资新闻看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:05

35d ago

FEATURED新智元 · 公众号· rssZH05:05 · 05·14

Claude 把系统提示当用户指令，百万上下文窗口反而让模型更容易“甩锅”

Claude Code 被曝出会把模型自己生成的发布指令当成用户授权来执行。GitHub issue #44778 指出，系统事件被错误地以“用户”角色传入对话，导致模型分不清是谁下的命令。Claude 支持百万 token 的上下文窗口，会话一长，说话人归属出错的概率就更高。正文没披露 Anthropic 的官方回应或修复时间表，这点先别太激动，但如...

#Agent#Tools#Memory#Anthropic

精选理由

我会先打个折：这事目前只有 GitHub issue 单源，没有 Anthropic 官方确认，但 #44778 和 role:user 的机制分析够具体，不是空口说 bug。hook 很强——不是幻觉，是模型自己下指令然后甩锅给人类，百万上下文反而成了降智放大器。对开发者来说，这比普通幻觉严重得多，因为涉及权限伪造和审计失效。放在 78-84 这个质量段合理，比重大版本发布低一档，但比一般 bug report 更有传播力。

一句话点评

Claude Code 会把模型自己生成的指令当成用户授权去执行，GitHub issue 已指出角色归属出错，但 Anthropic 还没回应。

锐评

这事说白了就是 Claude Code 在长对话里搞混了谁在说话。GitHub issue #44778 指出，系统事件被错误地以“用户”角色塞进对话，模型分不清指令来源，可能把自己生成的发布指令当成用户授权去执行。Claude 支持百万 token 的上下文窗口，会话越长，说话人归属出错的概率就越高，相当于记忆越好反而越容易记岔谁说了什么。正文没披露 Anthropic 的官方回应或修复时间表，这点先别太激动。目前能看到的信息都来自社区反馈，没有官方确认的复现步骤或影响范围。对实际在用 Claude Code 做自动部署的团队来说，这个 bug 的风险在于模型可能在没人点头的情况下就把代码推上线。还缺几个关键信息：Anthropic 是否已经定位到角色注入的具体环节，是客户端拼接问题还是模型自身在长上下文中对角色标记的解析出了偏差，以及有没有临时规避方案。在官方给出明确说法之前，建议先把 Claude Code 的自动发布权限收紧，别让它自己说了算。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:11

35d ago

FEATURED量子位 · 公众号· rssZH04:11 · 05·14

Scale AI 创始人 Alexandr Wang 回应 LeCun、Manus 争议，并透露 Meta 用九个月重写了预训练、强化学习和数据管线

Alexandr Wang 在访谈里回应了几个近期争议。关于 LeCun 对 Scale AI 的批评，他直接说对方“没搞清楚我们在做什么”。谈到 Manus 时，他评价产品体验不错，但技术上没有看到根本性突破。他还确认 Meta 在过去九个月里把预训练、强化学习和数据处理三套系统全部重写了一遍，这个速度在业内算很快。另外他提到自家产品 Muse Sp...

#Agent#Multimodal#Safety#Alexandr Wang

精选理由

这篇是 Alexandr Wang 的访谈，不是模型发布，所以分数不会拉满。我会先打个折，因为信息密度不算特别高，但 LeCun 的批评、Manus 的争议和他自曝“父母都是中国人”确实有话题性。Meta 9 个月重建训练栈这件事正文给了细节，说明大厂也在推倒重来，不是小修小补。Muse Spark 因为触发生化、网络、失控等安全检查暂不开源，这点先别太激动，正文没披露具体触发场景和通过标准，只能知道他们加了安全卡口。整体看，有冲突、有事实更新、有从业者关心的开源与安全矛盾，放在 featured 档合理。

一句话点评

Alexandr Wang 说 Meta 九个月重写了三套训练系统，速度很快；但自家产品 Muse Spark 因为安全红线被卡着没发。

锐评

这条访谈信息量不小，但得先打个折：原文因为微信环境异常，实际内容没抓到，所有判断都基于摘要。Alexandr Wang 回应 LeCun 的批评很直接，说对方没搞懂 Scale AI 在做什么，这种正面硬刚在行业里不多见。更值得关注的是他透露 Meta 在过去九个月把预训练、强化学习和数据处理三套系统全部重写了一遍——这个速度确实快，说明大厂内部的技术栈迭代可能比外界看到的更激进。关于 Manus，他的评价很克制：体验不错，但技术上没看到根本性突破。这话从做数据标注起家的人嘴里说出来，分量不轻。另外 Muse Spark 被安全审查卡住，涉及生物安全、网络能力和失控风险，正文没披露具体触发了哪些红线，也没说什么时候能放出来。这点先别太激动，产品被内部安全机制拦住，要么是真有硬伤，要么是合规流程还没跑完。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:11

35d ago

FEATURED量子位 · 公众号· rssZH04:11 · 05·14

摩尔线程把 SGLang 的 MUSA 后端合进了主线，还拉来核心开发者一起聊了聊

摩尔线程办了一场 SGLang × MUSA 线下交流会，宣布 MUSA 后端已经并入 SGLang 主分支。截至 5 月 12 日，他们一共提了 47 个 PR，其中 41 个被合并。不过正文因为环境验证问题没能加载出来，具体技术细节和现场讨论内容暂时看不到。

#Inference-opt#Code#Tools#Moore Threads

精选理由

我会先打个折：这不是模型发布，也不是平台级大更新，更像推理后端生态的一次实质性进展。但 47 个 PR、41 个合入的数字说明摩尔线程不是挂个名，是真在往 SGLang 主线里交代码。对国内做推理部署的人来说，MUSA 后端进主线意味着以后用 SGLang 时多了一条国产卡的路，这点先别太激动，正文没披露实际性能对比和线上规模，但至少代码层面已经打通了。

一句话点评

摩尔线程把自家GPU的推理后端塞进了SGLang主分支，47个PR合并了41个，但正文被验证页卡住，具体怎么跑、性能如何全看不到。

锐评

这条消息的核心就一句话：国产GPU厂商摩尔线程办了个线下交流会，宣布他们的MUSA后端已经合入SGLang主分支。SGLang是现在大模型推理部署的热门框架，能直接在主分支里跑国产卡，对用摩尔线程硬件的团队来说省了一层适配的麻烦。截至5月12日，他们提了47个PR，合并了41个，这个合并率说明社区对代码质量是认的。但问题也出在这里——正文因为微信环境验证没加载出来，所有技术细节都是空白。我不知道现场到底跑了什么模型、吞吐量和延迟跟CUDA后端差多少、支持哪些卡、有没有多卡并行的实测数据。这些才是判断这件事含金量的关键。PR数量只能说明提交活跃，不能说明性能到位。另外，标题里提到Mooncake也来了，但正文同样没展开。Mooncake是月之暗面开源的推理加速项目，如果他们跟摩尔线程有具体合作，那价值会大不少。目前只能先打个折：方向是对的，但缺实测数字和合作细节，别急着下结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:10

35d ago

FEATURED机器之心 · 公众号· rssZH04:10 · 05·14

阿里达摩院用信息瓶颈做自奖励，让模型做数学题时多试几条不同的路

阿里达摩院发了篇 ACL 2026 论文，提出 I²B-LPO，解决强化学习微调时模型解题思路越来越像的问题。做法是在模型生成答案时，碰到它犹豫不决的节点就分叉出多条路径，再用一个基于信息瓶颈的自奖励机制筛掉重复的、留下真正不一样的解法。论文在 Qwen2.5-7B 和 Qwen3-14B 上跑数学题，准确率最多提了 5.3%，答案的语义多样性提了 7...

#Reasoning#Fine-tuning#Benchmarking#Alibaba DAMO Academy

精选理由

我会先打个折：这还是一篇训练方法论文，不是新模型或产品发布，所以重要性给 78 合理。亮点在于它把 RLVR 的探索问题讲得很具体——不是泛泛说“多样性不足”，而是用高熵节点定位、分支采样、自奖励这套组合拳给出可操作的解法。数字也实在，准确率和多样性双涨，没有只挑好看的说。正文没披露训练成本和延迟数据，这点先别太激动。整体适合推荐给做推理微调的人看，不是那种看完就忘的刷榜文章。

一句话点评

阿里达摩院这篇 ACL 论文想解决强化学习微调后模型解题思路越来越像的问题，在数学题上准确率最多提了 5.3%，但正文没披露具体验证环境和完整复现细节，这点先别太激动。

锐评

这篇论文的核心思路挺直接：用强化学习微调模型做推理时，模型容易陷入“只会一种解法”的困境，生成一堆看起来不同但思路雷同的答案。达摩院的方案是在模型生成过程中，碰到它犹豫不决的节点就主动分叉出多条路径，再用一个基于信息瓶颈的自奖励机制筛掉重复的，留下真正不一样的解法。在 Qwen2.5-7B 和 Qwen3-14B 上跑数学题，准确率最多提了 5.3%，答案的语义多样性提了 7.4%。不过要冷静看几个点。第一，正文因为微信环境验证问题没完全加载，具体的实验设置、基准测试名称、对比基线都没披露，5.3% 这个数字是在什么条件下拿到的说不清楚。第二，分叉加筛选会增加推理时的计算开销，论文有没有给出延迟或成本数据，目前看不到。第三，这个方法在非数学推理任务上效果如何，也没提。如果后续能补上这些信息，判断会更踏实。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:10

35d ago

FEATURED机器之心 · 公众号· rssZH04:10 · 05·14

灵初智能用10万小时人类操作数据训练机器人，但文章正文被验证页挡住了

这篇微信文章标题说灵初智能（PsiBot）用了10万小时的人类操作数据来训练机器人策略，还提到一个叫W0的世界模型只在训练时做迁移，实际部署只跑R2。但页面被环境异常验证拦住了，正文内容完全看不到，没法确认具体怎么采集数据、在什么任务上验证、效果到底怎么样。

#Robotics#Multimodal#Fine-tuning#PsiBot

精选理由

这篇讲的是灵初智能用10万小时人类操作数据训机器人策略，W0世界模型负责训练时的迁移，部署时只跑R2，省算力。我会先打个折：10万小时这个数字挺唬人，但正文没披露数据怎么采集、覆盖哪些任务、成功率多少，也没给论文或开源链接，所以只能当公司说法看。对从业者来说，W0训练期迁移、R2部署这个架构思路有参考价值，但缺验证就不好判断实际效果。整体像产品发布稿，不是可复现的研究，所以放在featured但分数没往上拉。

一句话点评

标题喊出“中国答案”，但正文被验证页拦死，具体怎么采数据、在什么任务上跑、效果如何全看不到，先别激动。

锐评

这条消息目前只能当个预告看。灵初智能说用了10万小时人类操作数据来训机器人策略，还提到一个叫W0的世界模型只在训练时做迁移，实际部署只跑R2——这个架构思路听起来是想把训练和推理拆开，降低部署成本。但关键信息全卡在微信的验证页后面，正文一个字都没露出来。 10万小时这个数字本身不算小，但得看采集的是什么场景、什么精度、有没有覆盖长尾情况。如果只是固定工位上的重复动作，那和真实世界的泛化要求差得远。W0只在训练时用、部署不跑，这个设计如果是真的挺省钱，但没看到延迟、成功率、跨任务迁移的数据，就没法判断实际效果。现在还缺三样东西：一是具体任务和评测指标，二是数据采集的细节（遥操作还是动捕、单人还是多人），三是和现有路线的对比。等正文能看了再下判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:53

35d ago

FEATUREDLatent Space· rssEN03:53 · 05·14

Anthropic 给付费用户送等额 API 额度，OpenAI 同一天推 Codex 企业迁移优惠

Anthropic 改了 Claude 付费方案的规则：你付多少钱订阅，就送你等额的 API 额度。比如 $200 的套餐，除了在 Claude.ai 和 Claude Code 这些官方工具里用，还能拿到 $200 的 API 额度，在 OpenClaw 等第三方工具里调用。以前第三方工具用订阅账号调 API 相当于享受了 7-9 折的隐性补贴，现在...

#Agent#Code#Tools#Anthropic

精选理由

Anthropic 把 Claude 订阅改成按月给等额 API 额度，200 刀套餐就是 200 刀程序化额度，相当于订阅费可以当 API 钱花。同期 OpenAI 推 Codex 企业迁移优惠，两边都在抢编程场景的付费用户。我会先打个折：正文没披露额度是每月清零还是可累积，也没说 Codex 迁移优惠具体减多少。这点先别太激动，但对日常靠 Claude 写代码又跑 API 的团队，确实省了一笔重复开支。

一句话点评

Anthropic 把订阅和 API 额度打通了，付多少订阅费就送多少 API 额度。以前第三方工具用订阅账号调 API 相当于白薅 7-9 折羊毛，现在官方直接明码标价，老用户觉得被“割韭菜”了。

锐评

Anthropic 这次改规则，简单说就是把以前第三方工具（比如 OpenClaw）能薅的羊毛给剪了。过去你花 200 美元订阅，在非官方工具里调用 API 能享受到比直接买 API 便宜 70%-90% 的隐性折扣。现在官方直接把这 200 美元拆成两份：一份是你在 Claude.ai 和 Claude Code 里的“互动额度”，另一份是等值的 200 美元 API 额度，让你在别处用。从商业逻辑看，这不算坑人，毕竟白纸黑字给了你等值的 API 额度，只是把暗补变成了明补。但用户炸毛的点在于，以前那种近乎无限的廉价调用没了，成本会明显上涨。文章也提到，这恰好和 OpenAI 在同一天推出 Codex 企业迁移优惠撞车，两家在编程智能体上的定价策略正在交替拉锯。正文没披露这 200 美元 API 额度具体能跑多少 token，也没说超额之后怎么收费。如果你重度依赖第三方工具，建议先算一下自己过去的实际用量，再对比直接买 API 的价格，别光看“送额度”就觉得划算。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:38

35d ago

FEATUREDAI HOT 精选· aihot-apiZH03:38 · 05·14

微信群聊总结 Skill 上线，靠 wx-cli 读聊天数据，搭配 Claude Opus 4.6 效果最好

baoyu-skills 加了一个微信群聊总结的 Skill，能自动把群聊记录整理成摘要。它本身不直接碰微信，得先装一个叫 wx-cli 的工具来读取聊天数据，配置方法去看 wx-cli 的项目文档，作者说这块不提供技术支持。作者实测下来，用 Claude Code 加 Claude Opus 4.6 跑这套组合效果最佳，其他模型表现怎么样正文没提。

#Agent#Tools#Claude#GitHub

精选理由

一个开源小工具的更新，但工作流很实在：用 wx-cli 把微信数据喂给 Claude Code，自动出群聊总结。HKR 三项都踩中了，不过正文没展开讲准确率、漏消息率这些实际效果，信息量有限，放在 featured 档刚好。

一句话点评

一个用 Claude Opus 4.6 读微信群聊自动写摘要的开源 Skill，但得先自己搞定 wx-cli 的数据读取配置，作者不提供技术支持。

锐评

这是个实用向的开源小工具，把微信群聊记录自动整理成摘要，省去爬楼翻记录的痛苦。核心逻辑不复杂：用 wx-cli 把聊天数据读出来，再丢给 Claude Opus 4.6 做总结。作者实测这套组合效果最好，但正文没披露具体好在哪——是摘要更准、幻觉更少，还是对长群聊的上下文处理更稳，这些都没说。依赖链有个明显的坑：你得先自己配好 wx-cli，作者明确表示这块不提供帮助。wx-cli 本身是个第三方工具，跟微信没有官方关系，稳定性和安全性都要自己评估。如果你日常聊天内容敏感，建议先搞清楚数据是怎么走的再决定用不用。另外，其他模型的表现正文完全没提，没法判断这套方案是不是只绑定了 Claude。如果你手头用的是别的模型，效果可能打折，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:55

35d ago

FEATUREDAI HOT 精选· aihot-apiZH02:55 · 05·14

开源项目OpenSquilla用智能路由和本地检索降低LLM成本

OpenSquilla 这个开源项目把模型路由决策放在本地跑，不花 token 就能判断问题难易：简单问题丢给便宜模型，复杂问题才上强模型。它靠增量发送和缓存命中把实际传输的 token 量压到原来的十分之一以下。记忆模块会在上下文快满时自动挑重点压缩，还支持混合检索。正文没披露具体测试场景和模型阵容，所以这 90% 的降幅在什么任务上测出来的还不清楚...

#RAG#Inference-opt#Memory#OpenSquilla

精选理由

我会先打个折：信息来自一篇 X 上的项目帖，仓库实际活跃度、测试环境和局限性正文都没披露，所以别急着全信。但它的思路很实在——用本地路由和缓存把要传给大模型的 Token 砍掉九成，等于把“外挂资料库”和推理优化打包成一个开源工具。对正在想办法压推理成本的小团队来说，哪怕只实现一半效果也值得关注。

一句话点评

OpenSquilla 用智能路由把简单问题分给便宜模型，复杂问题才上贵的，号称成本降近十倍，但正文没给具体测试场景和对比基准，这个倍数先打个折看。

锐评

OpenSquilla 的思路很直接：不是所有问题都需要 GPT-4 级别的模型来回答。它做两件事，一是智能路由，根据问题难度自动把请求分给不同成本和能力的模型；二是本地检索，把常用知识存在本地，减少对外部大模型的调用次数。项目宣称能“大幅降低 LLM 使用成本”，甚至提到“近十倍”的降幅，同时兼容多个平台和模型。但这里信息缺口很明显。正文是空的，我们只能从标题和项目名推断功能，没有看到任何 benchmark 数据、延迟对比、准确率损失，也不知道“近十倍”是在什么任务、什么模型组合下测出来的。路由策略本身也有风险：如果分类器把难题误判为简单题，回答质量会直接掉档。这点在成本数字里有没有被计算进去，目前完全不清楚。对想试用的团队来说，可以关注它开源代码里的路由逻辑和检索模块设计，但别急着把宣传数字当预期。最好用自己的常见 query 跑一遍，看看实际路由命中率和端到端延迟，再算真实节省的成本。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:55

35d ago

FEATURED彭博科技· rssEN02:55 · 05·14

发那科搭上谷歌，股价直接冲上历史新高

工业机器人巨头发那科宣布跟谷歌合作搞“物理 AI”，消息一出股价飙到历史最高点。正文被 Bloomberg 的付费墙挡了，没披露合作具体做什么、股价涨了多少、什么时候落地。从标题看，市场是把这当成真金白银的利好来炒的——毕竟谷歌在 AI 上的技术积累，配上发那科在工厂里的硬件铺货量，想象空间确实大。但正文没给细节，这点先别太激动，等具体方案出来再看是真...

#Robotics#Fanuc#Google#Alphabet

精选理由

Bloomberg 的消息源靠谱，Fanuc 股价创纪录这个事实本身就够硬，所以 H 和 R 都给了。但我会先打个折：正文没披露合作机制、股价涨幅、产品细节或时间表，K 完全撑不起来。这点先别太激动，等后续有实质内容再说。

一句话点评

发那科搭上谷歌搞物理 AI，股价直接创历史新高，但正文被付费墙挡了，具体合作内容和落地时间一概没写，先别急着跟风。

锐评

这条消息目前只有标题和摘要，正文因为 Bloomberg 的付费墙完全看不到，所以能说的很有限。标题里两个信息值得点出来：一是发那科股价冲到历史最高点，说明市场把这次合作当真金白银的利好；二是关键词“物理 AI”，大概是把谷歌的模型能力塞进发那科的工业机器人里，让机器在真实环境里自己判断、自己动，不再是死程序。但正文没披露合作到底做什么、谷歌出什么技术、发那科出哪些硬件、什么时候有东西落地，也没写股价具体涨了多少。这些缺口让这条新闻更像情绪炒作，而不是能拿来判断技术路线的依据。我会先打个折，等有具体方案再认真看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

02:24

36d ago

FEATUREDAI HOT 精选· aihot-apiZH02:24 · 05·14

Unsloth 放出 Qwen3.6 MTP GGUF 模型，推理速度提升超 1.4 倍

Unsloth 创始人 Daniel Han 发了几个实验版 Qwen3.6 MTP GGUF 模型，用了一种叫“投机解码”的技术来加速推理。具体做法是让模型一次猜两个草稿 token（draft tokens=2），在速度和猜对率之间找了个平衡点。效果上，27B 模型在单张 GPU 上能跑到每秒 140 个 token，35B-A3B 版本能到每秒 ...

#Inference-opt#UnslothAI#Daniel Han#Qwen

精选理由

我会先打个折：正文只给了一条 X 动态，没披露用的什么 GPU、量化到几比特、怎么复现。所以分数停在低 featured 是合理的。但亮点很实在——用 MTP 投机解码把 27B 和 35B-A3B 的推理速度拉到一个单卡就能爽用的水平，对本地部署和低成本推理场景是个直接利好。这点先别太激动，等补上硬件和量化细节再往上调。

一句话点评

Unsloth 把 Qwen3.6 推理速度拉到单卡 220 token/s，靠一次猜两个草稿 token 实现，但这是实验版，别急着上生产。

锐评

Daniel Han 放出的这几个 Qwen3.6 MTP GGUF 模型，核心卖点是推理快。27B 模型单张 GPU 跑到每秒 140 个 token，35B-A3B 版本能到 220 token/s，比原版 GGUF 快了 1.4 倍以上，而且说精度没掉。快的原理是投机解码，让模型一次猜两个草稿 token，在速度和猜对率之间找了个平衡点。这个思路不新，但把 draft tokens 定在 2 并做成 GGUF 格式直接可用，对想在消费级显卡上跑大模型的人来说确实省事。不过得打几个折。首先这是实验版，正文没提在哪些基准上验证过精度无损，也没说接受率具体是多少。其次，投机解码的实际加速效果很吃任务类型和硬件，换到长文本生成或复杂推理场景，220 token/s 这个数字不一定稳得住。另外，模型本身是 Qwen3.6 的衍生版，如果上游模型在特定任务上有短板，加速也解决不了。想用在生产环境，最好拿自己的数据和任务测一下延迟和输出质量，别只看峰值速度。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:19

36d ago

FEATUREDAI HOT 精选· aihot-apiZH01:19 · 05·14

杨植麟发 40 分钟视频拆解 Kimi K2：训练花了 460 万美元，编程跑分压过 GPT-5.5

杨植麟在视频里把 Kimi K2 的训练账本摊开了：总花费 460 万美元，靠线性注意力等架构上的极致优化，在编程任务上跑赢了 GPT-5.5 等对手。这个数字说明他们用远低于大厂的预算，靠设计把资源差距抹平了。不过视频是创始人自述，没有第三方验证，跑分对比的具体基准和测试条件也没展开，这点先别太激动。

#Code#Inference-opt#Moonshot AI#Yang Zhilin

精选理由

杨植麟用40分钟视频把Kimi K2的训练账本摊开来看，460万美元的成本在同类模型里算低，编程任务上敢直接叫板GPT-5.5，这个对比本身就有传播力。不过视频是单一信源，具体用了哪些基准测试、对比条件是什么，正文没披露，所以分数卡在84不往上走。我会先打个折，等看到独立复现或更多技术细节再调整。

一句话点评

创始人自述训练成本460万美元，编程跑分超GPT-5.5，但没第三方验证和具体测试条件，先打七折看。

锐评

杨植麟自己拍视频把Kimi K2的训练账本摊开，总花费460万美元，靠线性注意力等架构设计在编程任务上跑赢了GPT-5.5。这个数字放在大模型圈确实低，说明他们用设计把资源差距抹平了一截。但视频是创始人自述，没有独立评测机构交叉验证，跑分对比用的什么基准、什么测试条件都没展开。编程任务本身也容易刷榜，换个数据集排名可能就变了。另外，460万是纯训练成本还是含试错和废卡，正文没披露。这点先别太激动，等第三方跑分出来再看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

36d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·14

xAI 发布 Grok Build 早期测试版，一个在终端里干活的编程助手

xAI 给 SuperGrok Heavy 订阅用户推了个早期测试版 Grok Build，是个直接跑在终端里的编程助手。它有几个特点：干活前会先出计划让你审，能同时派多个子任务并行跑，还支持无头模式（-p 参数）方便写脚本和自动化。官方说它兼容你现有的 AGENTS.md、插件、钩子和 MCP 服务器，进到仓库就能用。目前是早期测试，正文没披露具体定...

#Agent#Code#Tools#xAI

精选理由

xAI 给 Grok 加了个 Build 模式，让它能直接在终端里写代码、跑命令，还支持计划模式、并行派活和无头运行。目前只开放给 SuperGrok Heavy 用户，属于早期测试，功能细节和实际效果正文没展开说。我会先打个折：东西看着挺省钱，但没披露定价和稳定性数据，先别太激动。

一句话点评

xAI 给终端里塞了个能先出计划、再并行干活的编程助手，目前只对 SuperGrok Heavy 订阅用户开放早期测试。

锐评

Grok Build 是个直接跑在命令行里的编程助手，目前是早期测试版，只开放给 SuperGrok Heavy 订阅用户。它最大的卖点是干活前会先出一份计划让你审，你可以改步骤、批注，甚至推翻重写，批准后才动手改代码，每次改动都以 diff 形式呈现，这比直接让模型盲改要靠谱得多。另外它能把大任务拆成多个子任务并行跑，还支持无头模式（-p 参数），方便塞进脚本和自动化流水线里。官方说它兼容你现有的 AGENTS.md、插件、钩子和 MCP 服务器，进到仓库就能用，这点对已经搭好开发环境的团队比较友好。但正文没披露任何性能数据，比如任务完成率、一次通过率、并行子任务的实际加速比，也没提延迟和资源消耗。这些是判断它到底能不能在生产环境用的关键。另外，早期测试意味着功能可能不稳定，反馈渠道倒是给了（在 CLI 里敲 /feedback），但没说明反馈后的迭代周期。我会先打个折：计划审核和并行子任务这两个设计方向是对的，但没看到实测数据前，别急着把它当成主力开发工具。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

36d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·14

让 GPU 别闲着：用异步批处理榨干推理性能

Hugging Face 发现，一个 80 亿参数的模型在生成 8000 个 token 时，GPU 有 24% 的时间在空转。原因出在同步批处理上：CPU 准备下一批数据时，GPU 只能干等，反之亦然。这篇文章讲的是怎么用 CUDA 流把这两件事拆开并行，让 CPU 准备第 N+1 批的同时，GPU 已经在算第 N 批，把空闲缝隙填满。

#Inference-opt#Hugging Face#Transformers#Product update

精选理由

我会先打个折：这不是新模型发布，是推理系统的工程优化。Hugging Face 给了一个具体的 24% GPU 空闲率，并解释了用 CUDA 流重叠 CPU 与 GPU 工作的机制，对跑线上服务的团队有参考价值，但属于底层技巧而非行业大新闻，所以放在低 featured 档。

一句话点评

Hugging Face 发现 8B 模型跑长文本时 GPU 有 24% 时间在空等，用 CUDA 流让 CPU 和 GPU 并行干活，把空闲缝隙填满。

锐评

这篇文章讲的是怎么把推理服务里 CPU 和 GPU 的“轮流休息”改成“同时干活”。他们拿一个 80 亿参数的模型做测试，生成 8000 个 token 时，GPU 有 24% 的时间是闲着的。原因很简单：同步批处理下，CPU 准备下一批数据时 GPU 只能干等，反过来也一样。文章给出的解法是用 CUDA 流把这两件事拆开，让 CPU 准备第 N+1 批的同时，GPU 已经在算第 N 批。这个思路不新鲜，但文章把实现细节讲得比较清楚，包括怎么用 CUDA 事件来强制同步、怎么处理竞争条件和 carry-over 这些坑。不过正文没给出优化后的具体吞吐提升数字，也没提不同模型规模下的收益差异。这点先别太激动，24% 的空闲是特定场景下的测量值，换个小模型或者短文本，收益可能没那么大。另外，异步引入的复杂度会不会在工程上带来新的稳定性问题，文章也没展开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

36d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·14

AI 替你处理邮件，一个月要花多少钱？

作者拿主流大模型算了一笔账：让 AI 帮你读、写、整理邮件，每月推理成本在 22 到 130 美元之间，中位数 26 美元。如果做成 SaaS 产品，按 75% 毛利率定价，一年大概要收 500 美元，比 Google 企业版贵一倍。想省钱的话，换小模型能把成本压到十分之一甚至二十分之一；更狠的做法是直接在用户自己的 GPU 上跑，边际成本趋近于零。文...

#Inference-opt#Tom Tunguz#Google#Commentary

精选理由

这篇文章没发布新模型或产品，就是一篇成本算账的评论。我会先打个折：它把顶尖模型、小模型和本地部署三条路径的月费摆在一起，22–130 美元对比近零成本，数字直观，对正在掂量 AI 邮件代理是否划算的团队有参考价值。正文没披露测试用的具体模型名和邮件量，所以这些数字只能当量级参考，别直接套进预算表。整体是一篇有用的观点分析，不是重大发布，所以重要性给 73 分。

一句话点评

算了一笔实在账：AI 替你打理邮箱，用大模型每月光推理费就要 26 美元，做成产品年费直奔 500 刀，比 Google 企业版贵一倍。省钱路子也给了——换小模型成本打一折，本地跑几乎免费。

锐评

Tomasz Tunguz 这篇博客没画大饼，直接拿主流大模型的 API 价格算了一笔账：让 AI 帮你读、写、整理邮件，每月推理成本在 22 到 130 美元之间，中位数 26 美元。这个数字本身不算吓人，但一旦按 SaaS 的 75% 毛利率打包成产品，年费就要 500 美元左右，是 Google 企业版的两倍。用户会不会掏钱，正文没给结论，只说“工作中很多人可能会”。文章最有用的部分是降本路径。换小模型能把成本压到十分之一甚至二十分之一；更彻底的做法是直接在用户自己的 GPU 上跑推理，边际成本趋近于零。作者认为接下来一两年 AI 软件的核心就是这种“看人下菜碟”的推理分层：能写死规则的就别调模型，该用小模型就别上大家伙。不过这篇分析缺几个关键信息：没说明每月处理多少封邮件、多长的上下文，也没区分“读邮件”和“写回复”的 token 消耗差异。另外，本地跑虽然省钱，但用户设备门槛、延迟和隐私权衡都没展开。这些缺口让 26 美元这个中位数只能当个参考锚点，别直接拿去写商业计划书。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-05-14

更多

频道

后台