热点聚合 · 2026-05-16

▸ 30 signals · updated 3m ago

live · 238 today·policy v2

AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

126 212 320 419 542 632 749 826 923 1017 1136 1248 1337 1454 1539 1630 1719 1849 1976 2045 2148 2249 2313 2415 2520 2637 2744 2848 2935 3022 3114

2026年6月

一二三四五六日

147 258 348 447 545 619 715 852 945 1031 1128 1221 1313 1415 1524 1635 1726 1824 1912021222324252627282930

2026-05-16 · 星期六2026年5月16日

23:57

33d ago

FEATUREDr/LocalLLaMA· rssEN23:57 · 05·16

同批模型在 Strix Halo、RTX 3090 和 RTX 5070 上的实测对比

一位用户自己跑了 55 组本地推理测试，覆盖 Strix Halo、RTX 3090 和 RTX 5070 三块卡、五种推理后端，模型从 0.35B 小不点到 35B-A3B 混合专家都有。结论很直接：能塞进 12GB 显存的模型，RTX 5070 比 RTX 3090 快；但到了 14B 到 31B 这个区间，模型超过 12GB 又刚好能装进 24G...

#Inference-opt#Benchmarking#Reasoning#C_Coffie

精选理由

这篇值得看，因为作者没抄官方数据，自己跑了 55 组对比。我会先打个折：来源是 Reddit 单人帖，不是严格受控实验，但结论很实用。12GB 显存以内 RTX 5070 解码比 3090 快，14B 到 31B 模型区间 3090 反超，说明大模型推理 3090 的大显存优势还在。Strix Halo 的加入让 AMD 方案也有了参照。正文没披露功耗和价格，所以别直接当购买建议，但作为选卡参考够直接。

一句话点评

自己跑的数据最踏实。结论很直给：12GB 以内 5070 更快，14-31B 区间 3090 的 24GB 显存优势明显，Strix Halo 在特定后端下能打但兼容性还欠火候。

锐评

这位老哥干了件实在事：把 Strix Halo、RTX 3090 和 RTX 5070 拉到一起，用五种推理后端跑了 55 组测试，模型从 0.35B 小不点到 35B-A3B 混合专家都有。结论很清晰——能塞进 12GB 显存的模型，5070 比 3090 快，新卡架构在中小模型上有优势。但一到 14B 到 31B 这个区间，模型超过 12GB 又刚好能装进 24GB，3090 的大显存就翻身了。Strix Halo 的表现要看后端，某些组合下能跟独显掰手腕，但兼容性还不是开箱即用。不过这篇帖子正文被 Reddit 的安全策略挡了，具体数字、延迟分布、功耗对比都没拿到。55 组测试的原始数据表和所用后端版本也没披露，没法验证他说的“快”是快多少、在什么 batch size 下测的。另外 Strix Halo 的内存带宽上限摆在那，跑大模型时会不会撞墙，这点先别太激动。如果你手里已经有 3090，单纯为了跑 14B 以上模型换 5070 可能不划算。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:23

33d ago

FEATUREDHacker News 首页· rssEN22:23 · 05·16

Zerostack 1.0.0 发布：纯 Rust 编写的 Unix 风格编程代理

Zerostack 在 crates.io 上发布了 1.0.0 版本，自称是受 Unix 启发的编程代理，用纯 Rust 实现。正文没披露它的架构、工具接口或跑分结果，所以目前只能知道它是个新工具，具体能力还不清楚。

#Agent#Code#Tools#Zerostack

精选理由

HKR-H 和 HKR-R 靠 Rust/Unix 这个 coding agent 的卖点以及开发者工具的话题性通过。HKR-K 不通过，因为文章没给架构、工具接口或基准结果，所以这条归到 60–71 分段的常规产品更新。

一句话点评

一个用 Rust 写的极简编程代理，体量只有 7k 行代码、8.9MB，跑起来内存占用约 12MB，比同类 JS 方案轻了 20 多倍。

锐评

Zerostack 最大的卖点是轻和快。它用纯 Rust 写成，二进制只有 8.9MB，工作时内存占用约 12MB，而同类基于 JS 的代理（比如 opencode）要吃掉 300MB 左右。对本地开发来说，这意味着你可以在老机器上跑，不用被吃内存的代理拖垮。功能上它没走极简到底，该有的基本都有：支持多家模型供应商、文件读写、bash 执行（带沙箱和死循环检测）、会话管理、MCP 工具扩展，还内置了一套可切换的系统提示词，比如 code、review、debug 等模式，省去自己写 prompt 的麻烦。不过要注意，这条消息主要来自 crates.io 的项目自述文件，没有第三方评测或实际使用反馈。性能数据是开发者自己标的，测试环境是一台 Intel i5 7 代，代表性有限。循环系统也标了“实验性”，稳定性未知。如果你打算在生产环境用，最好先在自己的项目上跑跑看，别光看纸面数字就上头。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

21:43

33d ago

FEATUREDAI HOT 精选· aihot-apiZH21:43 · 05·16

MagicPath 直接嵌进 Codex 当画布用，拖拽 UI 就能实时出代码

MagicPath 的 CEO 演示了把自家工具直接跑在 Codex 里，不再需要 Figma 和 IDE 两头切。用户在 Codex 里贴一条命令就能装好，然后像拖积木一样摆界面，Codex 会实时感知项目结构并自动生成、修改代码。演示里没提复杂交互和状态管理能覆盖到什么程度，但至少常规 UI 搭建看起来省掉了一轮导出导入的折腾。

#Agent#Code#Tools#MagicPath AI

精选理由

MagicPath 把可拖拽的设计画布塞进了 Codex，一条命令配好就能用，拖完 UI 直接出代码。演示看着挺顺，但正文只给了一条视频，没提支持哪些框架、权限怎么控、复杂项目里能不能复现。我会先打个折：想法好，落地证据还薄，先当 featured 里偏轻的一条。

一句话点评

MagicPath 直接跑进 Codex 里了，拖拽 UI 就能实时改代码，不用 Figma 和 IDE 两头切。但演示没提复杂交互和状态管理能覆盖多少，先当原型加速器看。

锐评

这条更新把界面设计和代码生成塞进了同一个窗口。MagicPath 的 CEO 演示了在 Codex 里贴一条命令就能装好，然后像搭积木一样拖拽 UI 组件，Codex 会实时感知项目结构并自动生成、修改代码。以前设计师在 Figma 画完，开发再手动导出导入，现在这步省了。但正文没披露复杂交互逻辑和状态管理能覆盖到什么程度。演示里只展示了常规 UI 搭建，如果遇到表单校验、多步骤流程、数据绑定这些，这套拖拽加自动生成能不能扛住还不清楚。另外也没提生成代码的质量和可维护性，会不会为了快速出界面而牺牲代码结构。如果是真的能稳定跑通常规页面，对快速原型和简单工具类产品挺省钱。但生产环境能不能用，还得看后续有没有更复杂的案例放出来。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:40

33d ago

FEATUREDAI HOT 精选· aihot-apiZH20:40 · 05·16

工具调用代理的认知与行动脱节机制研究

这篇可解释性论文专门研究了让模型调用工具的代理，发现一个挺要命的问题：模型经常心里知道该调工具了，但手上就是没动作。这种“知道却做不到”的比例在 26% 到 54% 之间，而且毛病全出在从认知到行动的过渡阶段，不是模型没看懂。内部探测显示，模型在后期层处理最后一个 token 时，会把信号转歪，转出来的方向几乎和要执行的动作正交，导致行动失败。研究想通...

#Agent#Tools#Interpretability#Research release

精选理由

这篇可解释性论文盯着工具使用代理的一个具体毛病：模型能识别出该调用工具，但最后没执行，认知到行动的脱节率在 26% 到 54% 之间。我会先打个折——正文没披露具体模型、任务设置和论文全名，所以数字的适用范围还不清楚。但这点先别太激动，它确实点出了一个很常见的 agent 翻车场景：不是模型不懂，是懂了但没做。对做 agent 可靠性的同学来说，这个视角比单纯说“模型不会用工具”更有诊断价值。

一句话点评

模型心里知道该调工具，手上却没动作，这种“知道却做不到”的比例高达26%-54%，问题出在后期层把信号转歪了。

锐评

这篇论文挖出了一个挺具体的 bug：模型调用工具时，认知和行动会脱节。不是模型没看懂该不该调，而是看懂之后，在最后几层处理时把信号方向转偏了，偏到几乎和要执行的动作正交，结果就是不动手。不匹配率在 26% 到 54% 之间，这个范围说明不同场景下严重程度不一样，但整体都不低。研究用的是探测隐藏状态的方法，定位到问题完全卡在“认知到行动”的过渡阶段。这比泛泛说“提示没写好”或“训练不够”要精确得多，直接指向了模型后期层的几何结构。对做 agent 的人来说，这意味着单纯改 prompt 或加训练数据可能治标不治本，性能上限被这个内部信号旋转卡住了。不过正文没披露实验用的是哪些具体模型和工具调用场景，也没说这个比例是在什么任务上测出来的。如果是在简单任务上就有 26% 的失败率，那放到复杂业务流程里只会更糟。另外，研究说想预测干预效果，但没给出实际干预后的改善数字，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:17

33d ago

FEATUREDTechCrunch AI· rssEN20:17 · 05·16

AI 淘金热的“有产者”和“无产者”

Menlo Ventures 的合伙人 Deedy Das 算了笔账，说现在 OpenAI、Anthropic、英伟达这类公司的创始人和员工里，大概有 1 万人已经靠股权攒下了超过 2000 万美元的退休级财富。与此同时，其他软件工程师正面临裁员，年薪天花板卡在 50 万美元以下，还焦虑自己练了一辈子的编程手艺在市场上越来越不值钱。有人吐槽，这轮热潮里...

#Deedy Das#OpenAI#Anthropic#Commentary

精选理由

这篇文章不是讲模型、产品或融资，就是一篇评论。HKR 三项都踩中了：财富差距的标题够抓人，1 万人、2000 万美元这个估算有料，工程师对裁员和技能贬值的焦虑也很真实。我会先打个折，它没有新数据或一手信源，就是转述一个估算，所以放在 featured 这个档位刚好。

一句话点评

Menlo Ventures 合伙人算了笔账：AI 圈大概有 1 万人靠股权攒下超 2000 万美元退休金，而其他程序员正面临裁员和年薪天花板。

锐评

这条信息来自 Menlo Ventures 合伙人 Deedy Das 在社交媒体上的个人估算，不是正式研究报告，所以数字本身要先打个折。他说用“信封背面算出来的”方法推算出 OpenAI、Anthropic、英伟达这类公司里大概有 1 万人已经靠股权攒下超过 2000 万美元的退休级财富。这个数字说明什么？说明这轮 AI 热潮的财富分配极度集中，头部公司的早期员工和创始人拿走了绝大部分红利。与此同时，Das 观察到其他软件工程师正面临两重压力：一是裁员在全面进行，二是年薪天花板卡在 50 万美元以下，而且很多人焦虑自己练了一辈子的编程手艺在市场上越来越不值钱。这种“有人暴富、有人失业”的撕裂感，他说在旧金山已经到了最严重的程度。不过正文没披露这个 1 万人的估算具体用了什么假设，也没说股权流动性如何——纸面财富和能兑现的钱是两回事。另外，文章只呈现了 Das 一方的观察，没有引用被裁工程师或普通从业者的直接说法，情绪判断多于数据支撑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:04

33d ago

FEATUREDDwarkesh Patel 播客· rssEN19:04 · 05·16

别把“聪明”和“权力”混为一谈

Dwarkesh Patel 在这篇博客里聊了一个挺常见的误解：我们总把 AI 的智力等同于它能掌握的权力。他上来就举了个例子，如果按“在多种领域达成目标的能力”来定义智力，那斯大林可能是史上最聪明的人，但这显然不是我们讨论超级 AI 时脑子里想的那个东西。文章的核心观点是，现在 AI 变强的方式，主要是被训练去干好编程这类有经济价值的活儿，这和现实世...

#Reasoning#Alignment#Dwarkesh Patel#Donald Trump

精选理由

Dwarkesh 这篇是观点评论，不是新实验或数据报告。他把“智能”和“权力”拆开来看，提醒大家别把模型在编程任务上的进步，直接当成它能掌控现实资源。这个区分对做安全的人有用，但正文没给出实证案例，所以分数停在优质评论这一档，没往上走。

一句话点评

Dwarkesh 捅破了一层窗户纸：现在 AI 变强靠的是练编程，不是练权谋，把智力直接等同于权力是搞混了赛道。

锐评

Dwarkesh Patel 这篇博客的核心判断很直接：我们总把 AI 的“智力”和它能掌握的“权力”当成一回事，这其实是个误解。他上来就用斯大林举例——如果按“在多种领域达成目标的能力”来定义智力，那斯大林可能是史上最聪明的人，但这显然不是我们讨论超级 AI 时脑子里想的那个东西。文章指出，现实世界的权力更多来自权威、信任和让大规模人群协作的能力，而不是某种孤立的、算无遗策的战略推理。特朗普的权力不是因为他那颗大脑是地球上最强的优化引擎，而是因为数亿人认可的政府给了他巨大的授权。这个区分对 AI 从业者来说很实用。现在模型变强的主要路径，是被训练去干好编程这类有明确经济价值的活儿，这和获取现实权力之间的相关性并不强。文章引用了 Garett Jones 的研究：个人智商和收入只是弱相关，但国家平均智商和国家产出强相关，因为智力有外溢效应——更聪明的社会协作更好、储蓄更多。发明高压蒸汽机的特里维西克穷困而死，但英国有一大批这样的人，才撑起了全球帝国。文章没给出量化证据来证明“AI 走经济赛道就不会自动获得权力”，更多是概念辨析和思想实验。它也没讨论如果 AI 同时掌握经济效率和策略博弈能力会怎样，这个缺口让结论更像一个提醒而非定论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:01

33d ago

FEATUREDDwarkesh Patel 播客· rssEN19:01 · 05·16

预训练并行策略与翻车训练笔记

这篇笔记聊了两件事：预训练为什么容易跑崩，以及怎么把训练拆到多张 GPU 上。跑崩的核心原因有两个——破坏因果性和引入偏差。比如 MoE 路由里用专家选择（expert choice）分配 token，会让 token n 的去向依赖 token n+k 的路由结果，训练时看到了推理时看不到的信息；token 丢弃也会让后面的 token 影响前面的处...

#Fine-tuning#Inference-opt#Benchmarking#Dwarkesh

精选理由

Dwarkesh 这期笔记把预训练里容易翻车的地方摊开讲：expert choice 和 token dropping 会破坏因果性，FP16 集体通信能把一万次累加算偏，这些坑不踩过很难意识到。我会先打个折——它更像从业者之间的经验交换，不是系统性的技术报告，但给的数字（6ND、288GB、参数量×3）对算成本和排故障都有用。正文没展开具体实验验证，所以别当定量结论用。

一句话点评

预训练跑崩的两大元凶：破坏因果性和引入偏差。MoE 路由用专家选择会让训练看到推理时看不到的信息，FP16 累加超过 1024 后误差能到 10 倍。

锐评

这篇笔记把预训练翻车的坑讲得很实在。核心就两类：一是破坏因果性，比如 MoE 里用专家选择分配 token，会让 token n 的去向依赖后面 token n+k 的路由结果，训练时偷看了推理时拿不到的信息，传 Llama 4 表现不佳可能跟这有关；token 丢弃也有类似问题，后面 token 匹配度更高会导致前面 token 被忽略，Gemini 2 Pro 据说踩过这个坑。二是引入偏差，偏差不像方差能平均掉，会越滚越大。GPT-4 早期训练就栽在 FP16 集体通信上——FP16 在 1024 以上精度间隔变大，反复加 1 会被反复舍入回原值，累加结果能差 10 倍，这种 bug 极难排查。文章还抛出一个有意思的问题：训练翻车的原因是不是就那么几种，修完就一劳永逸？聊的人觉得不是，规模每上一个台阶都会有新坑冒出来，光数值精度这一块就能花式翻车。另外他对 AI 自动写 CUDA kernel 短期不乐观，认为这更接近 AGI 完全体问题。缺的东西也明显：全是经验之谈和传闻，没有实验数据或复现验证，Llama 4 和 Gemini 2 Pro 的案例都标注是 rumor 和 apparently。当成工程避坑清单看有用，但别当正式结论引用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:00

33d ago

FEATUREDDwarkesh Patel 播客· rssEN19:00 · 05·16

RLVR 做科学发现可能格外不灵光

Dwarkesh 拿科学史上的长验证周期来质疑 RLVR 在科学发现上的适用性。文章指出，理论的验证闭环动辄几十年甚至上百年，而且当时看起来更优的理论，预测精度反而可能更差。比如哥白尼 1543 年的日心说模型，因为坚持正圆轨道，实际预测效果不如托勒密打磨了上千年的地心本轮体系，甚至更复杂；要等到 1838 年恒星视差被观测到，才算在观测上彻底驳倒第谷...

#Reasoning#Alignment#Dwarkesh#Michael Nielsen

精选理由

Dwarkesh 这篇不是论文或产品发布，属于评论性质，但抛出的论点够刺激，还带了两个硬核历史数字。我会先打个折，因为没给出系统实验，只是观点输出，但话题性和信息密度都够，放在 78-84 这个质量段没问题。

一句话点评

科学理论的验证周期动辄几十年上百年，用 RLVR 这种靠即时反馈优化的方法去搞科学发现，大概率水土不服。

锐评

Dwarkesh 这篇的核心判断很直接：别指望靠强化学习加可验证奖励（RLVR）就能让 AI 在科学上大杀四方。他拿科学史举例，理论的验证闭环长得离谱，哥白尼 1543 年提出日心说，要等到 1838 年恒星视差被观测到才算在观测上彻底驳倒对手，中间隔了近 300 年。而且当时哥白尼的模型预测精度还不如托勒密打磨了上千年的地心体系，甚至更复杂，因为哥白尼坚持正圆轨道，不得不塞进更多本轮。文章还提到水星进动的例子，牛顿力学解释不了水星轨道每世纪多转出的 43 角秒，当时的天文学家推测有颗叫“祝融星”的未知行星，结果要等到 1915 年爱因斯坦的广义相对论才给出答案。这说明科学进步里掺杂了大量我们还没法清晰描述的判断和启发式方法，很难塞进一个即时打分的 RL 循环里。文章没给出任何量化实验或 AI 模型测试数据，纯粹是历史案例的类比论证。它缺的是：如果非要用 RLVR 做科学，具体会在哪个环节卡死？是奖励函数没法定义，还是探索空间太大？这些都没展开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:00

33d ago

FEATUREDAI HOT 精选· aihot-apiZH19:00 · 05·16

RLVR 在科学领域可能格外不灵光

Dwarkesh Patel 聊了一个很要命的问题：用 RLVR（靠可验证奖励信号做强化学习）去搞科学发现，可能比我们想的难得多。文章没给实验数据，纯靠科学史案例来推演。核心矛盾是，科学理论的验证周期动不动就是几十年甚至上百年，而且当时看起来更准的模型，未必是更对的理论。比如哥白尼的日心说刚出来时，预测精度还不如托勒密打磨了上千年的地心说，连模型本身都...

#Reasoning#Alignment#Dwarkesh#Commentary

精选理由

Dwarkesh 这篇文章给 RLVR 泼了盆冷水，核心就一句：科学理论的验证反馈太慢了，慢到几十年甚至上百年，RLVR 那套靠短期奖励信号优化的逻辑根本对不上。我会先打个折，正文没给出实验数据，纯属观点评论，但问题提得准——如果验证周期拉长到人的一辈子都等不到，那“可验证”这个前提在科学场景下就悬了。这点先别太激动，但它确实戳到了 AI for Science 路线的一个软肋。

一句话点评

科学不是刷题，RLVR 在科学发现上可能吃大亏，因为验证周期动不动几十年起步，模型当时跑分高不代表理论对。

锐评

Dwarkesh 这篇文章没给实验数据，纯靠科学史推演，但推得挺狠。RLVR 靠可验证奖励信号驱动，代码有测试用例，数学有证明器，科学理论却没有这种即时反馈。哥白尼 1543 年的日心说刚出来时，预测精度还不如托勒密打磨了上千年的地心说，开普勒定律到 1619 年才补上，牛顿统一到 1686 年，恒星视差更是 1838 年才测到。这不是任何一个现有 RLVR 训练循环能消化的延迟。我会先打个折：文章讨论的是科学理论发现这个极端场景，跟 RLVR 在代码、数学推理上的表现是两码事。但它的提醒是成立的——RLVR 拿的是短期反馈的工资，科学经常在一个世纪后才结账，中间还得忍受一堆错误预测。海王星 1846 年被算出来是成功案例，水星多余的 43 角秒却让人追着祝融星跑了几十年，直到 1915 年爱因斯坦才收尾。正文没披露任何实验对比或基准数字，所以这更像一篇思想实验，别当结论用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:56

33d ago

● P1AI HOT 精选· aihot-apiZH18:56 · 05·16

Eric Jang 从零实现 AlphaGo 训练框架和成本分析

Eric Jang 花了几个月从零实现 AlphaGo，并把过程写成教程和代码放了出来。他原本的理解是“用自我对弈训练的搜索增强神经网络”，但亲手做一遍后对细节有了更深体会。他给出一条关键判断：前沿研究仍然很贵，但特定能力的落地成本掉得很快——到 2026 年，训练一个能打的围棋 AI 租算力只要几千美元，不再需要 DeepMind 级别的资源。他自称...

#Reasoning#Code#Eric Jang#AlphaGo

精选理由

我会先打个折：这是个人分享，不是论文或模型发布，所以信息密度有限。但亮点很明确——Eric Jang 一个人花几个月从零把 AlphaGo 做出来，还给了个具体成本判断：2026 年租算力训强围棋 AI 只要几千美元。这个数字直接说明当年需要大团队、大预算的系统，现在个人和小团队也能碰了。正文没披露具体训练配置和模型强度验证，所以“强”到什么程度还不好说，这点先别太激动。整体适合当一条有话题、有数字、对从业者有参考价值的动态来推。

一句话点评

Eric Jang 用休假时间从零复现了 AlphaGo，并公开了训练成本。这比看论文更实在，能直接摸清当年那套搜索加自我对弈在今天到底要花多少钱。

锐评

Eric Jang 在播客里聊了他从零搭建 AlphaGo 的过程，核心是想搞懂深度神经网络怎么把极其耗时的树搜索“压缩”进一个十层网络里。他提到 AlphaGo 的蒙特卡洛树搜索能给出每一步的明确改进方向，这比现在大语言模型用的强化学习聪明得多——后者得从几万个 token 里猜哪一步做对了，效率极低。这次复现最有价值的是他顺带做了成本分析，让我们能直观对比 2016 年的烧钱玩法和现在的开销。不过，正文没披露他具体用了什么显卡、花了多少电费或租了多少云实例，只说了是基于现代工具重写。这点信息缺口挺关键，因为成本数字直接决定个人开发者或小团队能不能玩得起这套流程。另外，他还试了用 AI 自动调参跑实验，发现让模型写代码、调超参已经很顺，但选研究方向、跳出死胡同这类需要“品味”的活，AI 目前还干不了。这个判断很实在，别被“AI 研究员”的噱头带偏，它现在更像一个任劳任怨的实习生，而不是能拍板课题的导师。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:59

33d ago

FEATUREDHacker News 首页· rssEN17:59 · 05·16

美国开始出现人工智能相关岗位的大规模失业

彭博发了一篇报道，标题说美国已经开始在“AI暴露岗位”上看到大量失业。但正文只给了链接和一个Hacker News讨论串（56分、42条评论），没有披露具体是哪些岗位、裁了多少人、统计周期是什么、数据来源和方法论。所以目前能确认的信息只有标题本身——AI对就业的影响正在从“担忧”变成“有数据支撑的现象”，但具体数字和范围都还没公开。

#Bloomberg#Hacker News#Commentary

精选理由

标题有冲击力，Bloomberg来源有一定可信度，但正文几乎没给实质数据，属于标题党级别。H和R理由充分，K因为缺关键信息扣分，所以落在60-71档。

一句话点评

彭博这篇报道说美国开始出现AI直接导致的岗位流失，但正文没披露具体裁员数字和统计口径，这点先别太激动。

锐评

彭博的报道给出了一个判断：美国劳动力市场已经不只是担心AI抢饭碗，而是真的开始丢饭碗了，主要集中在那些工作内容容易被模型替代的岗位。但文章本身信息量很薄，没有列出具体行业、裁员规模或对比数据，更像是一个趋势定性而非量化报告。从已有的信息看，这轮冲击最先打在初级白领岗位上，比如基础文案、数据录入、初级客服这类重复性高、判断力要求低的工作。这和之前业界预测的方向一致——AI不是直接干掉一个部门，而是让一个原本需要五个新手的活，现在一个老手加工具就能干完。不过这篇报道缺的东西太多：没有说明数据来源是劳工统计局还是企业调查，没有区分“岗位消失”和“岗位不新增”，也没有讨论这些失业是永久性的还是短期摩擦。在拿到具体数字和归因分析之前，这条新闻更适合当作一个值得盯紧的信号，而不是一份能直接引用的证据。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

17:00

33d ago

FEATUREDAI HOT 精选· aihot-apiZH17:00 · 05·16

开源模型井喷：Gemma 4、DeepSeek V4、Kimi K2.6 等集体发布，CAISI 评估称开源落后闭源

这个月开源模型扎堆更新，DeepSeek V4、Gemma 4、Kimi K2.6、MiMo 2.5、GLM-5.1 全来了。CAISI（美国 AI 标准与创新中心）用 9 个基准测了 DeepSeek V4，给出的结论是开源模型跟美国闭源前沿差距在拉大，尤其在 CTF 安全挑战、ARC-AGI-2 和他们的私密基准 PortBench 上 V4 得分...

#Benchmarking#Gemma#DeepSeek#Kimi

精选理由

这条消息把五款开源模型的新版本打包在一起，还挂了个 CAISI V4 评估的钩子，对关注模型选型的人挺有吸引力。我会先打个折：正文只说用了这套框架测试，分数一个没给，所以目前只能当个发布清单看，没法横向比较。这点先别太激动。不过模型名字和版本号都明确，开源阵营的密集更新本身就能影响团队的部署和成本判断，所以整体还是值得推。

一句话点评

CAISI 说 DeepSeek V4 跟美国闭源差距在拉大，但它的 Elo 分被 CTF、PortBench 和 ARC-AGI-2 的极端低分拉低了，这点先别太激动。

锐评

这个月开源模型扎堆发版，但最值得聊的不是模型本身，而是 CAISI 对 DeepSeek V4 的评估方式。CAISI 用 9 个基准算出 Elo 分，结论是开源跟美国闭源前沿差距在拉大。但仔细看，V4 的 Elo 被三个基准拖了后腿：CTF-Archive-Diamond 安全挑战、CAISI 自己的私密基准 PortBench，以及 ARC-AGI-2。其中 CTF 只跑了部分题目然后用统计方法外推，ARC-AGI-2 的评分方式也跟公开榜单不一样。这几个基准的权重把整体分差放大了。作为对比，Epoch AI 的 ECI 指数同样用统计方法跨基准比较，显示差距大概在 3 到 7 个月，没有 CAISI 画的那么夸张。文章作者也承认两边都不完整——这些评估都用的是标准化、简化的测试环境，比如编程题只给一个 for 循环和固定 token 预算，而不是模型实际训练时用的 Claude Code 或 OpenCode 这类工具链。这就好比用自动挡考试的成绩去判断一个赛车手的水平。正文没披露 V4 在各项基准上的原始得分，也没说 PortBench 具体测什么。要判断差距到底多大，还得看用模型原生工具链跑出来的结果。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:05

33d ago

FEATUREDAI HOT 精选· aihot-apiZH16:05 · 05·16

AntLingAGI 开源万亿级推理模型 Ring-2.6-1T，专为智能体工作流设计，5 月底前在 OpenRouter 打二五折

AntLingAGI 把 Ring-2.6-1T 开源了，同时上线了 OpenRouter 平台。这个模型参数量达到万亿级别，不是单纯回答问题，而是冲着让模型进业务流程干活去的：规划步骤、调用工具、维持长上下文、跑完复杂任务。训练用了 Async RL 和 IcePop 两种方法，正文没展开解释具体怎么做的。5 月底前在 OpenRouter 调用有 ...

#Agent#Reasoning#Tools#AntLingAGI

精选理由

我会先打个折——正文没给基准测试、许可证和上下文窗口，所以分数不动。但 HKR 三项都站得住：标题有钩子，信息有增量，对智能体开发者有实际参考价值。75% 折扣和 OpenRouter 上线是实打实的动作，Async RL 和 IcePop 训练方法也给了技术线索，只是缺验证数据，这点先别太激动。

一句话点评

万亿参数模型开源，5月底前调用打二五折。但训练方法 Async RL 和 IcePop 正文没解释，效果先别太激动。

锐评

AntLingAGI 把 Ring-2.6-1T 开源了，这是个万亿参数的大模型，专门冲着让模型进业务流程干活去的：规划步骤、调用工具、维持长上下文、跑完复杂任务。5 月底前在 OpenRouter 上调用打二五折，想试的话成本很低。但正文对训练方法 Async RL 和 IcePop 一笔带过，没展开说具体怎么做的、跟现有方法比好在哪。万亿参数跑 agent 工作流，推理延迟和资源消耗会是个实际问题，正文也没给任何性能数据或对比基准。我会先打个折：开源和折扣是实打实的，但模型到底能不能稳定跑通复杂任务、工具调用准确率多少、长上下文下会不会崩，这些关键信息全缺。等有人跑出实测结果再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:21

33d ago

FEATUREDHacker News 首页· rssEN15:21 · 05·16

特斯拉披露两起 Robotaxi 事故，远程安全员介入时撞了

特斯拉公开了两起 Robotaxi 碰撞事故，都发生在远程安全员接管车辆的时候。目前 TechCrunch 的报道正文没披露具体地点、时间、伤亡情况和车辆当时的决策状态，也没说清楚远程接管是在什么触发条件下启动的。Hacker News 上只有 27 个点赞和 17 条评论，讨论热度一般。我会先打个折：光凭标题和摘要看不出是系统先出错再交给人，还是人接...

#Robotics#Tesla#TechCrunch#Hacker News

精选理由

特斯拉主动说了两起 Robotaxi 事故，都跟远程操作员有关，这点本身就挺少见。我会先打个折：原文只有 27 分、17 条评论，信息量很薄，没写事故发生在哪、有没有人受伤、远程接管是人为失误还是系统兜底。所以它更像一个安全信号，还不是能拿来下结论的实锤。对从业者来说，值得看一眼，但别急着激动。

一句话点评

特斯拉承认两起 Robotaxi 事故都发生在远程安全员接管时，但正文没披露地点、伤亡和接管触发条件，先别急着下结论。

锐评

这条新闻的价值在于特斯拉自己承认了事故，而且明确指向远程接管这个环节。但 TechCrunch 的报道正文没放出来，我们只能看到标题和 Hacker News 上的 27 个点赞、17 条评论，讨论热度一般。关键信息全缺：事故发生在哪、有没有人受伤、车辆当时是自己先出错还是安全员主动介入、远程接管延迟多大。这些缺口让判断没法做实。对从业者来说，远程接管本身就是自动驾驶的灰色地带——人不在车里，反应时间、网络延迟、环境感知都打折。如果事故是在系统已经搞不定、紧急丢给人的情况下发生的，那问题出在交接机制；如果是安全员自己操作失误，那说明远程操控的人因工程没做好。两种情况性质完全不同，但原文都没说。我会先打个折：这条新闻目前只能当个信号看，说明特斯拉的远程接管流程出了事，但具体是系统问题还是人的问题，得等后续披露。如果后续有事故报告或监管文件出来，才值得认真分析。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:05

33d ago

FEATUREDAI HOT 精选· aihot-apiZH13:05 · 05·16

Anthropic 内部手册：AI 反而会让创业失败率变高

Anthropic 发了份内部手册叫《Founder's Playbook》，结论挺反直觉：像 Claude Code 这类 AI 工具，不是让创业更容易成功，而是会把失败率推高。手册把创业拆成想法、原型、发布、扩张四个阶段，逐个拆解 AI 放大风险的方式。最核心的问题是，AI 能几分钟跑出一个能用的原型，创始人很容易把“能跑通”当成“市场需要”，再用...

#Agent#Code#Tools#Anthropic

精选理由

Anthropic 这份创始人手册没在吹自家工具多好用，而是警告 Claude Code 这类 AI 会让创业者在四个阶段更容易踩坑。我会先打个折：正文没给出具体数据或可复现的测试，更像经验总结。但“降低建造成本却放大判断错误”这个角度确实少见，对正在用 AI 加速开发的团队是个清醒提醒。

一句话点评

Anthropic自己发了份手册，说AI工具反而会让创业失败率变高，这结论挺打脸的。

锐评

Anthropic这份内部手册的结论很直接：像Claude Code这类AI工具，不是创业的万能药，反而可能让更多人更快地撞墙。核心问题在于，AI几分钟就能跑出一个能用的原型，创始人很容易把“能跑通”当成“市场需要”，再用AI搜一堆资料来强化自己的错误判断。手册把创业拆成想法、原型、发布、扩张四个阶段，逐个拆解AI怎么放大风险——比如原型不等于验证、用AI堆出来的代码会埋下“智能体技术债”、创始人自己变成所有决策的瓶颈。最终结论是，AI把执行成本打到极低，判断力反而成了最稀缺的东西。手册认为真正的护城河，是把行业知识结构化沉淀成专属的“技能包”。不过这份材料是Anthropic的内部手册，正文没披露具体的数据支撑或案例研究，更像是一份经验总结和警示。它没给出量化指标，比如失败率具体会推高多少，也没讨论不同行业、不同团队规模下的差异。这点先别太激动，可以把它当成一份来自AI工具开发方的反向思考，而不是一份严谨的行业报告。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:15

33d ago

● P1r/LocalLLaMA· rssEN12:15 · 05·16

MTP 支持合并至 llama.cpp 主分支

llama.cpp 的 master 分支合并了 PR #22673，正式加入 MTP（Multi-Token Prediction）支持。MTP 让模型在推理时一次预测多个后续 token，而不是逐个生成，理论上能降低解码延迟。不过正文没披露具体支持哪些模型、有没有 benchmark 数据、以及合并到了哪个正式版本。如果你跑本地模型，可以关注后续 ...

#Inference-opt#llama.cpp#ggml-org#Open source

精选理由

MTP 支持合并进 llama.cpp 主分支，对本地推理玩家是个直接可用的更新——从 main 分支编译就能跑。但正文只有 RSS 摘要，没披露 MTP 的具体机制（比如是单头还是多头预测）、支持哪些模型、实测能快多少，也没给发布版本号。信息缺口明显，所以分数压在 68 合理：有钩子、有新事实、有触达面，但验证和细节全缺，属于小规模开源推理优化更新。

一句话点评

llama.cpp 主分支正式合并 MTP 支持，本地跑 DeepSeek 类模型推理速度能提一截。

锐评

MTP（多 token 预测）被合进 llama.cpp 主分支，意味着以后用这个推理引擎跑 DeepSeek-V2/V3 这类模型时，可以一次预测多个 token，而不是一个一个字往外蹦。对本地部署的人来说，最直接的好处是生成速度变快、延迟更低。社区讨论里有人提到 b9180 这个构建版本已经落地，说明代码不是停留在 PR 阶段，而是真能用了。不过目前信息主要来自 Reddit 帖子标题和合并记录，正文被屏蔽，看不到具体实现细节和性能对比数据。比如到底快了多少、显存占用有没有变化、支持哪些量化格式，这些关键数字都缺失。另外 MTP 对输出质量是否有影响，社区也没展开讨论。想尝鲜的话可以更新 llama.cpp 试试，但建议先在自己常用的模型上跑一遍对比，别急着上生产环境。等有人放出实测数据，再判断这个合并的实际收益有多大。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:06

33d ago

● P1Hacker News 首页· rssEN12:06 · 05·16

SANA-WM开源世界模型发布可生成一分钟720p可控视频

NVIDIA 放出了一个叫 SANA-WM 的开源模型，参数规模 26 亿，主打的是用一张图加一条镜头移动路线，直接生成长达一分钟的 720p 视频。它把长视频生成拆成两步：先用一个混合线性注意力的主干网络跑出长序列粗稿，再用一个 170 亿参数的精修模型去改善纹理、动作和后半段的画质。训练成本不算高，64 块 H100 跑 15 天，用了约 21.3...

#Multimodal#Vision#NVIDIA#Open source

精选理由

标题说 SANA-WM 是个 2.6B 参数的开源世界模型，能生成 1 分钟 720p 视频。我会先打个折：正文只给了链接、9 分和 8 条评论，训练数据、许可证、推理成本、跟其他模型的对比跑分全都没披露。2.6B 这个尺寸在视频模型里算小的，如果真能稳定跑一分钟不崩，推理成本可能比较友好，但这点先别太激动，因为没看到任何实测证据。开源是个加分项，不过没写是什么许可证，商用能不能用还不清楚。整体看，这是个有话题度的发布，但信息缺口很大，实际能力得等更多细节出来才能判断。

一句话点评

NVIDIA 开源了一个 26 亿参数的世界模型，一张图加镜头轨迹就能在单张显卡上生成一分钟 720p 可控视频，但模型权重还没放出来。

锐评

SANA-WM 把长视频生成的门槛打下来了。它用 26 亿参数的小模型，在单张 H100 上就能跑出一分钟 720p 视频，甚至还有个蒸馏版能在 RTX 5090 上用 34 秒搞定。对比它提到的 LingBot-World 等工业级方案，吞吐量号称高了 36 倍，训练也只用了 64 张 H100 跑 15 天，成本确实低。能这么省，核心在于它把注意力机制做了混合设计：逐帧用轻量的 Gated DeltaNet，隔一段时间才做一次完整的 softmax 注意力，显存不会随着视频变长而爆炸。另外它专门加了一个双分支模块来控制 6 自由度镜头轨迹，让画面跟着指定路径走，不是随机乱飘。不过先别太激动。正文明确说模型权重还是“soon”的状态，没得下载跑不起来。另外它只用了约 21.3 万段公开视频训练，这个数据量对世界模型来说不算大，泛化能力要打问号。演示视频全是固定视角的慢速自然场景，没看到快速运动或复杂交互，实际可控性还得等开源后自己测。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:22

33d ago

FEATURED机器之心 · 公众号· rssZH10:22 · 05·16

机器人为什么需要世界模型？顶尖机构联合发布综述

这篇综述正文被微信的验证页面挡住了，我没法看到具体内容。从标题和已知信息看，NTU MARS Lab 联合几家机构发了一篇 43 页的综述，讲的是机器人世界模型。世界模型可以理解成让机器人脑子里有个对物理世界的模拟器，能预判“我动一下会发生什么”，而不是每次都靠真实试错。文章大概会梳理这类模型怎么定义、用什么架构、在哪些任务上能用，以及当前卡在哪——比...

#Robotics#Multimodal#Benchmarking#NTU MARS Lab

精选理由

我会先打个折：标题里的“震撼发布”可以忽略，但内容本身不水。这篇综述把机器人世界模型这件事拆得很细——从“世界模型到底是什么”到怎么搭、怎么测、动作一致性卡在哪，都给了结构化的梳理。对正在琢磨具身智能或仿真训练的人来说，相当于一份现成的地图，省得自己去翻几十篇论文。不过它没给出具体的性能数字或成本对比，所以别指望直接拿来算投入产出。

一句话点评

这篇综述正文被微信验证页挡住了，我没法看到具体内容。从标题和已知信息看，NTU MARS Lab 联合几家机构发了一篇 43 页的综述，讲的是机器人世界模型。世界模型可以理解成让机器人脑子里有个对物理世界的模拟器，能预判“我动一下会发生什么”，而不是每次都靠真实试错。文章大概会梳理这类模型怎么定义、用什么架构、在哪些任务上能用，以及当前卡在哪——比如动作一致性、推理速度、物理落地这些老问题。

锐评

这篇综述的标题和合作阵容（NTU MARS Lab、UC Berkeley、微软等）看起来挺有分量，43 页的篇幅也说明不是随便水一篇。但问题在于，我实际点进去只看到微信的验证页面，正文完全被挡住了，所以下面所有判断都只能基于标题和已知信息，没法核实具体内容。从已知信息推测，这篇综述的核心应该是把“机器人世界模型”这个方向做一次系统梳理。世界模型说白了就是让机器人脑子里有个物理模拟器，能提前想清楚“我动一下会发生什么”，而不是每次都靠真实试错去撞墙。这个方向最近很热，但一直卡在几个老问题上：动作一致性差、推理太慢、物理落地不靠谱。如果这篇综述能把这些坑讲清楚，对从业者来说挺实用。但要注意，正文没披露具体用了哪些基准、对比了什么方法、有没有开源代码或模型。这些信息缺口让我没法判断这篇综述的深度和实用性。另外，微信验证页挡住正文这件事本身也说明，这条链接的访问稳定性有问题，想细看的人可能得自己去找原论文。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

08:52

33d ago

● P1AI HOT 精选· aihot-apiZH08:52 · 05·16

研究员用Anthropic Mythos工具六天破解苹果M5芯片内存完整性保护

苹果在 M5 和 A19 芯片上花五年做的 MIE 内存完整性保护，被三个研究员用 Anthropic 的 Mythos 工具攻破了。他们 4 月 25 日发现漏洞，5 月 1 日就写完利用程序，全程只用了六天。攻击手法是纯数据攻击，不碰指针，靠普通用户权限的标准系统调用就能拿到 root 权限。团队已经当面把报告交给了苹果。完整技术细节要等苹果发补丁...

#Agent#Code#Safety#Anthropic

精选理由

我会先打个折：正文只提了三位研究人员和 Mythos 工具，没披露漏洞是否已报给苹果、Mythos 具体怎么辅助的、以及 Anthropic 的回应，所以信息有缺口。但 6 天从发现到完成内核漏洞利用、绕过 M5/A19 的 MIE 并拿到 root，这个速度和效果本身就很说明问题——AI 辅助攻击开发的门槛在降。对从业者来说，这比单纯说“AI 不安全”更有冲击力，因为直接落在具体芯片和系统上。H/K/R 全过，但单篇来源和缺少后续处理信息，让我没给到 85 分以上。

一句话点评

Anthropic 的安全研究工具 Mythos 帮研究员六天挖出两个苹果 M5 芯片的内核漏洞，直接绕过了内存完整性保护。但正文没披露漏洞具体细节和苹果的回应。

锐评

这条消息的看点不是 Anthropic 又发了个模型，而是他们用自家工具 Mythos 干了件很实际的事：在六天内找到并利用了两个 macOS 内核未知漏洞，成功绕过了苹果 M5 芯片的内存完整性保护机制。内存完整性保护可以理解为芯片层面的一道硬锁，防止恶意代码篡改内核数据，绕过它意味着攻击者能在系统最底层执行任意代码。目前的信息都来自 RSS 摘要，正文是空的，所以没法判断漏洞的严重等级、利用条件苛刻与否，也不知道 Anthropic 是否按常规漏洞披露流程提前通知了苹果。标题里“五天内”和“六天”的差异，可能是不同来源统计口径不同，但都指向同一个事实：自动化漏洞挖掘的效率在提高。对从业者来说，这条消息的价值在于它提供了一个具体案例，说明 AI 辅助安全研究正在从理论走向实战。但别急着下结论说“AI 已经能独立挖漏洞了”，工具还是需要研究员来操作和决策。还缺的关键信息是：漏洞是否已被修复、Mythos 这套工具对外部研究者的开放程度，以及这种效率提升对防守方意味着多大的压力。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:10

33d ago

FEATUREDAI HOT 精选· aihot-apiZH08:10 · 05·16

Codex 现在能遥控多台电脑，ChatGPT 里切项目就能换设备

Codex 通过 ChatGPT 不仅能连一台电脑，还能直接控制另一台，多设备管理不用来回切换客户端，在 ChatGPT 里换个项目就能拿到对应设备的上下文和文件。推文里还提到支持远程 SSH 去设置其他虚拟机，多机协作的灵活度上了一个台阶。不过正文没披露延迟表现和权限隔离细节，实际用起来稳不稳还得看后续反馈。

#Agent#Tools#Code#Codex

精选理由

这条更新让 Codex 从“陪你聊代码”往“替你上手操作”迈了一步，多设备远程控制和项目级上下文切换是实打实的机制，不是概念包装。我会先打个折：目前只有一条 X 上的简短预告，没有官方发布页、定价、权限模型，也没有可复现的演示，信息密度偏薄。所以重要性给到 76、放在 featured 里是合适的——有料，但别急着当成熟产品看。

一句话点评

Codex 现在能在 ChatGPT 里直接切项目管多台电脑，还支持远程 SSH 设虚拟机，但延迟和权限隔离细节正文没提，实际稳不稳先打个折。

锐评

Codex 这次更新把多设备管理塞进了 ChatGPT 的对话窗口，你换个项目就能拿到对应机器的上下文和文件，不用来回切客户端。推文还提到能通过远程 SSH 去配置其他虚拟机，这对需要同时维护开发机、测试服、生产环境的人来说，确实省了跳转的麻烦。但正文只给了功能描述，没披露任何性能数据。多设备远程控制的延迟是多少？权限怎么隔离？万一一个会话能摸到所有机器，安全风险就大了。这些关键信息缺失，让这条更新看起来更像功能预告而非可投产的能力。另外，推文来源是个人账号，不是 OpenAI 官方公告，可靠性要打个折。建议等官方文档或实际用户反馈出来再判断，别急着把它当主力远程管理工具。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:00

33d ago

FEATURED彭博科技· rssEN08:00 · 05·16

Stripe首席执行官John Collison谈代理式商务对互联网的影响

Bloomberg Odd Lots 播客请来 Stripe 的 John Collison，聊了一个概念叫“代理式电商”——简单说就是 AI 代理替用户完成购物、支付、退货等流程，而不是人自己点来点去。Collison 认为这会改变互联网的交互方式，但播客正文没披露 Stripe 具体在做什么产品、定价多少、什么时候上线。所以这个方向值得关注，但具体...

#Agent#Bloomberg#Stripe#John Collison

精选理由

H 和 R 过关：John Collison 本人出来聊，加上代理式商务是当前支付/电商圈的热点。但 K 不达标：Bloomberg 那期播客页面除了标题和嘉宾名字，正文没披露任何新数字、机制或可验证的结论。适合放进信息流，不值得上推荐位。

一句话点评

Stripe 老板说未来是 AI 代理替你花钱，但别急着想象科幻场景，他举的例子其实很朴素：帮你订机票、付账单。

锐评

John Collison 在播客里聊的“代理式商务”，核心意思是让 AI 软件（代理）代替人去完成交易，比如自动比价订机票、管理订阅服务。他认为这会改变互联网的商业模式，因为未来掏钱做决策的可能不是人，而是代码。这个判断来自 Stripe 的视角——他们正把支付接口开放给 AI 代理，所以有动力推这件事。但播客正文没给出具体数据，比如有多少交易已经由代理发起、失败率多高。Collison 的设想更多是方向性的，离大规模落地还有距离。目前缺的是：代理出错谁担责、退款纠纷怎么处理、用户授权边界在哪。这些实际问题不解决，代理式商务就还停在 demo 阶段。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

07:28

33d ago

FEATUREDAI 群聊日报· atomZH07:28 · 05·16

Bloomberg数据显示AI高暴露岗位连续下降，技术文档编写职位下跌18%

Bloomberg 报道，BLS 标记的 18 个 AI 高暴露职业 2024-2025 年整体就业降 0.2%，同期全美增 0.8%。Technical writer 跌 18%，图形设计师跌 7.7%，客服跌 4.8%。群友感叹“居然现在才开始减”，并预测 UI 翻译师也快没了。Anthropic 周五惊喜全员重置了 Claude Code 的 5...

#Agent#Code#Tools#Bloomberg

精选理由

HKR三项都达标，但这是群聊二手汇总，不是Bloomberg原文或Anthropic官方公告。具体数字让内容有用，但信源权威性弱，所以分数卡在60-71区间。

一句话点评

技术文档写作岗一年跌18%，这个跌幅比想象中来得更猛，但群友说“居然现在才开始减”，说明业内早有预期。

锐评

Bloomberg 引用 BLS 数据，18 个 AI 高暴露职业在 2024 到 2025 年整体就业降了 0.2%，同期全美就业是涨了 0.8% 的。如果把逆势涨了 15.8% 的医疗秘书剔除，降幅直接扩大到 1.6%。最扎眼的是技术文档写手，一年少了 18.1%，平面设计师也跌了 7.7%。群聊里有人解释，这类岗位很多是润色工程师给的素材，AI 现在干这个活“像模像样”，替代起来很快。不过，这组数据只覆盖了 18 个职业，不能代表整个白领就业市场。而且报道没披露样本量和统计口径，我们不知道这个“高暴露”标签具体怎么打的。另外，被替代的人去了哪、收入降了多少，正文也没给。群友提到一个概念叫“平庸技术”，意思是 AI 省了人但没带来生产力飞跃，被挤出去的客服可能去送外卖，总产出没涨，钱却更集中到资本手里。这个视角比单纯看就业数字更有嚼头，但同样缺实证。我会先打个折：18% 的跌幅很惊人，但它是单一岗位的极端值，不能直接外推到所有知识工作。更值得盯的是连续两年下降这个趋势，以及剔除医疗秘书后 1.6% 的降幅——说明 AI 的替代效应在局部已经跑起来了，只是还没扩散成全面冲击。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:19

33d ago

FEATUREDr/LocalLLaMA· rssEN07:19 · 05·16

Qwen3.6-35B-A3B 和 9B 登上 Terminal-Bench 2.0 公开榜，小模型在硬核智能体测试里能跑分了

Qwen3.6 的两个新尺寸上了 Terminal-Bench 2.0 的公开排行榜。搭配 little-coder 这套脚手架（给模型加了一套在终端里干活的外壳），35B-A3B 版本跑出 24.6%（±3.2），压过了 Gemini 2.5 Pro 在 Gemini CLI 上的 19.6% 和 Qwen3-Coder-480B 在 Terminu...

#Agent#Code#Benchmarking#Qwen

精选理由

Qwen3.6-35B-A3B 在 Terminal-Bench 2.0 上拿了 24.6%±3.2，比 Gemini 2.5 Pro 在 Gemini CLI 下的 19.6% 和自家 480B 大模型的 23.9% 都高。35B-A3B 这种规模能打，说明小模型做终端 agent 有戏，部署成本会友好很多。不过这是 Reddit 帖子，只贴了排行榜数字，测试怎么跑的、能不能复现，正文都没说。分数本身有参考价值，但别急着当定论，先打个折看。

一句话点评

Qwen3.6-35B-A3B 靠一套终端脚手架在 Terminal-Bench 2.0 上跑赢 Gemini 2.5 Pro，但 24.6% 的分数说明这任务对谁都不简单。

锐评

Qwen3.6 的两个新尺寸上了 Terminal-Bench 2.0 排行榜，搭配 little-coder 这套脚手架（给模型加了一层在终端里直接敲命令干活的外壳），35B-A3B 版本跑出 24.6%（±3.2），压过了 Gemini 2.5 Pro 在自家 Gemini CLI 上的 19.6% 和 Qwen3-Coder-480B 的 23.9%。9B 小模型也拿了 9.2%，虽然不高，但至少证明 10B 以下的本地模型在这种硬核任务上不是零分选手。分数本身要打个折。24.6% 意味着大部分任务还是没搞定，而且 ±3.2 的波动不算小，说明稳定性有待验证。另外，正文没披露测试的具体任务分布和失败模式，也不知道 little-coder 这套脚手架本身对分数的贡献有多大——换一个外壳会不会结果差很多，这点还不清楚。对本地部署的人来说，35B-A3B 这个尺寸能在消费级硬件上跑，还能在终端自动化这种实用场景里跟闭源大模型掰手腕，是个值得跟进的信号。但别急着下结论，等更多独立复现和不同脚手架下的对比出来再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:44

33d ago

FEATUREDAI HOT 精选· aihot-apiZH06:44 · 05·16

Notion推出开发者平台提供CLI工具和Agent功能

Notion 正式上线开发者平台，核心是 Notion CLI 终端工具、Workers 计算服务、数据库同步以及 Agent 工具和 API。说白了就是让开发者能在 Notion 里直接跑代码、连外部数据、搭自动化流程。未来还打算让非开发者也能用 AI Agent 在 Notion 上建应用。不过正文没披露定价、开放范围或上线时间表，想用的话还得等具...

#Agent#Tools#Notion#Product update

精选理由

这是一个中等体量的产品更新：HKR三项都沾边，但正文只列了组件清单，没披露定价、开放范围和上线时间。压到低档位，放all不推featured。

一句话点评

Notion 把内部用的开发工具开放出来了，让外部程序能直接读写和触发工作区里的内容，但具体能省多少开发时间正文没给数。

锐评

Notion 这次发布的开发者平台，核心是把原本封闭的工作区变成可编程的底座。它提供了命令行工具（CLI）、后台任务（Workers）、数据库同步、Webhook 触发，以及让 AI 智能体（Agent）直接操作 Notion 的接口，包括 MCP 和外部 Agent API。简单说，以前你只能在 Notion 里手动整理信息，现在可以让外部程序或 AI 自动往你的文档和数据库里读写数据、响应事件。这对 AI 从业者有个直接好处：Notion 可以作为 AI 工作流里的“记忆层”或“任务面板”。比如让 Agent 把执行结果写进数据库，或者用 Webhook 触发一个自动化流程。但正文没披露这些接口的调用限制、延迟和成本，也没说 Workers 的执行环境有多强。如果只是简单的 HTTP 触发，那跟 Zapier 那类工具有重叠；如果能跑复杂逻辑，才算真正把业务流程搬了进去。目前信息来自 Product Hunt 的发布页，属于官方宣传口径，缺少实际开发者反馈和性能数据。建议等有人踩过坑、测过稳定性再判断是否值得把核心流程押上去。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:31

33d ago

● P1新智元 · 公众号· rssZH06:31 · 05·16

OpenAI大规模重组由总裁Brockman主导

标题说 OpenAI 大规模重组，总裁 Brockman 掌权。但正文只显示微信验证页，没披露重组范围、汇报线、涉及团队、决策过程和时间表。信息缺口很大，目前只能当传闻看。

#OpenAI#Brockman#Personnel

精选理由

硬排除-零信源：标题声称OpenAI大规模重组，但正文没有任何可验证的组织事实，连正文本身都不存在。H和R通过，但K不通过，不能作为重大人事新闻打分。

一句话点评

OpenAI 总裁 Brockman 亲自接管产品，要把所有 AI 代理业务整合成一个平台。这轮高管换血说明他们急了，但正文没披露具体产品路线图，先别太激动。

锐评

OpenAI 又换高管了，这次是联合创始人兼总裁 Greg Brockman 亲自下场抓产品，目标是把公司所有“让模型进业务流程干活”的 AI 代理业务，整合成一个统一的平台。从 The Verge 的报道看，Brockman 在内部备忘录里明确说要“投资单一代理平台”，这基本等于承认之前多条业务线各自为战，现在要集中火力。这次调整的背景是 AI 代理领域的竞争已经白热化，谷歌、Anthropic 都在猛推类似产品。OpenAI 频繁换将，说明他们对目前的推进速度不满意。但报道里没提这个新平台具体长什么样、什么时候上线、跟现有的 ChatGPT 插件或 Assistant API 是什么关系。这些关键信息都缺着，所以这次重组到底是真能提速，还是又一次内部权力洗牌，现在下不了判断。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

100

SCORE

H1·K0·R1

04:04

33d ago

● P1量子位 · 公众号· rssZH04:04 · 05·16

阿里健康发布医疗AI青灵子接入BMJ十年期刊文献

阿里健康发布了一款叫“青灵子”的医疗 AI，目标用户是中国 500 万医生。它直接拿了 BMJ 集团旗下 70 本期刊过去十年的全文内容做知识底子，不是只搜摘要。回答问题时，模型会按 PICO 框架（把临床问题拆成患者、干预、对照、结局）和 GRADE 证据分级来走流程，相当于先框定问题结构再给答案，而不是自由发挥。产品还拉了 300 多位临床专家做审...

#RAG#Reasoning#Safety#Alibaba Health

精选理由

阿里健康把BMJ的期刊库直接做成回答的证据底座，再用临床专家评审兜底，等于在“模型胡说”和“医生不敢用”之间加了一层硬约束。正文没披露评审通过率、更新频率和实际延迟，这些会直接影响医生愿不愿意买单。我会先打个折：方向对，但落地效果还得看真实诊疗场景的反馈。

一句话点评

阿里健康推了个叫“青灵子”的医疗AI，主打卖点是接了BMJ十年期刊文献当证据源，但正文没披露具体评测数据和临床验证结果，这点先别太激动。

锐评

这条新闻的核心卖点是“证据源”——阿里健康的医疗AI“青灵子”直接接入《英国医学杂志》（BMJ）过去十年的期刊文献，想用顶级循证证据把自己和市面上其他医疗大模型区分开。机器之心那篇稿子提到一个数字：有医生88天登录了193次，想说明产品粘性高，但样本量只有一个人，完全不能代表500万中国医生的使用情况。两篇报道都来自科技媒体，不是医疗专业期刊或第三方评测机构，所以目前只能看到厂商宣传的“独家合作”和“顶级证据”，看不到任何关于回答准确率、误诊率、科室覆盖范围的独立验证数据。医疗AI最要命的就是安全性和可靠性，光说接了BMJ不够，得说清楚模型在真实问诊场景下到底表现怎么样。还缺几个关键信息：第一，BMJ文献是实时更新还是定期导入，更新延迟多久；第二，模型是通用大模型加RAG（外挂资料库）方案，还是专门用医学数据训练过；第三，有没有做过和医生诊断的对照实验。这些没披露之前，只能把它当成一个“声称有更好资料来源的医疗问答工具”，离“神助攻”还有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:04

33d ago

FEATURED量子位 · 公众号· rssZH04:04 · 05·16

浙大和微软用3000条纯文本提示词，让视频生成模型学会理解3D空间

浙大和微软搞了个叫 World-R1 的方法，拿 Wan 2.1 模型做实验，只用了大概 3000 条纯文本提示词，没加任何 3D 标注数据，就让模型生成的视频在空间一致性上好了不少。他们设计了一套叫 Flow-GRPO 的训练流程，外加四个维度的奖励信号来引导模型。1.3B 参数量版本跑出来的 PSNR 指标比原版高了 10.23 dB，说明画面里的...

#Multimodal#Vision#Alignment#Zhejiang University

精选理由

我会先打个折：正文没披露这3000条文本的具体来源和构造方式，也没说四维奖励里各维度的权重怎么定，所以效果能不能稳定复现还得看后续。但亮点很实在——不用费劲标视频数据，纯靠文本就让 Wan 2.1 的 1.3B 小模型在 PSNR 上跳了10.23 dB，说明用偏好对齐的思路（Flow-GRPO）去修视频里的物理一致性，这条路走得通而且成本低。对想低成本改进视频模型物理合理性的团队来说，这个方向值得跟。

一句话点评

浙大和微软用3000条纯文本提示词，没加任何3D标注，就让视频模型的空间一致性好了不少，但正文没披露验证环境，这点先别太激动。

锐评

这条研究走的是“用文本教模型理解3D”的路子，不是靠堆3D标注数据。他们拿 Wan 2.1 做实验，设计了一套叫 Flow-GRPO 的训练流程，外加四个维度的奖励信号来引导模型，只用了大概3000条纯文本提示词。1.3B 参数版本跑出来的 PSNR 指标比原版高了 10.23 dB，说明画面里的物体运动、遮挡关系这些“穿帮”问题确实有改善。不过得打个折。文章本身因为环境异常没抓到完整正文，具体实验设置、测试集规模和对比基线都看不到。PSNR 涨了 10 dB 听起来很猛，但不知道是在什么分辨率、什么场景下测的，也不知道大尺寸模型上效果能不能复现。另外，纯文本提示词怎么挑的、有没有覆盖足够多样的运动类型，这些都没披露。如果这 3000 条提示词真能稳定提升空间一致性，那对视频生成的成本控制是个好消息——不用花大价钱标3D数据了。但现阶段缺验证细节，只能当个有意思的方向看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:04

33d ago

FEATURED量子位 · 公众号· rssZH04:04 · 05·16

Codex 接上 HeyGen 插件，用自然语言就能生成和剪辑数字人视频

OpenAI 的 Codex 现在能直接调用 HeyGen 插件，你给它一段文字指令，它就能生成带数字人、字幕的视频，还能做剪辑。文章里测了一个大概一分钟的数字人视频，试了把 10 秒后的内容剪掉，以及删掉第 8 秒的一次眨眼动作。正文没披露生成延迟和具体成本，也没说剪辑精度到底有多高，所以“不用开剪辑软件”这个说法先打个折看。

#Agent#Tools#Code#Codex

精选理由

我会先打个折：这只是 Codex 接了一个 HeyGen 插件，不是模型或平台级发布，所以分数卡在 74 这个 featured 区间。文章好处是给了三个带时间点的实测，不是纯吹牛，能看出它能干什么、干得怎么样。正文没披露生成延迟和失败率，这点先别太激动。整体对做 agent 和工具链的人有参考价值，但范围就一个插件工作流，别当成视频剪辑要被颠覆了。

一句话点评

Codex 能直接调 HeyGen 插件剪视频了，但正文没给延迟和成本，剪辑精度也没说，先别急着删 PR。

锐评

OpenAI 的 Codex 现在能直接调用 HeyGen 插件，你给它一段文字指令，它就能生成带数字人、字幕的视频，还能做剪辑。文章里测了一个大概一分钟的数字人视频，试了把 10 秒后的内容剪掉，以及删掉第 8 秒的一次眨眼动作。这个流程确实省了打开剪辑软件的步骤，但正文没披露生成延迟和具体成本，也没说剪辑精度到底有多高。比如“删掉眨眼”这种操作，如果只是粗剪还行，要是需要逐帧精准定位，目前的信息还判断不了它能不能替代专业工具。另外，整个链路依赖 Codex 调用外部插件，网络抖动或插件挂掉会直接影响可用性，这点文章也没提。我会先打个折看：它更像一个快速出片的原型工具，适合做 demo 或社交媒体短视频，但离“让剪辑软件瑟瑟发抖”还有距离。还缺的是多轮修改的稳定性测试、长视频处理能力，以及和手动剪辑的成品对比。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

34d ago

● P1Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·16

OpenAI通过Plaid让ChatGPT接入银行账户

ChatGPT 在美国向 Pro 用户开放了个人理财功能预览，通过 Plaid 连接银行账户后，能读取余额、交易记录和投资持仓，回答消费和储蓄问题。文章指出，OpenAI 的隐私承诺存在两个关键缺口：理财对话未被列入广告敏感话题排除清单，意味着消费和贷款讨论可以触发广告匹配；财务数据的模型训练默认是 opt-in，用户需主动关闭。作者认为，这个功能的主...

#Tools#OpenAI#Plaid#ChatGPT

精选理由

我会先打个折：正文只说了 OpenAI 通过 Plaid 让 ChatGPT 连接银行账户，没披露上线时间、授权流程和可访问的数据范围，所以这更像一个信号而不是一个可评估的产品更新。但信号本身够强——让模型直接碰银行数据，权限和安全的坑一个都不少，从业者看到标题就会想点进去看细节。HKR 三项都踩中了，只是信息缺口把分数压在 featured 档，没往上走。

一句话点评

ChatGPT 要接你的银行账户了，用的是 Plaid 这个中间人，能看余额和流水但不能转账。

锐评

OpenAI 给 ChatGPT 开了个新口子：通过 Plaid 直接读你的银行账户数据。Plaid 就是那个很多金融 App 背后负责安全连接银行的中间件，所以技术上不是 OpenAI 自己存你的密码，而是你授权 Plaid 把只读数据喂给 ChatGPT。能看余额、信用卡欠款、交易记录，但碰不了钱，没法转账或支付。这件事的逻辑跟之前接健康数据一样——让模型拿到更私密的个人上下文，回答才能更贴你本人。比如你问“我能不能买这个沙发”，它能直接扫一眼账户说“你信用卡还欠着八千，建议下个月再说”。但正文没披露这些财务数据会不会被 OpenAI 用来训练模型，也没说数据在服务器上留多久。隐私政策这块目前是空的，这点先别太激动。对从业者来说，这等于把 AI 助手往“个人 CFO”方向推了一步，但信任门槛比健康数据还高。银行账户是多数人最敏感的数字资产，一次数据泄露的代价远大于推荐错一家餐厅。OpenAI 能不能让用户放心把账本交出来，比技术接没接通更重要。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

34d ago

● P1OpenAI 博客· rssEN00:00 · 05·16

OpenAI与马耳他合作向全体公民提供ChatGPT Plus

OpenAI 与马耳他政府宣布全球首个国家级合作：所有公民完成马耳他大学开发的 AI 素养课程后，可免费获得一年 ChatGPT Plus。课程教 AI 能做什么、不能做什么、怎么用，不设背景门槛。第一阶段 2026 年 5 月启动，由马耳他数字创新局负责分发。正文没披露覆盖多少人口、政府是否承担成本、以及课程具体时长。

#Tools#Safety#OpenAI#Malta

精选理由

HKR-H/K 通过：国家级 ChatGPT Plus 分发是一个真实的分发信号。HKR-R 偏弱，因为正文缺少覆盖人数、费用分摊、上线日期或采购矛盾，所以这条归入普通合作类。

一句话点评

马耳他成了全球第一个全民免费领 ChatGPT Plus 的国家，但得先上完 AI 素养课才能用一年。

锐评

OpenAI 和马耳他政府合作，给所有公民发一年免费 ChatGPT Plus，条件是先完成马耳他大学设计的一门 AI 素养课。这更像一次国家级的付费获客实验：用课程筛选用户，用补贴培养使用习惯。马耳他人口不到 60 万，成本可控，适合跑通“政府买单、全民普及”的模式。OpenAI 也借机把“智能像水电一样变成公共设施”的说法落地了一次。不过，正文没披露 OpenAI 给马耳他的具体价格，也没说一年后公民是否要自己续费、数据隐私条款有没有特殊安排。课程内容、完成率和实际使用数据也都没给。这些缺口让“全民普及”的效果暂时没法验证。另外，OpenAI 提到已在爱沙尼亚、希腊做教育合作，马耳他这次是把范围从学校扩到全体公民。如果后续能公布续费率、使用频次和课程通过率，才能判断这是真普及还是品牌活动。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

热点聚合 · 2026-05-16

更多

频道

后台