热点聚合 · 2026-06-02

▸ 58 signals · updated 3m ago

live · 238 today·policy v2

AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

126 212 320 419 542 632 749 826 923 1017 1136 1248 1337 1454 1539 1630 1719 1849 1976 2045 2148 2249 2313 2415 2520 2637 2744 2848 2935 3022 3114

2026年6月

一二三四五六日

147 258 348 447 545 619 715 852 945 1031 1128 1221 1313 1415 1524 1635 1726 1824 1912021222324252627282930

2026-06-02 · 星期二2026年6月2日

23:02

16d ago

● P1FT · 科技· rssEN23:02 · 06·02

英国议员呼吁政府限制Palantir在NHS数据系统中的角色

英国下议院科技委员会直接建议政府，启动 NHS 合同里的中断条款，把 Palantir 从国家数据基建的核心位置挪开。议员们担心这家美国公司对敏感公共数据的控制太深，但正文没披露合同金额、期限，也没说清楚 Palantir 目前在 NHS 系统里到底管到哪一层。

#Palantir#UK Parliament#NHS#Policy

精选理由

HKR 三项全中：FT 报道、NHS 合同、Palantir 和公共数据冲突，话题够硬。正文只披露了委员会施压，没写合同金额、期限和 Palantir 具体能碰哪些数据，信息有缺口，所以放在 featured 偏低的位置。

一句话点评

英国议员直接点名，让 Palantir 别在 NHS 数据系统里当主角，这笔 3.3 亿英镑的合同正面临政治阻力。

锐评

英国议会一个跨党派委员会发报告，认为 Palantir 不该在英国公共数据基础设施里扮演“重要角色”，矛头对准的是 NHS 那笔 3.3 亿英镑（约 4.45 亿美元）的合同。议员担心的是，把全国最敏感的医疗数据交给一家美国科技公司长期运营，会锁死供应商、削弱公众信任。报告没说要立刻废约，但态度很明确：政府得把数据控制权攥在自己手里，不能依赖单一商业平台。目前两篇报道都来自付费墙媒体，看不到报告原文和 Palantir 的正式回应。议员具体建议用什么替代方案、合同有没有退出条款，正文都没披露。另外，NHS 内部对这套系统的实际使用反馈也完全没提——是确实不好用，还是纯粹出于地缘政治和数据主权的顾虑，这点先别急着下判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:00

16d ago

● P1NVIDIA 博客· rssEN22:00 · 06·02

NVIDIA 发布 NemoClaw 框架为工业软件部署安全自主 AI 代理

NVIDIA 在 GTC 台北上展示了 NemoClaw，一个能让 AI 模型像安全的长跑代理一样，自动跑通 CAE（计算机辅助工程）和 EDA（电子设计自动化）工作流的框架。Cadence 用它演示了 RTL 验证——一个原本需要几周的芯片数字电路设计关键步骤，现在缩短到几小时。说白了，就是让模型进业务流程干活，而且能长时间稳定运行，不出安全岔子。

#Agent#Tools#Code#NVIDIA

精选理由

HKR三项都过，但来源是NVIDIA自家博客，内容偏向产品合作宣传；没有独立基准测试、定价或可复现的配置信息，所以不上精选。

一句话点评

NVIDIA 给工业软件厂商发了一套叫 NemoClaw 的工具箱，让他们能自己搭会干活的 AI 工程师，但正文没给出任何实际部署数据或客户案例。

锐评

NVIDIA 这次发布的 NemoClaw 不是一个现成的 AI 产品，而是一套给工业软件厂商用的开发框架，目标是让他们能在自己的软件里嵌入能自主执行任务的 AI 代理——比如自动做仿真、调参数、出报告。官方博客点名了 Ansys、Cadence、Siemens 这几家巨头都在用，但没披露任何一家具体怎么用、效果如何。框架主打两点：一是安全，强调 AI 代理的操作权限可以被精细控制，不会在工业环境里乱来；二是自主，代理能自己拆任务、调工具、走完整个工程流程。这听起来比简单的聊天机器人进了一步，相当于让模型直接进业务流程干活。但整篇博客都是能力描述，没有性能基准、没有延迟数据、也没有客户自己的验证结论。对从业者来说，这条消息的价值在于确认了 NVIDIA 在工业 AI 代理这个方向上的产品化动作，但现阶段还缺最关键的东西：实际跑起来的案例和量化结果。如果只是框架发布而没有落地证据，先当路线图看比较稳妥。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:34

16d ago

FEATUREDAI HOT 精选· aihot-apiZH21:34 · 06·02

Google DeepMind 在 GitHub 开源了一个给科研智能体用的工具包，叫 Science Skills

这个工具包专门用来搭科学发现场景里的自主智能体，让模型能跑科研流程。官方说它有两个好处：一是针对科学任务做了基础能力封装，二是 token 效率更高，也就是调用大模型时可能更省 token、更省钱。不过正文没披露开源协议、具体跑分数据，也没给出 token 节省量的数字，所以实际能省多少、效果怎么样，还得自己跑跑看。

#Agent#Tools#Google DeepMind#Open source

精选理由

这条消息有明确的开源动作和落地载体，对做智能体的人有参考价值。我会先打个折：正文没写许可证、没给基准测试结果，也没提 token 效率或成本数字，所以没法判断实际好用程度和复用门槛。这点先别太激动，等后续有实测数据再看。

一句话点评

Google DeepMind 把做科研智能体的工具包开源了，主打省 token，但具体能省多少、跑分怎么样正文全没给，先别太激动。

锐评

Google DeepMind 在 GitHub 上放出了一个叫 Science Skills 的工具包，专门用来搭科学发现场景里的自主智能体，也就是让模型自己去跑科研流程。官方强调了两点：一是针对科学任务做了基础能力封装，不用从零写；二是 token 效率更高，调用大模型时可能更省 token、更省钱。但这条消息的信息缺口很大。正文没披露开源协议是什么，也没给出任何 benchmark 数据或 token 节省量的具体数字。省 token 这件事，省 5% 和省 50% 完全是两个概念，没有数字就只能当个方向看。另外，工具包到底覆盖哪些科学领域、对模型有什么要求、跟现有的 agent 框架比有什么差异，这些也都没提。对想试试的人来说，代码已经可以下载了，但效果得自己跑一遍才知道。如果团队正好在做科研自动化的工作流，值得拉下来看看封装思路；如果只是观望，等社区出实测数据再判断也不迟。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:16

16d ago

● P1AI HOT 精选· aihot-apiZH21:16 · 06·02

Claude Code支持动态工作流，可并行协调多个子代理执行任务

Claude Code 新增了动态工作流，核心是让它在运行时执行 JavaScript 文件，按需创建并协调多个子代理（subagent）。每个子代理有自己的上下文窗口，互不干扰，可以同时跑研究、安全分析和代码审查这些任务。官方举的例子是让一个子代理查漏洞、另一个审代码逻辑，主代理最后汇总结果。正文没披露子代理数量上限和额外费用怎么算，这点先别太激动。

#Agent#Code#Tools#Anthropic

精选理由

HKR 三项全中：Claude Code 用运行时 JS 编排带独立上下文的子代理，这是个实打实的新功能。Anthropic 的品牌有加分，但这次是功能更新而非模型或平台级发布，所以分数落在 78–84 区间。正文没提具体性能数据和价格变化，这点先别太激动。

一句话点评

Claude Code 现在能自己拆任务、派给多个子代理并行干活了，但官方没给性能对比数据，实际提速多少还得自己测。

锐评

Anthropic 给 Claude Code 加了个动态工作流能力，简单说就是模型接到一个复杂任务后，不再一条路走到黑，而是先分析任务结构，自动拆成几个子任务，然后同时启动多个子代理去并行执行。这比之前靠人写死流程或让模型一步步串行做要灵活得多。官方博客把这个机制比喻成“给每个任务定制一套马具”，意思是工作流不是预设模板，而是根据任务现场生成的。但正文没披露任何基准测试数据，比如并行后到底省了多少时间、token 消耗是增是减、子代理之间的协调失败率有多高。这些数字直接决定这个功能是真实用还是看着酷。另外，博客也没说子代理之间怎么通信、共享上下文，以及出错时怎么回滚。对开发者来说，这些实现细节比概念重要。建议等社区跑出实测数据再判断是否值得切过去。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:57

16d ago

● P1FT · 科技· rssEN19:57 · 06·02

特朗普签署AI行政令要求模型上线前接受政府审查

特朗普签署了一项力度被削弱的 AI 审查行政令，核心是让美国政府机构能提前拿到前沿 AI 模型进行安全评估。不过正文没披露具体的审查标准、覆盖多少模型，也没给执行时间表。这事是在 MAGA 内部吵了一架之后才落地的，所以最终版本比最初设想的要温和。

#Safety#Trump#US government#Policy

精选理由

FT 报了一条美国 AI 审查令，核心是让政府提前看前沿模型。我会先打个折：正文只说了“能提前接触”，没给审查标准、模型数量和落地时间，所以信息量有限。但“缩水版”和 Maga 内斗这两个点让政策故事有了冲突感，对从业者来说，政府提前介入意味着合规和发布节奏可能被卡，这点先别太激动，等具体细则出来再看。

一句话点评

特朗普签了份缩水版AI审查令，公司可自愿在模型上线前30天提交给政府做安全评估，不交也没事。起因是Anthropic的模型自己找出了几千个系统漏洞，把安全问题摆上了台面。

锐评

这份行政令说白了就是给AI公司开了个“自愿体检”通道，不是强制审批。和之前被拦下的版本比，最大的变化是把提交窗口从最长90天砍到了最多30天，监管力度明显打折。文件里特意写明“不构成准入许可”，算是给行业吃了定心丸，也符合特朗普政府一贯的宽松思路。政策转向的直接导火索是Anthropic今年4月推出的模型Mythos，它自己扫出了数千个高危系统漏洞，覆盖主流操作系统和浏览器。这个事让一贯淡化AI安全风险的白宫不得不做出回应。谷歌、微软和xAI已经同意在模型上线前让政府机构做安全核验，但整个机制目前全靠企业自觉。正文没披露如果企业不提交会有什么后果，也没说政府评估完发现问题后能做什么。行业机构已经在呼吁国会立法把这事变成强制要求，说明现在的自愿框架更像是一个表态，离真正管住还有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

19:41

16d ago

FEATUREDAI HOT 精选· aihot-apiZH19:41 · 06·02

Runway 把 Aleph 2.0 视频编辑放上 API，最长能改 30 秒 1080p 多镜头片段

Runway 的 Aleph 2.0 视频编辑功能现在可以通过 API 调用了，你可以把它直接嵌进自己的应用或产品里。它支持对最长 30 秒、1080p 的多镜头视频做局部修改，只动你想改的那部分，其他画面不变。正文没提价格、调用频率限制、处理延迟和地区可用性，这些实际落地要用的信息都还没给。

#Multimodal#Vision#Tools#Runway

精选理由

Runway 是视频生成的核心玩家，Aleph 2.0 把局部视频编辑能力开放成 API，上限拉到 30 秒和 1080p。这是个实用的产品更新，不是模型级大版本发布，重要性中等偏上。

一句话点评

Runway 把视频局部修改能力做成 API 了，但价格、延迟、地区限制全没提，先别急着集成。

锐评

Runway 把 Aleph 2.0 的视频编辑能力开放成 API，意味着你可以把“只改画面里某一块、其他部分不动”的功能直接嵌进自己的产品里。它支持最长 30 秒、1080p 的多镜头视频，这个规格对短视频和广告素材够用，但长视频或更高画质的需求还覆盖不了。正文只说了功能，没给任何落地关键信息：调用一次多少钱、每分钟能处理多少请求、从上传到出片要等多久、哪些地区能用。这些数据直接决定它能不能上生产环境。另外，局部修改的精度和一致性也没给样本或评测，实际效果得自己测。如果你在做视频工具或内容管线，这条值得跟进，但现阶段只能当技术预览看。等 Runway 放出定价和 SLA 再评估集成成本会更靠谱。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:02

16d ago

FEATUREDTechCrunch AI· rssEN19:02 · 06·02

微软开源框架ASSERT，用自然语言描述自动生成AI行为测试

微软发布了一个叫 ASSERT 的开源框架，让开发者直接用自然语言写测试要求，就能自动生成一套评估 AI 行为的考题和回归测试。正文没披露它具体支持哪些模型、打分指标怎么算，也没提使用限制。

#Benchmarking#Safety#Microsoft#Product update

精选理由

我会先打个折：正文没披露这个框架支持哪些模型、具体用什么指标、以及跑起来的硬件或环境要求，所以实际能省多少事还不好说。但方向本身挺对——让开发者用自然语言写测试意图，而不是手搓脚本，确实能降低回归测试的门槛。微软把它开源出来，至少说明不是内部玩具。这点先别太激动，等看到跑分和兼容性再判断值不值得集成。

一句话点评

微软开源了ASSERT，让你用大白话写测试规则就能自动给AI挑错，不用再手写一堆测试用例。

锐评

微软把ASSERT开源了，这个框架的核心思路是：你直接用自然语言描述“我的AI应该怎么表现”，它就能自动生成测试并打分。对开发者来说，这省掉了手写测试用例的麻烦，尤其适合那些需要频繁更新模型、又怕新版本出幺蛾子的场景。不过，目前公开的信息里没看到它在复杂业务场景下的表现数据。比如，当你的规则有几十条甚至上百条，或者规则之间互相矛盾时，它还能不能稳定工作？另外，用自然语言写规则虽然门槛低，但描述得不够精确时，测试结果会不会时好时坏？这些正文都没提。我的判断是，这个工具对中小团队快速搭建测试流水线很有吸引力，但大厂在关键业务上可能还是会自己搞一套更可控的方案。先别急着全盘替换现有测试流程，拿它当辅助检查工具试试水更稳妥。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:00

16d ago

● P1NVIDIA 博客· rssEN19:00 · 06·02

NVIDIA与Microsoft发布统一Agentic AI部署技术栈

微软 Build 大会上，两家宣布把 AI 部署的底层打通了。简单说，就是同一个 AI 应用，既能在你笔记本的 RTX 显卡上跑，也能无缝切到 Azure 云或者公司本地的 DGX 工作站上，不用重写代码。现场还亮了两款新硬件：RTX Spark 是个小盒子，能提供 1 petaflop 的 AI 算力（大概相当于每秒一千万亿次计算）；DGX Stat...

#Agent#Inference-opt#Safety#NVIDIA

精选理由

HKR 三项都过了。NVIDIA 和微软这次合作，把 agent 部署从 Windows 到 Azure 再到本地串成一条线，还亮出了 1 petaflop 和 20 petaflops FP4 两个硬件规格，对从业者来说有信息增量。不过消息源是厂商自己，正文没给定价、跑分和迁移细节，所以分数没往上拉。

一句话点评

NVIDIA 和微软联手搞了一套统一技术栈，让同一个 AI 智能体能在 Windows 电脑、云端和本地 DGX Spark 上跑，不用重写代码。

锐评

这条消息的核心是“一次开发，到处部署”。NVIDIA 和微软把各自的家底拼在一起：微软提供 Windows 上的 AI 运行时和开发工具，NVIDIA 提供从 RTX 显卡到 DGX Spark 小主机的本地算力。对开发者来说，最直接的好处是省事——不用为不同环境维护三套代码。但正文没给出具体的性能对比数据，比如同一个智能体在云端和本地跑，延迟差多少、功耗如何。也没说这套统一栈对模型格式有什么限制，是不是只支持 NVIDIA 自家优化的模型。另外，本地跑智能体的安全更新被单独拎出来说，说明他们知道企业用户最担心数据泄露和权限失控。不过具体的安全机制（沙箱隔离、权限粒度）正文只提了概念，没展开。这点先别太激动，等后续的技术白皮书出来再看实际落地到什么程度。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:47

16d ago

FEATUREDHacker News 首页· rssEN18:47 · 06·02

微软 MAI-Code-1-Flash 用 50 亿活跃参数在 SWE-Bench Pro 上拿到 51% 的分数

微软新放出的 MAI-Code-1-Flash 是个代码模型，只激活 50 亿参数就在 SWE-Bench Pro（一个让模型修真实 GitHub 问题的测试集）上跑出 51% 的分数。这个成绩放在小模型里算亮眼，但正文没披露它是在什么评测设定下跑的、用了哪些训练数据、什么时候发布，也没说部署条件。所以这个 51% 我先打个折看——不知道是不是挑过题、...

#Code#Benchmarking#Microsoft#Benchmark

精选理由

HKR 三条都过，靠的是微软这个 5B 活跃参数拿 51% SWE-Bench Pro 的说法。但正文没披露评测设置、训练数据和发布时间，信息缺口明显，分数只能压在 72–77 这个区间。

一句话点评

微软这个代码模型只激活50亿参数就在SWE-Bench Pro上拿了51%，但正文没披露评测设定、训练数据和部署条件，这个分数我先打个折看。

锐评

微软放出的 MAI-Code-1-Flash 是个代码模型，只激活 50 亿参数就在 SWE-Bench Pro（一个让模型修真实 GitHub 问题的测试集）上跑出 51% 的分数。这个成绩放在小模型里算亮眼，但正文没披露它是在什么评测设定下跑的、用了哪些训练数据、什么时候发布，也没说部署条件。所以这个 51% 我先打个折看——不知道是不是挑过题、有没有用额外的工具辅助，或者测试环境跟别人不一样。 SWE-Bench Pro 本身是个比较硬的代码修复基准，能过一半说明模型在理解 issue、定位代码、生成补丁这条链路上有一定能力。但光一个数字不够，还得看它修的是哪些类型的 bug、修复质量怎么样、有没有反复提交才通过。这些信息目前都缺。另外，模型只激活 50 亿参数意味着推理成本可能比较低，适合本地跑或者批量处理。但正文完全没提内存占用、推理速度、是否开源、能不能商用，这些才是决定它能不能真用起来的关键。等微软把技术报告或者模型权重放出来再判断不迟。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:39

16d ago

FEATUREDHacker News 首页· rssEN18:39 · 06·02

微软发布 MAI-Thinking-1，一个主打复杂推理的中等成本模型

微软一口气发了七款 MAI 系列模型，这篇公告只重点介绍了 MAI-Thinking-1。官方说它擅长解决复杂问题，在 SWE-Bench Pro（一个测代码修改能力的榜单）上拿了高分，价格定在“中等权重”档位。但正文没披露参数量、具体跑分、定价细节和上线时间，所以实际性价比和落地表现还得等更多信息。

#Reasoning#Microsoft#Product update

精选理由

HKR 三条都踩中了：微软给模型起名 Thinking，又放出 7 个 MAI 模型，正好打在它和 OpenAI 若即若离的关系上，话题性够。但正文只说了发布，没参数、没评测、没时间表，信息密度很低，所以分数卡在 76 这个 featured 门槛上，没往上拉。

一句话点评

微软发了七款新模型，这篇只重点说了 MAI-Thinking-1，但正文没给参数量、跑分和定价，先当个预告看。

锐评

微软一口气推出七款 MAI 系列模型，这篇公告只挑了 MAI-Thinking-1 来介绍。官方说它擅长复杂推理，在测代码修改能力的 SWE-Bench Pro 上拿了高分，定价放在“中等权重”档位。但公告里没写参数量、具体跑分数字、每百万 token 多少钱，也没说什么时候能用上。这些信息缺口让实际性价比和落地表现没法判断。我会先打个折：SWE-Bench Pro 高分说明代码能力有亮点，但没对比其他模型、没给延迟数据，单看一个榜单不够。中等定价听着不贵，可没数字就没法跟同类模型比。想认真评估的话，得等微软放出技术报告或开放 API 后再看实测。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:27

16d ago

FEATUREDAI HOT 精选· aihot-apiZH18:27 · 06·02

Claude Platform 推出命令行工具，终端里直接跑 API 和托管智能体

这个 CLI 工具把 Claude Platform 的所有 API 端点都搬到了终端里。你可以直接在命令行调用 Messages API、启动 Claude 托管的智能体，然后把返回结果用管道传给 shell 做后续处理。官方提到，用 Claude Code 这类编码智能体来理解这个 CLI 也没问题。正文没披露性能开销或额外费用，实际用起来会不会增...

#Agent#Tools#Code#Claude

精选理由

Claude Platform CLI 在 HKR 三项上都站得住，是个实用的开发者工具更新。不过公告只给了能力范围，安装流程、权限控制、安全限制和定价都没提，我会先打个折——实际落地好不好用，还得看这些缺口怎么补。

一句话点评

Claude 出了个命令行工具，把 API 全搬进终端，能直接调模型、启智能体，结果还能用管道扔给 shell 接着处理。但正文没提性能开销和是否额外收费，实际用起来会不会卡、贵不贵，得自己试。

锐评

Anthropic 给 Claude Platform 加了个 CLI，等于把网页上能调的所有接口都做成了命令行版。你可以在终端里直接发消息、启动 Claude 托管的智能体，然后把返回结果用管道传给其他 shell 命令做后续加工——比如自动整理数据、批量跑脚本。官方还特意提了一句，用 Claude Code 这种编码智能体就能看懂这个 CLI，说明他们想让开发者把 AI 直接嵌进自己的工作流里，而不是切来切去。不过，这条消息来自 RSS 摘要，信息量很薄。正文没披露这个 CLI 会不会增加额外的调用延迟，也没说走 CLI 调 API 是不是和网页端一样计费。如果管道处理大量数据，网络开销和费用可能比想象中高。另外，它到底支持哪些 shell 环境、错误处理做得怎么样，这些都没提。对天天泡在终端的开发者来说，这工具能省不少事，但别急着把它当主力管线。先拿小任务跑跑看延迟和账单，确认稳定了再往生产环境里接。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:19

16d ago

● P1Hacker News 首页· rssEN18:19 · 06·02

Microsoft 发布 Scout 自主 AI Agent 基于 OpenClaw 框架

微软在 Build 大会上推出了 Scout，一个基于 OpenClaw 框架的“自动驾驶”式 AI 代理。它拥有独立的 Entra 身份，可以全天候自动执行 Microsoft 365 里的任务，比如处理邮件、安排会议、整理文档。正文没有披露 Scout 的具体能力边界、发布时间、定价或部署条件，所以目前只能知道它是个“一直在线、替你干活”的代理，但...

#Agent#Microsoft#OpenClaw#Product update

精选理由

HKR-H 和 HKR-R 靠微软 Agent/OpenClaw 平台钩子通过，但 HKR-K 不通过——RSS 正文没给任何功能、时间线或部署条件。分数卡在 60–71 低段合理。

一句话点评

微软把年初爆火的开源项目 OpenClaw 包装成了 M365 里的个人助手 Scout，让它能记住你的工作习惯并持续干活。

锐评

微软这次动作很快，直接把 OpenClaw 这个年初在圈内炸开的自主 agent 框架做成了产品。Scout 的核心卖点是“持久化”——它会记住你的工作偏好和反馈，慢慢变成你的专属助手，而不是每次对话都从零开始。从 VP 的表述看，微软想让它融入 M365 生态，在办公场景里自动处理任务。不过文章只提了概念和一次 demo 体验，没给任何性能数据、错误率或者实际能自动完成哪些具体工作。OpenClaw 当初火是因为它够野、够开放，但也出过乱搞用户邮箱的事故。微软把它收进企业套件里，安全边界和权限控制怎么做，正文完全没提。这点先别太激动，等看到它能稳定处理报销单或者排日程而不翻车，再判断它是不是真有用。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

18:16

16d ago

FEATUREDFT · 科技· rssEN18:16 · 06·02

Anthropic 要把网络安全模型 Mythos 推到 15 个以上的国家

Anthropic 计划将 Mythos 这个专门做网络安全的模型开放给更多地区，覆盖超过 15 个国家，大约 150 家机构会用上。正文被付费墙挡住了，没披露具体是哪些国家、什么时候开始、以及模型本身的技术细节或效果数据。

#Safety#Anthropic#Mythos#Product update

精选理由

HKR 三项都过。Mythos 扩张有具体数字和地缘安全话题性，但正文只给了接入范围，没提能力细节、具体国家名单或使用条款，所以放在 featured 低分段。

一句话点评

Anthropic 要把网络安全模型 Mythos 推到 15 个以上国家，约 150 家机构能用上，但正文被付费墙挡了，没写具体是哪些国家和模型效果。

锐评

这条消息本身挺直接：Anthropic 在给自家安全模型 Mythos 铺渠道，从之前的小范围测试扩大到 15 个以上国家、约 150 家机构。对做企业安全的团队来说，这算一个信号——以后选安全方向的模型可能多一个选项。但能说的也就这么多。FT 这篇正文完全被付费墙挡住，我们看不到任何技术细节、实际检出率、误报率，也不知道这 150 家机构是付费客户还是合作试点。更关键的是，没披露具体是哪些国家，如果主要覆盖的是五眼联盟，那跟“全球扩张”还是两码事。所以这条先当个业务动向看，别急着下判断。等有实际部署数据和第三方测评出来，再评估 Mythos 到底靠不靠谱。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:12

16d ago

● P1The Verge · AI· rssEN18:12 · 06·02

Microsoft发布首个高级推理AI模型MAI-Thinking-1

微软在 Build 2026 上推出了 MAI-Thinking-1，这是他们第一个自研的“高级推理”模型，定位为中等体量的旗舰。公司声称它在几项关键的软件工程基准测试上能打平顶尖模型，并且是从头用干净数据训练的，没有拿第三方模型做蒸馏。不过，具体参数量、推理成本、延迟和更多基准细节正文都没披露，所以实际水平还得等第三方跑分再看。

#Reasoning#Code#Benchmarking#Microsoft

精选理由

这条消息我会给 84 分，放在 featured 里。微软终于亮出自己的推理牌，MAI-Thinking-1 这个名字和“中型旗舰”的定位本身就值得从业者看一眼。文章说它在关键软件工程基准上匹配了领先模型，但没给具体分数、没提访问权限，也没说价格，所以先别太激动——有 benchmark 声明但缺数据，验证不了。HKR 三项全中：微软 vs OpenAI 的戏码有热度，模型名和基准声明够具体，推理+代码这个组合也戳中一线需求。信息缺口明显，所以分数没往上拉。

一句话点评

微软发了自家第一个推理模型 MAI-Thinking-1，还附了109页技术报告，没拿别家模型蒸馏，这点挺硬气。

锐评

微软在 Build 大会上正式推出了 MAI 系列模型，其中 MAI-Thinking-1 是他们的首款高级推理模型。最值得关注的是，微软发了一份 109 页的技术报告，明确说这个模型在训练时没有用任何合成数据，也没从第三方模型（比如 GPT 或 Gemini）那里做蒸馏，数据血缘很干净。这对于一个成立才两年的团队来说，是个挺实在的交代。模型本身定位在推理和软件工程任务上，同时发布的还有代码、图像、语音等另外六个模型，看得出微软想快速铺开一个自有模型矩阵。不过，目前公开的信息主要来自微软官方和社交媒体的正面反馈，缺少独立的第三方基准测试对比。报告里写了什么训练技巧、具体成本多少、推理延迟如何，这些关键细节正文都没展开。如果报告里的数据经得起推敲，那微软在“不靠蒸馏做推理模型”这件事上确实往前走了一步。但实际能力能不能对标现在市面上的头部推理模型，还得等更多人跑完测试再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

18:00

16d ago

● P1FT · 科技· rssEN18:00 · 06·02

微软发布新AI模型直接对标Anthropic

微软发布新模型，目标直指 Anthropic。AI 负责人 Mustafa Suleyman 说重点是企业用户。但正文被付费墙挡住，没披露模型名称、参数量、定价和发布时间，信息缺口很大。

#Microsoft#Anthropic#Mustafa Suleyman#Product update

精选理由

FT 来源和微软 vs Anthropic 的竞争角度支撑 HKR-H 和 HKR-R。HKR-K 不成立，因为模型名称、规格和时间都没披露，所以这条不上精选。

一句话点评

微软嫌 Anthropic 模型太贵，自己下场做平替，但新模型具体性能和成本数字都没公布，先别太激动。

锐评

微软 AI 负责人直接点名 Anthropic 的模型太贵，所以他们正在自研更便宜的替代品。这个动作很直白：与其一直给别家模型付高额调用费，不如自己做一个成本更低的，用在自家产品里。不过，目前公开信息里没有给出新模型的具体跑分、参数量，也没有对比 Anthropic 模型到底便宜了多少。FT 的原文被付费墙挡住，我们只能看到标题和摘要，核心的性能和定价细节都看不到。对从业者来说，这事的信号意义大于实际参考价值。它说明大厂在加速摆脱对单一外部模型供应商的依赖，但微软这个“平替”到底能不能打，还得等具体技术报告和定价出来再看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

18:00

16d ago

FEATUREDTechCrunch AI· rssEN18:00 · 06·02

微软给开发者发了份说明书，让 AI 代理的行为能按规矩来

微软发布了一份 AI 代理的行为规范说明书，让开发、合规和安全团队能把想让代理遵守的规则，写进可移植的策略文件里。正文没提版本号、开源协议、支持哪些开发框架，也没说什么时候正式上线。

#Agent#Safety#Tools#Microsoft

精选理由

我会先打个折：正文没披露版本号、开源协议和具体支持的框架，所以没法判断落地有多顺滑。但“可移植策略文件”这个机制本身是实在的，它让开发、合规、安全三拨人能用同一份文件定规矩，不用各说各话。对正在搭 Agent 的团队来说，规则能不能跨栈迁移是个真需求，这点先别太激动，但值得放进 featured 里提醒大家关注。

一句话点评

微软给AI代理出了份行为规范模板，让开发、合规、安全团队能把规则写进可移植文件里，但正文没提版本号、开源协议、支持框架和上线时间。

锐评

微软这份“代理行为规范说明书”本质上是一套可移植的策略文件格式，让不同团队把想让AI代理遵守的规则写进同一个地方。好处是合规和安全的人不用再追着开发改代码，规则可以独立维护、跨项目复用。但正文信息缺口很大：没说是开源还是闭源，没提支持哪些开发框架（比如Semantic Kernel、AutoGen还是第三方），也没给版本号和正式上线时间。我会先打个折——这更像一个方向性发布，离实际能用还有距离。对团队来说，如果真能落地，相当于给代理加了一层可审计的行为护栏，但前提是生态跟得上，否则就是个好看的文档模板。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:46

16d ago

FEATUREDr/LocalLLaMA· rssEN17:46 · 06·02

用 LiteRT 跑 Gemma 4 E4B，文字生成比 Q4 GGUF 快 2.4 倍，图片处理几乎没变

有人在 RTX 4060 Ti 16GB 上实测了 Gemma 4 E4B 模型。用 LiteRT 引擎跑文字生成，平均每秒能出 157.2 个 token，而用 llama.cpp 的 Q4 GGUF 格式只有 66.3 tok/s，快了大约 2.4 倍。不过图片标注任务就没这么乐观了：处理 111 张全分辨率图片，LiteRT 耗时约 72 秒，Q...

#Inference-opt#Vision#Tools#Google

精选理由

这是一篇个人在 Reddit 上发的实测，不是官方报告，权威性有限，所以分数没往上拉。但 H、K、R 三项都站得住：速度对比抓眼球，测试条件和数据都写清楚了，对想在自己机器上跑 Gemma 的人有直接参考价值。我会先打个折，因为只有单卡单次测试，没提功耗和精度变化，但作为一手体验已经够用。

一句话点评

RTX 4060 Ti 上跑 Gemma 4 E4B，用 LiteRT 引擎文字生成比 GGUF 快 2.4 倍，但图片处理几乎没差别。

锐评

这条实测对在本地跑小模型的人挺有用。作者用一张 RTX 4060 Ti 16GB 显卡，对比了 LiteRT 和 llama.cpp 的 Q4 GGUF 两种跑法。纯文字生成，LiteRT 跑到每秒 157.2 个 token，GGUF 只有 66.3，确实快了约 2.4 倍，延迟体感会好不少。但别急着全切过去——图片标注任务里，处理 111 张全分辨率图，LiteRT 耗时 72 秒，GGUF 约 80 秒，只快了 1.1 倍，基本算同一水平。要注意的是，这只是一个用户的单卡单次测试，正文没披露 prompt 长度、batch size 和精度细节，也没说显存占用对比。LiteRT 这个优势在长文本或并发场景能不能稳住，还不好说。另外原帖被 Reddit 挡了，信息来自转载摘要，没法核对评论区有没有翻车反馈。想跟的话，先在自己常用任务上跑一遍再决定。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:44

16d ago

● P1Hacker News 首页· rssEN17:44 · 06·02

Anthropic 将 Claude Mythos 部署至 15 国关键基础设施

Anthropic 周二宣布，把它的安全漏洞发现项目 Project Glasswing 和背后的模型 Mythos 扩展到 15 个以上国家、约 150 家机构，覆盖电力、水务、医疗和通信这些一旦被攻击就可能影响上亿人的关键领域。这是 Mythos 首次大规模进入国家级基础设施，但文章没披露具体是哪些客户、模型怎么部署、收费方式、上线时间表，也没提安...

#Anthropic#Product update

精选理由

Anthropic 把 Claude Mythos 铺到了 15 个国家的关键基础设施里，这个动作本身信号很强，但正文只给了国家和“关键基础设施”这个笼统说法，没列具体行业、客户、模型参数，也没提安全机制怎么跟上的。我会先打个折：部署规模是实打实的新闻，可信息缺口太大，没法判断是电网调度还是客服系统在用。基于现有披露，重要性给到 75 是合理的，先 featured 出来，等后续细节再调整。

一句话点评

Anthropic 把自家安全模型 Claude Mythos 塞进了 15 国的电网、医院和通信系统，但正文没披露实际部署效果和误报率，这点先别太激动。

锐评

Anthropic 把 Claude Mythos 这个专门找代码漏洞的模型，连同它的“玻璃翼计划”，推给了 15 个国家约 150 家关键基础设施机构，覆盖电力、水务、医疗和通信。按他们的说法，这些地方一旦被黑，可能影响上亿人。这不再是实验室里的攻防演练，而是直接让 AI 进到现实世界的命脉系统里干活。不过，文章只说了扩张的规模和涉及的行业，没给出任何具体的性能数据。比如 Mythos 在这些真实的老旧工业系统里，漏洞检出率是多少，会不会频繁把正常配置标成高危，这些关键指标全是空白。而且，把 AI 嵌进这么敏感的系统，一旦模型本身出问题或者被对抗样本攻击，后果比漏报几个漏洞严重得多。目前看，这更像是一次大规模的公测部署公告。要判断它到底靠不靠谱，还得等这些合作方后续会不会公开分享实际使用中的准确率和事故记录。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:31

16d ago

FEATUREDThe Verge · AI· rssEN17:31 · 06·02

微软在 Build 2026 上发了 Project Solara，一个给 AI 硬件跑智能体的安卓系统

微软在 Build 2026 大会上公布了 Project Solara，一个专门为跑 AI 智能体的硬件设计的操作系统。它底层是安卓，不是 Windows。现场展示了两个概念机：一个是类似 Echo Show 的桌面设备，用人脸识别解锁后可以直接调用各种 AI 智能体；另一个是可穿戴工牌，带摄像头和指纹扫描，能唤醒 AI 智能体。正文没披露具体上市时...

#Agent#Vision#Microsoft#The Verge

精选理由

我会先打个折：正文没给发货时间、开发者接口和定价，所以别当产品发布看。亮点是微软在 Build 2026 上拿出的 Project Solara，一个跑在 Android 上的 AI 硬件系统，不是 Windows。现场有两台概念机，一台放桌上的带人脸识别，一台可佩戴的徽章带摄像头和指纹，说明微软在试探 agent 硬件长什么样。系统层面用 Android 意味着生态借力，但也绕开了自家系统，这点挺有意思。隐私那块正文没展开，只提了人脸和指纹，具体怎么处理数据没说。

一句话点评

微软给AI硬件做了个安卓系统，不是Windows。两个概念机挺有意思，但没上市时间也没价格，先当原型看。

锐评

微软在Build 2026上掏出的Project Solara，说白了就是一套给AI智能体硬件用的安卓系统，不是Windows。这个选择本身就挺务实——与其从头造轮子，不如在安卓生态上嫁接自己的AI能力。现场展示了两个概念机：一个桌面设备用人脸识别解锁后调用各种AI智能体，另一个是可穿戴工牌，带摄像头和指纹扫描，能唤醒AI智能体。但正文没披露具体上市时间、定价、芯片方案，也没说这些设备能跑哪些智能体、离线能不能用。概念机到量产中间隔着供应链和场景验证两座大山，现在只能算微软在AI硬件赛道插了面旗。如果是真的能跑通，对做企业场景的团队是个信号；但消费端能不能打，还得看后续有没有杀手级应用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:08

16d ago

FEATUREDAI HOT 精选· aihot-apiZH17:08 · 06·02

Google DeepMind 放出 Co-Scientist：让多个 Gemini 智能体组队，自己辩论、自己迭代科学假设

Google DeepMind 发了个叫 Co-Scientist 的系统，核心是用多个 Gemini 智能体搭成一个科研小组：有的负责生成假设，有的负责挑刺辩论，再让假设在内部迭代进化。官方说法是能帮科学家在复杂问题上找新思路。不过正文没披露具体用的是哪一版 Gemini、有没有跑过基准测试、开放方式是什么、什么时候能用上，这些关键信息目前都还是空白。

#Agent#Reasoning#Google DeepMind#Gemini

精选理由

我会先打个折：正文没披露模型版本、评测结果和开放时间，所以目前只能当一次研究发布来看，别太激动。但 Gemini 被架成多智能体科研系统这个动作本身，说明 DeepMind 在认真推“AI 做科学假设”这件事，不是单次推理，而是让多个 agent 互辩、演进想法，思路比单纯刷榜有意思。对从业者来说，这更像一个方向信号，离能用的产品还有距离。

一句话点评

Google DeepMind 发了个多智能体科研系统，让几个 Gemini 互相辩论、迭代假设，但没公布用的是哪版模型、跑分和开放方式，先当概念验证看。

锐评

DeepMind 这次放出的 Co-Scientist，是把多个 Gemini 智能体拼成一个科研小组：有的负责提假设，有的负责挑刺，再让假设在内部辩论中进化。想法不新，但把“多智能体辩论”直接套在科研流程上，算是一次工程化尝试。关键信息全缺：正文没说是用 Gemini 2.5 还是其他版本，没给任何基准测试结果，也没提是 API、开源还是内部试用。没有这些，就没法判断它到底比单模型强多少，还是只是把 prompt 拆成几个角色在跑。我会先打个折：这更像一个方向性 demo，告诉学术界“我们在做这个”，离真正帮科学家省时间还差验证。如果后续能放出论文、对比实验和开放计划，才值得认真看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:00

16d ago

● P1彭博科技· rssEN17:00 · 06·02

Uber 限制员工 AI 工具使用以控制成本

Uber 开始限制员工在 Claude Code 这类 AI 编程工具上的开销。公司今年早些时候 AI 预算就超支了，所以现在直接设了使用上限。具体上限是多少、哪些团队受影响、总预算是多少，正文都没披露。

#Code#Tools#Uber#Claude Code

精选理由

这条消息好读，因为讲的是大公司用 AI 工具用到超预算，不得不踩刹车。Uber 设上限这个动作本身就是一个信号：编程助手类产品在企业里推，成本不是小数目。正文没给预算数字、上限规则和受影响人数，所以我会先打个折，不往大了吹。但对企业采购和工具定价的人来说，这个案例比很多技术评测更直接——它告诉你，就算工具好用，财务那边也会喊停。

一句话点评

Uber 给员工用 AI 编程工具设了每月 1500 美元上限，因为预算四个月就花光了。这个数字本身比工具好坏更值得看，它直接标出了大公司愿意为单人 AI 辅助付多少钱。

锐评

Uber 不是不让用 AI，是花太快了。内部预算四个月就见底，于是给每人每月设了 1500 美元的上限，主要针对 Claude Code 这类 AI 编程助手。这个动作比任何定价分析都实在——它直接亮出了一家大型科技公司对单人 AI 工具成本的容忍线。1500 美元一个月，放在工程师薪资里不算高，但要是全公司几千人都在用，账单就很吓人了。目前报道没披露 Uber 内部到底有多少人在用、用的频率多高，也没说这个上限是硬封顶还是超额要审批。另外，这个数字只反映 Uber 一家的账，不代表行业均价。其他公司如果效仿，AI 工具厂商的定价策略可能会被这条线锚定。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:48

16d ago

FEATUREDLatent Space· rssEN16:48 · 06·02

GitHub COO 聊怎么让平台接住 AI 代理的代码洪流

GitHub COO Kyle Daigle 说，2026 年 AI 驱动的代码提交量涨了 14 倍，这给原本按人类节奏设计的 GitHub 基础设施带来了很大压力，公开的宕机问题也跟这有关。他聊了 Copilot 的演变：从代码补全到命令行工具、桌面应用、云端代理和 SDK，以及 WorkIQ、MCP 这些让模型接入 Slack、邮件等公司上下文的方...

#Agent#Code#Tools#GitHub

精选理由

HKR 三项都成立：GitHub 高管给出 14 倍 AI 代码提交这个具体数字，把 Copilot、Actions、MCP、WorkIQ 和云端 agent 串成一条线来讲，信息量够。不是重大产品发布，所以重要性停在 80 分。

一句话点评

GitHub COO 亲口说 2026 年代码提交量涨了 14 倍，基础设施扛不住，公开宕机也跟这有关。这篇聊了 Copilot 怎么从补全变成能跑在 CLI、桌面和云端的代理，以及 WorkIQ 怎么把公司上下文喂给模型。

锐评

这篇访谈最实在的地方是 GitHub 自己承认了 AI 代码量暴增带来的压力。14 倍提交增长不是 PR 稿里的虚数，而是直接跟公开宕机挂钩的运维事故。Kyle Daigle 没回避这一点，反而把它当成 Copilot 演进的背景板：从代码补全到命令行、桌面应用、云端代理，再到 WorkIQ 把 Slack、邮件这些公司上下文接进来，让模型能“回头看”再干活。他提到的“微技能”替代“大技能”是个信号，说明 GitHub 内部在把 AI 拆成更小、更可控的原子操作，而不是一把梭。另外，他周六跑 15 个代理做高管汇报的案例，展示了前开发者出身的管理层怎么用 AI 压缩准备工作，但正文没披露这些代理产出的质量验证方式，这点先别太激动。还缺什么？没给出 14 倍增长里人类提交和代理提交的占比，也没说 Actions 作为通用计算层的成本变化。开源维护者怎么过滤 AI 生成的“垃圾 PR”也只提了概念，没落地细节。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:45

16d ago

FEATUREDAI HOT 精选· aihot-apiZH16:45 · 06·02

Claude Code 团队自述：把编程工作默认交给智能体后，我们的流程和分工全变了

Claude Code 的工程主管在 Code w/ Claude SF 2026 活动上分享了团队内部的变化。他们把智能体编程（让模型直接写代码、改代码）设为默认工作方式后，砍掉了传统的详细需求文档，改成“即时规划”——在动手前先让 Claude 收集上下文、理清任务。代码审查环节，Claude 会先过一遍代码风格和测试覆盖，人则把精力集中在法律合规...

#Agent#Code#Tools#Claude

精选理由

这是 Anthropic 自家团队在 Code w/ Claude SF 2026 上的分享，不是模型发布或重大产品更新，所以分数压在 80 分左右。亮点在于他们公开了内部怎么用 Claude Code 干活：规划从提前设计改成即时按需，写代码前先让 Claude 把上下文理一遍，审查环节把风格和测试甩给 Claude，人只做法律和安全判断。这些机制写得实在，没有画饼，对工程团队有直接参考价值。但正文没披露具体效率数据或量化对比，所以别当性能报告看。

一句话点评

Claude Code 团队自己怎么用 AI 写代码？他们砍掉了详细需求文档，让模型先做上下文收集和代码风格检查，人只盯法律合规。这是他们自己的实践，不是第三方评测，效果数字没给，先当经验分享看。

锐评

Anthropic 的工程主管在自家活动上分享了 Claude Code 团队的内部流程变化，核心是把智能体编程（让模型直接写代码、改代码）设为默认工作方式。具体做法有三点：一是砍掉传统详细需求文档，改成“即时规划”，动手前先让 Claude 收集上下文、理清任务；二是代码审查环节，Claude 先过一遍代码风格和测试覆盖，人把精力集中在法律合规和安全判断上；三是整个流程从“人写机器辅助”变成了“机器写人审核”。这篇文章是 Anthropic 官方博客，本质上是自家产品的实践案例，不是独立评测。正文没有披露任何量化效果数据，比如开发速度提升多少、代码缺陷率变化、工程师满意度等关键指标都没给。所以这更像一份工作方法分享，而不是可复现的效能报告。对 AI 从业者来说，这套流程的参考价值在于它展示了“模型写代码”落地后工程团队的实际分工变化，但缺了成本数据（模型调用频率和花费）和失败案例，很难判断这套做法的边界在哪。如果你们团队也想试，建议先在小项目上跑一遍，重点观察模型在上下文收集阶段会不会漏掉关键约束，以及人审核时是否真的能省下精力而不是换个地方费劲。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:40

16d ago

FEATUREDHacker News 首页· rssEN16:40 · 06·02

特朗普签了一份缩水版 AI 行政令，折腾几周后选了条轻监管的路

特朗普悄悄签了一份 AI 行政令，要求部分 AI 公司在公开发布强模型前 30 天自愿提交给政府做安全审查，主要看对金融、国安等关键系统的网络威胁。这个版本比之前计划的 90 天审查大幅缩水——5 月 21 日他临时叫停原版签署，就是担心管太严会影响跟中国抢 AI 领先地位。正文没披露具体由哪些机构执行、时间表怎么排，也没说如果不自愿提交会有什么后果。

#Trump#White House#Politico#Policy

精选理由

这条新闻的政治信号强，但信息密度低。我会先打个折：标题的悬念是真的，可正文没给条款细节，连哪个部门牵头都没说，所以只能当政策风向标看，不能当操作手册。HN 58 分和 38 条评论说明圈内在意，但讨论热度也受限于信息本身没展开。如果是真的缩减监管负担，对出海团队算利好，但这点先别太激动，等后续披露再说。

一句话点评

特朗普签了份缩水版 AI 行政令，强模型发布前 30 天自愿送审，比原计划的 90 天松太多，但正文没写不交会怎样。

锐评

这份行政令的核心就一句话：要求部分 AI 公司在公开发布强模型前 30 天，自愿把模型交给政府做安全审查，重点看对金融、国安等关键系统的网络威胁。跟 5 月被叫停的版本比，审查期从 90 天砍到 30 天，力度明显弱了——当时叫停的理由就是怕管太严影响跟中国抢 AI 领先地位。现在这个版本更像一个试探性框架。正文没披露具体由哪些机构执行、时间表怎么排，也没说如果不自愿提交会有什么后果。没有执行细节和约束力，这个 30 天审查基本就是“建议你送来，不送也没辙”。对 AI 从业者来说，目前看不出实际合规成本，但信号意义在：联邦政府开始把强模型的安全审查摆上台面了，只是还没想好怎么落地。还缺两个关键信息：一是“强模型”怎么定义，是按算力、参数量还是能力阈值划线；二是审查标准是什么，只看网络威胁还是会扩展到偏见、滥用等其他风险。这些不明确，企业就很难判断自己要不要动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:25

16d ago

FEATUREDAI HOT 精选· aihot-apiZH16:25 · 06·02

OpenAI Codex 出了 Python SDK，一行命令就能把编程 Agent 塞进自己应用里

OpenAI Codex 发布了 Python SDK，安装命令是 pip install openai-codex。这意味着开发者可以直接在自己的代码里调用 Codex 的编程和生图能力，不用再单独打开 Codex 界面。更省事的是，SDK 能复用你已经在 Codex 上的登录状态，省去再搞一套鉴权的麻烦。不过正文没提 API 怎么收费、用的是哪个模...

#Agent#Code#Tools#OpenAI

精选理由

我会先打个折：正文只说了怎么装和怎么登录，没给 API 价格、模型版本或限流条件，所以别急着算账。但这件事本身挺实在——Codex 不再只是个聊天窗口，而是能当零件用，pip 一装就能集成。对开发者来说，复用登录态省了一步鉴权麻烦，但没写清楚调用上限，真上生产还得自己测。整体是实用的产品更新，信息有缺口但不妨碍它值得关注。

一句话点评

OpenAI Codex 出了 Python SDK，能直接嵌进代码里用，还能复用登录态，省掉鉴权麻烦。但正文没提价格、模型版本和调用限制，先别急着上生产。

锐评

OpenAI Codex 把编程和生图能力打包成一个 pip install 就能用的 SDK，对开发者来说确实省事。以前得切到 Codex 界面操作，现在可以直接在代码里调用，相当于把 Codex 当成一个可编程的工具塞进自己的项目里。复用登录态这点也挺实用，不用再折腾一套 API 密钥和鉴权流程，接入成本低了不少。但这条消息的信息缺口很大。正文完全没提 API 怎么收费，是按 token 计还是按调用次数算，价格跟直接订阅 Codex 比是贵还是便宜，这些都不知道。也没说底层用的是哪个模型版本，能力上限在哪。更关键的是，没提调用频率限制和并发上限，如果生产环境里用着用着就被限流了，那跟 demo 玩玩完全是两回事。我会先打个折看这件事。SDK 本身是个好信号，说明 OpenAI 想把 Codex 从独立产品往基础设施方向推，但在价格、模型和稳定性这些硬指标出来之前，它更适合做原型验证，别急着往关键业务里塞。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:22

16d ago

● P1AI HOT 精选· aihot-apiZH16:22 · 06·02

OpenAI Codex 推出 Sites 功能，可将想法转化为交互式网页

Codex 现在可以把你的工作内容、想法和计划直接转成一个交互式网站或应用，团队通过一个链接就能打开、使用和分享。这个功能会先推给 Business 和 Enterprise 用户，正文没提价格，也没说什么时候开放给其他套餐。

#Agent#Code#Tools#OpenAI

精选理由

我会先打个折：正文没披露定价、权限边界，也没给实际效果案例，所以别急着把它当成成熟的生产力工具。但 Codex 从写代码延伸到直接出可交互站点，这个方向本身挺省钱——省掉了从代码到可演示原型中间的那一步。对企业和团队用户来说，一个 URL 就能让非技术人员上手试用，协作摩擦会小很多。这点先别太激动，等看到具体质量表现和计费方式再说。

一句话点评

OpenAI 给 Codex 加了个“一键生成网页”的功能，但只给企业版用，个人用户还摸不着。

锐评

OpenAI 在 Codex 里塞进了一个叫 Sites 的功能，简单说就是让 AI 直接把你的想法、表格或者文档变成一个可以点来点去的网页应用，比如项目看板、情景规划器。这比之前光给代码前进了一大步，直接省掉了部署和上线的环节，通过链接就能分享给团队。目前这个功能还是预览版，只对 Business 和 Enterprise 订阅用户开放。IT 之家的报道主要复述了官方博文，没提生成页面的代码质量、复杂交互的完成度，也没给任何用户实测案例。所以“将想法转化为交互式网站”这个说法，上限和下限差距很大——生成一个能看的仪表盘和生成一个能跑业务逻辑的工具，完全是两码事。还缺几个关键信息：生成一个站点要等多久，能不能手动改代码，以及免费版和 Plus 用户什么时候能用上。如果这些都不清楚，现在只能说它给企业用户多了一个快速出原型的路子，但离“构建应用从未如此简单”还差很多验证。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:16

16d ago

FEATUREDr/LocalLLaMA· rssEN16:16 · 06·02

Reddit 网友在 6GB 显存的笔记本 4050 上跑了 20 个小模型的速度对比

这篇帖子本身被 Reddit 的安全策略拦住了，正文内容没抓到，只留下一个“被网络安全屏蔽”的提示。从标题和已有的英文摘要看，作者用 LM Studio 的接口测了 20 个小模型，统一在 6GB 显存的 RTX 4050 上跑，每个模型在 1k、8k、32k 三种上下文长度下各测了 5 次速度。目前能看到的唯一具体数据是 unsloth/lfm2.5...

#Inference-opt#Tools#Benchmarking#LM Studio

精选理由

我会先打个折，来源是 Reddit 帖子，权威性一般，但内容本身很实在。作者没搞虚的，就是拿 20 个模型在 LM Studio 里用 6GB 4050 实测，把速度、显存占用都列出来。对想本地跑小模型的人来说，这比看论文里的 A100 数据有用得多。正文没披露测试用的量化精度和具体 prompt，这点信息缺口让结论不能直接照搬，但作为一张低显存显卡的参考表，已经够用了。

一句话点评

这篇帖子被 Reddit 安全策略拦了，正文没抓到，只有标题和摘要里提到 unsloth/lfm2.5-vl-1.6b 在 1k 上下文跑到 207 tok/s、占 3GB 显存。数据不全，先别太激动。

锐评

这条链接本身是个“被屏蔽”的残骸，Reddit 返回了 403，我们拿到的正文只有安全拦截提示，没有完整的 20 个模型对比表格。从标题和英文摘要能拼出一点信息：作者用 LM Studio 的接口，在 6GB 显存的 RTX 4050 上统一测了 20 个小模型，每个模型在 1k、8k、32k 三种上下文长度下各跑 5 次取速度。目前唯一露出的具体数字是 unsloth/lfm2.5-vl-1.6b，在 1k 上下文时跑到 207 tok/s，同时只占 3GB 显存——这个吞吐量在 6GB 卡上算很亮眼，说明小模型做本地推理确实能兼顾速度和显存。但整篇评测的可靠性要打很大折扣。第一，我们看不到完整的 20 个模型列表、测试提示词、量化精度和采样参数，没法判断对比是否公平。第二，只测速度不测质量，不知道这些模型在长上下文下会不会胡说八道。第三，正文被屏蔽意味着原始数据可能已经丢失，后续想复现或核对会很困难。如果你正好在找 6GB 卡能跑的小模型，这条帖子只能当个引子，真正选型还得自己拿具体任务跑一遍。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:00

16d ago

● P1TechCrunch AI· rssEN16:00 · 06·02

OpenAI Codex 推出数据分析、创意、销售等六个岗位专用插件

OpenAI 给 Codex 应用上线了六个新插件，分别瞄准数据分析、创意产出、销售、产品设计、股票投资和投行业务。每个插件都打包了工具集成、操作指令和上下文，让 Codex 能模拟特定岗位的工作流。正文没提定价和开放范围，我会先打个折——没看到实际跑通的效果和成本之前，别急着把它当正式员工用。

#Agent#Code#Tools#OpenAI

精选理由

OpenAI 把 Codex 从程序员工具扩成白领插件包，六个方向覆盖了数据、创意、销售、产品、股票和投行，动作不小。但正文没提定价、实际效果和推送范围，所以我会先打个折，把它放在中等权重的产品更新档。

一句话点评

OpenAI Codex 开始打包岗位专用插件，直接瞄准白领工作流，但正文没给具体功能细节和定价。

锐评

OpenAI 这次把 Codex 拆成了六个岗位插件，覆盖数据分析、创意、销售等场景，思路很直白：不让用户自己琢磨怎么用模型，而是把模型塞进现成的岗位流程里。TechCrunch 的标题点出了“白领工作”这个靶心，但正文是空的，我们只能从标题和事件标题推断方向。目前能确认的是，这不再是通用编程助手，而是按角色切分的工具包。好处是上手门槛低，坏处是灵活度可能打折。关键信息全缺：每个插件具体能做什么、怎么收费、跟现有 Codex 或 ChatGPT 插件体系是什么关系、有没有客户案例或效果数据。这些没公布之前，先别把它当成成熟的岗位替代方案，更像是一次产品打包实验。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:59

16d ago

FEATUREDThe Verge · AI· rssEN15:59 · 06·02

Microsoft Build 2026 发布 Windows 更新、AI 助手及量子芯片

微软 Build 2026 大会发布了多个重磅产品：基于 OpenClaw 的个人助手 Scout、新一代量子芯片 Majorana 2（号称缩短实用量子计算时间线）、专为 AI 开发者设计的 Surface 迷你 PC，以及一个叫 Project Solara 的安卓系统——专门给跑 AI agent 的设备用。大会还推出了面向开发者的 Window...

#Agent#Reasoning#Tools#Microsoft

精选理由

H 和 R 通过：Build 是开发者平台事件，多个命名项目有实质内容。K 不通过：摘要只给了名字和日期，没有 AI 能力细节、规格或机制，所以分数落在 60–71 区间。

一句话点评

微软一口气发了 Windows 更新、AI 助手和量子芯片，但具体细节正文没给，先当预告看。

锐评

Build 2026 这次发布的东西跨度很大，从 Windows 系统更新到 AI 助手，再到量子芯片，看起来是想把自家生态全线打通。但要注意，目前我们只拿到了标题和摘要，正文内容缺失，所以没法判断每项发布的技术深度和实际可用性。比如量子芯片，到底是实验室样品还是已有商用路线图，这点正文没披露。AI 助手具体能干什么、跟现有 Copilot 是什么关系，也不清楚。Windows 更新是修修补补还是架构级变化，同样没细节。我会先打个折，等看到具体演示和参数再判断这些发布是实打实的落地，还是占位性质的战略表态。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

14:13

16d ago

FEATUREDAI HOT 精选· aihot-apiZH14:13 · 06·02

Holo3.1 发布：一套能在本地快速跑起来的电脑/手机操作模型

H公司把他们的电脑操作模型升级到了 Holo3.1，这次主打的是“哪里都能跑”。模型基于 Qwen 系列，一口气放出 0.8B、4B、9B 和 35B-A3B 四个尺寸，并且首次提供了 FP8、Q4 GGUF 和 NVFP4 这些压缩版本，方便直接在个人设备上做本地推理。35B-A3B 的旗舰版在 AndroidWorld 测试里拿到了 79.3% 的...

#Agent#Tools#Inference-opt#H Company

精选理由

Holo3.1 把电脑操作智能体做成了本地可跑的版本，而且最小模型只有 0.8B 参数，对想在个人设备上试水的开发者来说门槛很低。四个尺寸加三种量化格式一起发，部署灵活度拉满，不是只给一个玩具。我会先打个折：正文没披露具体任务成功率或延迟数据，所以实际效果还得自己测。但就凭本地运行和量化支持这两点，已经够让做私有化部署的人点进去看了。

一句话点评

H公司把电脑操作模型升级到Holo3.1，一口气放出四个尺寸并首次提供压缩版，让模型能直接在个人设备上跑。35B-A3B旗舰版在AndroidWorld测试拿到79.3%的分数，但正文没披露这个分数的具体任务构成和对比基线，先别太激动。

锐评

Holo3.1这次最大的动作是让电脑操作模型“本地化”。基于Qwen系列，他们放出了0.8B、4B、9B和35B-A3B四个尺寸，并且首次提供了FP8、Q4 GGUF和NVFP4这些压缩版本。这意味着你可以在自己的电脑甚至手机上直接跑，不用把屏幕画面传到云端，隐私和延迟问题会好很多。旗舰版35B-A3B在AndroidWorld测试里拿到了79.3%的分数。这个数字看着不错，但文章没说明测试任务的具体分布，也没给出其他模型的对比成绩，所以这个79.3%到底领先多少、在哪些任务上强，目前还判断不了。另外，小尺寸模型在本地设备上的实际推理速度和资源占用，正文也没有给出实测数据，只说“快速”，这点需要等上手验证。整体看，Holo3.1把模型压缩和本地部署作为卖点，方向是对的，尤其适合对数据敏感的场景。但缺了关键的性能对比和硬件实测，现在只能说它提供了一个可用的本地方案，至于是不是最优选，还得看后续第三方评测。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:39

16d ago

FEATUREDHacker News 首页· rssEN13:39 · 06·02

马丁·斯科塞斯加入AI图像生成公司Black Forest Labs

83岁的马丁·斯科塞斯去年就以合伙人兼顾问身份加入了AI图像生成初创公司Black Forest Labs，并在新片的前期制作中用了他们的技术。这算是好莱坞对AI态度的一个标志性转折——2023年罢工时大家还把生成式AI当生存威胁，现在连斯科塞斯这种级别的导演都公开站台了。不过正文没披露他用AI具体做了什么、哪部片子、以及制作细节，只说是在prepro...

#Martin Scorsese#The New York Times#Hacker News#Commentary

精选理由

HKR-H 通过，但 HKR-K/R 不通过。这条 feed 只暴露了标题加 HN 分数和评论数，触发硬排除零来源规则，且没有 AI 行业实质内容可评分。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

13:29

16d ago

● P1Ben's Bites· rssEN13:29 · 06·02

Claude Opus 4.8 发布，Claude Code 学会写脚本派子任务并行干活

Anthropic 发了新模型 Claude Opus 4.8，主要卖点是 Claude Code 现在能先写一个调度脚本，再同时拉起多个子代理并行处理复杂任务。不过有开发者提醒，这并不证明松散的 multi-agent 架构靠谱，反而是围绕小代理循环的确定性工作流更稳。模型本身被 Simon Willison 评价为“温和但有用的升级”，更诚实、更少...

#Agent#Code#Benchmarking#Anthropic

精选理由

HKR 三项都成立，因为这是一次有实质内容的 Anthropic/Claude 发布和 Claude Code 代理更新。文章没给基准测试、定价和上下文窗口数据，所以分数压在 85–94 这个区间。

一句话点评

Opus 4.8 在 Claude Code 里能写脚本并行派活给子代理了，但别急着吹多智能体架构，确定性工作流更稳。

锐评

Anthropic 发了 Claude Opus 4.8，核心卖点是 Claude Code 现在能先写一个调度脚本，再同时拉起多个子代理并行干活。这听起来像多智能体协作，但有开发者直接泼冷水：松散的 multi-agent 架构并不靠谱，反而是围绕小代理循环的确定性工作流更稳。模型本身被评价为“温和但有用的升级”，主要进步是更诚实，对自己代码里的缺陷没那么瞎。Every 的体感更积极，认为比 4.7 跳了一大步，在内部高级工程师基准上能和 GPT-5.5 掰手腕。但有个硬伤：Claude 的应用端体验还是比 Codex 乱。跑分方面，它在 ARC-AGI-3 上拿了第一，分数是 GPT-5.5 的三倍，但 Datacurve 的新基准又把它排在 GPT-5.5 下面，只比 5.4 好一丢丢，而且消耗的 token 多得多，成本更高。这种基准打架的情况说明，模型强不强很看你测什么任务。另外，Anthropic 同时提交了机密 S-1 文件，并完成了 650 亿美元 H 轮融资，投后估值 9650 亿，今年很可能 IPO。这条新闻缺的是 Opus 4.8 在真实生产环境里的延迟和成本数据，以及那个并行子代理功能在复杂项目里的失败率。基准分数看看就好，别急着下结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:28

16d ago

FEATUREDAI HOT 精选· aihot-apiZH13:28 · 06·02

Anthropic 扩大 Project Glasswing 计划，新增约 150 家关键基础设施机构

Anthropic 把 Project Glasswing 的合作范围从约 50 家扩到约 150 家新机构，覆盖超过 15 个国家，新增了电力、水务、医疗、通信和硬件等关键基础设施行业。这些机构都有一个共同点：一旦代码库被攻破，影响可能超过 1 亿人。前期合作方用 Claude Mythos Preview 已经扫出超过 1 万个高危或严重漏洞，现在...

#Code#Safety#Tools#Anthropic

精选理由

Anthropic把Project Glasswing铺到约150个新组织，横跨15个以上国家，HKR三项都有实打实的数字和行业支撑。不过正文没披露具体的安全机制或模型能力变化，所以分数就停在featured低段，先别太激动。

一句话点评

Anthropic 把漏洞扫描项目从 50 家扩到 150 家，覆盖水电医疗等关键基础设施。前期扫出超 1 万个高危漏洞，但正文没披露误报率和修复落地情况，这点先别太激动。

锐评

Anthropic 把 Project Glasswing 的合作方从约 50 家扩到约 150 家，覆盖超过 15 个国家，新增了电力、水务、医疗、通信和硬件这些关键基础设施行业。这些机构的共同点是代码库一旦被攻破，影响可能超过 1 亿人。前期合作方用 Claude Mythos Preview 已经扫出超过 1 万个高危或严重漏洞，这个数字说明模型找漏洞的能力确实强。但正文没提两个关键信息：一是误报率，扫出一万个漏洞里有多少是真正需要修的，有多少是虚惊一场；二是这些漏洞到底修了多少。Anthropic 自己也承认，现在的瓶颈已经不是找漏洞，而是验证、披露和打补丁。如果只扫不修，那这个项目更像一次大规模压力测试，而不是安全防护落地。另外，Anthropic 预计 6 到 12 个月内会有其他公司放出同类模型，而且可能不带防滥用限制。这个判断如果成立，意味着低成本、高能力的攻击工具会很快普及。他们现在推这个项目，更像是在抢时间窗口，让防守方先拿到工具。但正文没说明新加入的 150 家机构需要满足什么安全要求才能接入，也没披露美国政府在其中的具体角色，这些信息缺口让项目的实际约束力打了不少折扣。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:53

16d ago

FEATUREDAI HOT 精选· aihot-apiZH12:53 · 06·02

阶跃星辰放出 Step 3.7 Flash，开放权重，主打帮智能体写代码

阶跃星辰发了个新模型 Step 3.7 Flash，把权重开放了，你可以直接下载用。它的定位是给智能体编程场景用，强调工具调用可靠，还能处理多模态输入。同一天 MiniMax 也开源了 M3，两家模型都已经能在 Kilo 平台上跑。正文没披露具体的跑分、参数量或硬件门槛，所以实际快不快、省不省资源还得自己测。

#Agent#Tools#Multimodal#StepFun

精选理由

这条消息的钩子在于“开放权重”和“智能体编程”两个点，不是常规发个新版本。我会先打个折：正文没给模型尺寸、跑分、许可证和定价，所以只能算有信息增量但缺关键验证。对开发者来说，能直接下载权重、能调工具、能看懂多模态输入，这几个能力放在一起确实有吸引力，尤其现在大家都在抢智能体编程这条赛道。Kilo 上线也让想试的人有个现成入口。不过没披露性能对比和实际成本，这点先别太激动，等后续数据出来再看值不值得切过去。

一句话点评

阶跃星辰把 Step 3.7 Flash 权重开放了，主打智能体编程和工具调用。但正文没给跑分、参数量、硬件门槛，快不快省不省得自己测。

锐评

Step 3.7 Flash 这次最实在的动作是开放权重，你可以直接下载部署，不用走 API 付费那套。定位很明确：给智能体编程场景用，强调工具调用可靠，还能吃多模态输入。同一天 MiniMax 也开源了 M3，两家都在 Kilo 平台上跑起来了，说明国内模型厂开始把开放权重当成标配打法，不再只发技术报告。但这条消息的信息缺口不小。正文没披露任何 benchmark 跑分，没提参数量，也没说推理需要多大显存。Flash 这个名字暗示它走轻量快速路线，但到底多快、多省资源，全得靠你自己测。工具调用可靠性也没有量化指标，比如在 BFCL 这类评测上准确率多少，正文一个字没提。我会先打个折：开放权重是好事，但没给硬指标之前，别急着把它当生产环境的首选。如果你正好在搭智能体编程流水线，可以拉下来跑跑看，重点测工具调用的稳定性和多模态输入的实际延迟。等社区出了第三方评测再下判断会更稳。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:05

16d ago

FEATUREDr/LocalLLaMA· rssEN11:05 · 06·02

我把多智能体调度器里的 Claude 换成本地 Qwen3.6-27B，跑了两个星期

作者用一张 RTX 3090 跑 Qwen3.6-27B，在 47 个多步骤编程工作流里顶替 Claude 试了两周。计划生成的结构合规率大约 95%，但工具调用格式错误率有 12% 左右，而且上下文一超过约 12k token，实际表现就开始明显下滑。正文没披露具体任务难度和对比基准，所以 95% 这个数只能当个参考，别直接当成“接近 Claude”...

#Agent#Reasoning#Code#Qwen

精选理由

这篇值得看，因为它是真人两周实测，不是跑分。作者用一张消费级显卡把 Qwen3.6-27B 塞进多智能体编排里，替换 Claude，给出了能用的上限和会翻车的点。95% schema 合规听着不错，但 12% 工具调用格式错误意味着每八九次就有一次格式炸了，生产环境还得加校验层。长上下文到 12k tokens 就吃力，复杂任务得拆。正文没披露延迟数据和总 token 消耗，这点先别急着算成本账。整体是份诚实的工程笔记，不是公关稿。

一句话点评

用一张3090本地跑Qwen3.6-27B替掉Claude，两周47个任务里计划生成合规率约95%，但工具调用格式错误率12%，上下文超12k token后明显变差。

锐评

这条分享挺实在的，没有吹“全面超越”，而是把坑也摊开了。作者用一张RTX 3090本地部署Qwen3.6-27B，在47个多步骤编程工作流里顶替Claude跑了两周。计划生成的结构合规率大约95%，说明模型能按预期格式输出，但工具调用格式错误率有12%，意味着每八九次调用就有一次格式不对，这在自动化流程里会直接卡住。更关键的是，上下文一超过约12k token，表现就开始明显下滑，长任务稳定性存疑。不过得打个折：正文没披露这47个任务的具体难度，也没说对比的Claude是哪个版本、跑在什么配置上。95%这个数只能说明“格式上像样”，不代表任务完成质量接近Claude。另外，作者被Reddit网络拦截了，我们拿到的只是摘要，没法核实更多细节。如果你也想在本地替掉商业API，这条经验值得参考，但先别激动。12%的工具调用错误率在生产环境里需要额外加校验和重试机制，长上下文退化也得靠分段或摘要来兜底。还缺的是延迟数据、显存占用峰值，以及更细分的任务类型对比，这些才是决定能不能真替的关键。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:00

16d ago

FEATUREDOpenAI 博客· rssEN09:00 · 06·02

OpenAI 发布 Codex 角色插件扩展知识工作者适用范围

OpenAI 宣布 Codex 不再只是程序员工具。现在每周有 500 多万人用 Codex，其中非开发者（分析师、营销、运营、设计师、投资人等）占了约 20%，而且增速是开发者的 3 倍以上。这次一口气上了六个角色插件：数据分析（接 Snowflake、Tableau 等）、创意制作（接 Figma、Canva）、销售（接 Salesforce、Hu...

#Code#Tools#OpenAI#Product update

精选理由

OpenAI 官方更新 Codex，但正文没披露价格、上线时间和具体集成了哪些工具，信息量有限。按常规产品更新处理，给 60–71 分，不当作重点发布。

一句话点评

OpenAI 给 Codex 加了 6 个角色插件，让分析师、销售、设计师也能用它干活，但别急着喊“人人都是程序员”，正文没提插件出错率和实际落地成本。

锐评

OpenAI 这次更新，说白了就是给 Codex 装上了“职业套装”。以前它主要是个写代码的工具，现在通过 6 个角色插件，直接对接了 Snowflake、Figma、Salesforce 这些企业软件，让非程序员也能用自然语言做数据分析、出设计稿、整理销售情报。官方给的数据挺有意思：每周有 500 万人用 Codex，其中非开发者占了 20%，而且增速是开发者的 3 倍多。这说明知识工作者确实有需求，但 20% 的占比也提醒我们，目前主力还是程序员。这些插件覆盖了 62 个常用 App 和 110 项技能，听起来很全，但正文没披露任何关于输出准确率、任务完成度或者企业采购成本的信息。对于投资、投行这类容错率低的场景，模型“幻觉”一次可能就闹笑话。另外，虽然提到了 Zapier 和 NVIDIA 的内部用例，但都只是笼统描述，没有具体的效率提升数字，比如节省了多少工时。还缺什么？一是插件在复杂、多步骤任务里的可靠性测试结果；二是企业数据安全的细节，毕竟要读公司内部的数据库和文档；三是跟微软 Copilot 等直接竞品的差异化对比。这些信息没补上之前，可以把它看作一个值得试用的工作台，但别指望它能立刻替代专业软件里的资深员工。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

08:32

16d ago

FEATUREDr/LocalLLaMA· rssEN08:32 · 06·02

Intel Arc B70 Pro 运行 Qwen 3.6-35B-A3B 模型达 977 token/秒

Reddit 用户用 Intel Arc B70 Pro 显卡跑 Qwen 3.6-35B-A3B 的 Q4_K 量化版，提示处理（pp512）达到 977 token/秒，生成速度（tg128）约 70.5 token/秒。这个提示处理速度很快，意味着模型读取长输入时延迟很低；但生成速度一般，适合做实时问答或检索增强，不适合长文本续写。标题提到支持 ...

#Inference-opt#Benchmarking#Qwen#Intel

精选理由

一条 Reddit 跑分帖，Intel Arc B70 Pro 跑 Qwen 3.6-35B-A3B 的 Q4_K 量化版，pp512 接近 1000 token/s，tg128 也有 70 token/s，标题说上下文窗口能到 262k。数字挺好看，但正文没披露功耗、完整复现步骤和长上下文下的实际质量。适合当 feed 信息，不值得置顶。

一句话点评

Intel Arc B70 Pro 跑 Qwen 3.6-35B-A3B 达到 977 token/秒的预处理速度，但正文被 Reddit 屏蔽，看不到测试环境和具体配置。

锐评

这条消息来自 Reddit 的 LocalLLaMA 板块，标题很吸引人：用 Intel Arc B70 Pro 这块专业卡跑 Qwen 3.6-35B-A3B 模型，预处理速度冲到 977 token/秒，上下文窗口拉到 262k。但点进去正文被 Reddit 的网络安全机制拦住了，我们看不到任何测试细节。 977 token/秒这个数字如果属实，意味着处理一篇几万字的文档只要几十秒，对本地推理来说相当快。但关键信息全缺：不知道跑的是量化版还是全精度模型、用了多少张卡、功耗和显存占用如何、llama.cpp 的具体编译参数是什么。Qwen 3.6-35B-A3B 本身是个 MoE 架构的模型，实际激活参数只有 3B 左右，推理速度天生就比同尺寸稠密模型快，所以这个数字不能直接拿去跟其他 35B 模型比。另外，262k 上下文窗口在消费级和专业卡上能稳定跑到什么程度、长文本下速度衰减多少、输出质量有没有崩，这些都没法从现有信息判断。建议等原帖能正常访问或者有更多独立测试出来再下结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:18

16d ago

FEATUREDr/LocalLLaMA· rssEN08:18 · 06·02

JetBrains 开源编程模型 Mellum2

JetBrains 把 Mellum2 开源了，定位是编程模型。正文没披露参数量、许可证、跑分或下载方式，所以暂时没法判断它跟其他开源编程模型比怎么样。如果你已经在用 JetBrains 的 IDE，可以留意后续更新。

#Code#JetBrains#Mellum2#Open source

精选理由

H 和 R 都成立：JetBrains 开源编程模型是个具体信号，IDE 厂商开始把模型当产品组件来推，对开发者选型有影响。但 K 太弱——标题说开源，正文没给任何技术细节：参数多大、用什么许可证、跑分多少、能不能直接下载，全没披露。信息量只够让人知道“有这么个东西”，没法判断好不好用、能不能用。所以重要性只给 64，不推 featured。

一句话点评

JetBrains 开源了编程模型 Mellum2，但正文被 Reddit 屏蔽，没披露参数量、许可证、跑分或下载方式。目前没法判断它跟其他开源编程模型比怎么样。如果你在用 JetBrains IDE，可以留意后续更新。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

07:00

16d ago

FEATUREDOpenAI 博客· rssEN07:00 · 06·02

OpenAI呼吁建立国际青少年AI安全研究所

OpenAI 在 G7 峰会前发文，呼吁各国合作成立一个专门的国际青少年 AI 安全研究所，用来持续制定标准、共享证据和指导实践。文章列出了八条原则，包括要求企业识别未成年用户并默认开启保护、每年做风险评估、给家长提供易用的控制工具、以及明确禁止向未成年人投放隐私侵犯式广告。不过正文没披露这个研究所的治理模式、经费来源、参与国名单、执行机制或落地时间表...

#Safety#OpenAI#Policy#Safety/alignment

精选理由

HKR-K 和 HKR-R 通过，因为 OpenAI 提议成立国际青少年 AI 安全机构，涉及监管/合规。HKR-H 不通过；正文缺少治理、资金、成员和时间表细节，因此分数落在 60–71 区间。

一句话点评

OpenAI 在 G7 峰会前喊话，想拉各国建一个专门盯着青少年 AI 安全的国际研究所，但正文没提谁来出钱、谁有执法权。

锐评

OpenAI 赶在 G7 峰会前发了这篇倡议，核心就一件事：呼吁成立一个国际青少年 AI 安全研究所。他们给了两条路，要么新建一个，要么给现有国家 AI 安全机构挂个“全球”牌子，让它把研究成果和指南分享出去。文章强调功能比名头重要，需要有人持续盯着这件事，不能只靠一次峰会。他们列了八条原则，比如要求公司能识别用户是不是未成年人并默认开启保护、每年做青少年安全风险评估、给家长提供好懂的控制面板。还举了爱沙尼亚全国学校用 ChatGPT 的例子，说正在和斯坦福一起研究实际影响。但整篇倡议没提最关键的执行问题：研究所的经费谁扛，标准有没有强制力，企业不遵守会怎样。这些缺口让呼吁听起来更像一次立场表态，离落地还有距离。Common Sense Media 那个同名研究所已经存在，OpenAI 基金会也投了钱，但这次要的是政府间级别的机构，两者怎么分工也没说清楚。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

06:00

16d ago

FEATUREDNVIDIA 博客· rssEN06:00 · 06·02

金融机构采用交易基础模型训练自有大模型统一处理风控信贷推荐

NVIDIA 发了一篇博客，说 65% 的金融机构已经在用 AI，并重点介绍了 Revolut 的 PRAGMA 模型。PRAGMA 是一个基于 Transformer 的交易基础模型，用 240 亿条交易事件和 2600 万用户数据训练，能同时做信用评分、欺诈检测和产品推荐，不用再为每个任务单独训练模型。好处是数据复用率高、维护成本低，但正文没披露具...

#Embedding#Agent#Inference-opt#NVIDIA

精选理由

垂直交易基础模型这个角度比较新，而且有具体数字支撑（240亿事件、2600万用户），所以H和K通过。但来源是厂商博客，没有公开架构或第三方验证，信息缺口明显，分数卡在60-71区间合理。

一句话点评

NVIDIA 说金融机构开始用交易数据训练自己的大模型，但文章没给任何一家银行的实测数据，先当趋势看。

锐评

这篇 NVIDIA 博客讲了一个正在发生的趋势：银行、保险这类机构不再满足于用通用大模型做简单问答，而是拿自己手里的交易流水、账户行为数据去训练一个“交易基础模型”，让它同时处理风控、信贷审批和个性化推荐。思路是对的——金融数据高度结构化、时序性强，通用模型确实水土不服。但文章全程是 NVIDIA 的生态视角，只提了技术可行性和自家 GPU 的支撑能力，没有给出任何一家金融机构的具体落地案例、准确率提升或坏账下降的数字。我会先打个折：这更像是一份行业方向白皮书，而不是产品验证报告。真正值得关注的点文章没写——交易数据涉及大量隐私和合规红线，模型训练的数据脱敏方案、监管报备流程、以及上线后如何做模型可解释性审计，这些才是金融机构内部落地时最卡脖子的环节。如果后续有银行公开了自研模型的真实业务指标，这个趋势才算真正站住脚。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

05:30

16d ago

FEATURED机器之心 · 公众号· rssZH05:30 · 06·02

图灵奖得主 Sutton 新论文：AI 的下一步，得学会在行动中理解世界

这篇文章的正文被微信环境验证挡住了，实际内容没抓到。从标题和摘要看，Banafsheh Rafiee 和 Richard S. Sutton 提了一个叫“生成认知”的框架，给 AI 立了四根柱子：经验、感知与行动不可分、自主性、具身性。说白了就是主张智能不能光靠看数据，得在跟环境互动的过程中长出来。但具体怎么实现、有没有实验，正文没披露，这点先别太激动。

#Agent#Reasoning#Robotics#Banafsheh Rafiee

精选理由

这篇是 Sutton 和 Rafiee 的新论文解读，核心是提出“生成认知”框架，主张智能体得靠经验、感知和行动绑在一起、自己定目标、还得有身体去试错。我会先打个折：正文没披露实验、代码或可复现的测试，目前还停在概念层。但 Sutton 的名气和四个支柱的提法，让它有资格进 featured，属于研究评论向的必读。

一句话点评

Sutton 的新框架主张智能得在跟环境互动中长出来，但正文被微信验证挡住，具体实现和实验都没看到，先别太激动。

锐评

图灵奖得主 Richard S. Sutton 和 Banafsheh Rafiee 提了个叫“生成认知”的 AI 框架，给智能立了四根柱子：经验、感知与行动不可分、自主性、具身性。说白了就是反对现在主流那种闷头灌数据、只看 token 概率的做法，主张智能必须在一个能感知、能动手、能自己决定下一步的环境里长出来。这个思路跟 Rodney Brooks 早年的具身智能一脉相承，不算全新，但由强化学习领域的 Sutton 来重新强调，分量不一样。不过得先打个折：这篇文章的正文被微信环境验证挡住了，实际内容没抓到。标题和摘要只给了框架层面的主张，具体怎么实现、有没有实验验证、计算成本如何，正文没披露。四根柱子听起来很对，但如果没有可跑的系统和可复现的结果，目前还停留在哲学宣言阶段。还缺的东西很明确：一是这个框架有没有对应的模型或训练流程，二是跟现有方法比到底在哪类任务上能看出差距。等看到完整论文再判断它到底是路线图还是口号。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:30

16d ago

FEATURED机器之心 · 公众号· rssZH05:30 · 06·02

DataMaster：让模型自己搜数据、洗数据、拼数据，MLE-Bench Lite 奖牌率从 35.91% 拉到 68.18%

这篇论文提出了 DataMaster，一个让大模型自己当数据工程师的流程。它不碰模型结构和训练算法，只做三件事：自动搜索外部数据、清洗脏数据、把多个数据集拼成一张表。在 MLE-Bench Lite 这个机器学习竞赛基准上，DataMaster 把奖牌率从 35.91% 提到了 68.18%，几乎翻倍。正文没披露具体用了哪些模型、单次任务耗时和额外算力...

#Agent#Tools#Benchmarking#Shanghai Jiao Tong University

精选理由

DataMaster 做的事很直接：模型和训练代码都不动，只让系统自己去搜、洗、拼数据，结果 MLE-Bench Lite 奖牌率从 35.91% 拉到 68.18%，接近翻倍。我会先打个折——这还只是单篇研究，没有生产环境验证，benchmark 本身也不是完整 MLE-Bench，所以别急着当银弹。但“数据工程自动化”这个方向确实戳中很多团队的日常痛点，加上数字够具体，给 78 分 featured 合理。

一句话点评

DataMaster 让模型自己搜数据、洗数据、拼表，在 MLE-Bench Lite 上把奖牌率从 35.91% 拉到 68.18%，但正文没披露用了什么模型、一次任务跑多久、额外算力多少。

锐评

这篇论文的思路很直接：不碰模型结构和训练算法，只优化数据准备环节。DataMaster 做了三件事——自动搜索外部数据、清洗脏数据、把多个数据集拼成一张表。在 MLE-Bench Lite 这个机器学习竞赛基准上，奖牌率从 35.91% 提到了 68.18%，几乎翻倍，说明数据工程这块的自动化确实能带来明显收益。不过正文有几个关键信息没给：具体用了哪些模型、单次任务耗时、额外算力成本。这些数字直接决定这套流程能不能在实际项目里跑起来。如果每次数据准备都要烧很多 token 或者等很久，那性价比就要重新算。另外，MLE-Bench Lite 本身是竞赛场景，任务相对标准化，真实业务里的脏数据可能更乱、更没规律，DataMaster 能不能扛住还不好说。我会先打个折：方向对，但缺成本数据和更脏场景的验证，暂时别把它当通用方案。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:42

16d ago

FEATUREDAI HOT 精选· aihot-apiZH04:42 · 06·02

为了省120刀，我把电脑清理做成了开源AI工具

作者用Codex扫了自己的MacBook，发现B站缓存等一堆可删文件，激进方案能清出超140G。他干脆把清理逻辑做成一个开源skill，Mac和Windows都能用。工具会扫描文件生成可交互的HTML报告，用绿黄红三色标出哪些能放心删、哪些要人工判断、哪些千万别动，还带安全执行按钮。实测清出近120G，而CleanMyMac只扫出15.8G，信息透明度...

#Agent#Code#Tools#CleanMyMac

精选理由

这篇东西不是平台级大新闻，但 H、K、R 三点都踩中了：120 美元的替代钩子够抓人，扫描报告和 120G 实测结果给了具体信息，开源 skill 的思路对想用 AI 省钱的开发者有直接复用价值。放在 featured 门槛附近没问题，属于那种实用开源工具类的推荐。

一句话点评

用AI扫盘清出120G，比CleanMyMac多出近8倍，但激进方案要自己盯黄灯项，别一键全删。

锐评

这条分享的价值不在工具本身，而在于思路：让AI读文件系统、做分类判断，再生成一份带安全按钮的交互报告。作者用Codex扫了自己的MacBook，发现B站缓存等一堆可删文件，激进方案能清出超140G，最终实测释放近120G。对比CleanMyMac只扫出15.8G，差距来自AI能识别更多非标准缓存路径，而不是靠固定规则。不过要冷静看几点。正文没披露Codex具体怎么接入文件扫描，也没说扫描耗时和误删风险。三色分级里黄灯项需要人工判断，这意味着清理效果高度依赖使用者自己的辨别能力，不是全自动方案。另外，开源skill的维护状态和跨平台兼容性都没展开，Windows实测数据也没给。如果你愿意花时间盯黄灯项，这个思路确实能省下120刀的软件费。但别期待装完就能一键清出100G，实际收益取决于你电脑里到底堆了什么。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:05

16d ago

FEATURED量子位 · 公众号· rssZH04:05 · 06·02

老黄带着英伟达 CPU 杀进 PC 赛道

英伟达要在今年秋天把一台叫 RTX Spark 的 Windows 电脑推向市场。这台机器把一块 Blackwell 架构的 RTX 显卡和一颗 20 核 Arm 架构的 Grace CPU 焊在一起，通过 NVLink-C2C 高速互联，共享 128GB 统一内存。官方给出的 AI 算力是 1 petaflop，号称能在本地跑起 1200 亿参数、上...

#Agent#Inference-opt#Multimodal#NVIDIA

精选理由

英伟达把RTX Spark搬进Windows PC，不是发新模型，而是给开发者一台能本地跑120B模型的机器。1 petaflop算力和128GB统一内存这些数字，说明它想解决本地跑大模型内存不够、上下文装不下的痛点。对从业者来说，这意味着可以省掉一部分云端推理成本，延迟也更可控。不过正文没提具体功耗和价格，实际性价比还得等上市再看。整体是硬件产品更新，不是基础模型发布，所以分数落在78到84之间。

一句话点评

老黄把显卡和CPU焊一起塞进Windows电脑，1 petaflop算力跑1200亿参数模型，但正文没提价格和功耗，先别激动。

锐评

英伟达要在今年秋天推出一台叫 RTX Spark 的 Windows 电脑，核心是把一块 Blackwell 架构的 RTX 显卡和一颗 20 核 Arm 架构的 Grace CPU 通过 NVLink-C2C 高速互联焊在一起，共享 128GB 统一内存。官方给的 AI 算力是 1 petaflop，号称能在本地跑起 1200 亿参数、上下文窗口 100 万 token 的大语言模型。这个配置对想在本地跑大模型又不想折腾外挂资料库的人来说，确实省事——不用再纠结显存够不够、CPU 和 GPU 之间数据搬来搬去的延迟。但这条新闻的信息缺口很明显：正文没披露整机功耗和售价。1 petaflop 的算力塞进一台 Windows 电脑，散热和供电怎么解决，直接决定这东西是能当日常主机用，还是一个小型暖风机。另外，128GB 统一内存虽然看着大，跑 1200 亿参数的模型如果不用量化，内存带宽够不够喂饱算力也是个问号。微软在这件事里扮演什么角色也没说清楚，是深度定制 Windows 还是只是兼容。这些关键信息都缺，所以目前只能把它当成一个硬件预告，实际表现等秋天见分晓。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

16d ago

FEATUREDFT · 科技· rssEN04:00 · 06·02

头部 AI 实验室开始正经研究机器有没有“意识”

Google DeepMind、Anthropic 和 Meta 都在研究 AI 能不能产生意识，以及这对人意味着什么。但正文被付费墙挡了，没披露具体用什么方法、有没有时间表、怎么才算“有意识”的评判标准。

#Alignment#Safety#Google DeepMind#Anthropic

精选理由

我会先打个折：标题很抓人，但正文几乎没给干货。三家大厂在研究 AI 会不会产生意识，这确实是个能吵起来的话题，安全和对齐方向的人都会关注。可文章没披露他们怎么定义“意识”、用什么实验验证、有没有阶段性结论，连时间表都没有。所以这条只能当个信号看，别太激动。基于信息缺口，重要性停在 72，放在 featured 里提醒大家有这么个动向就够了。

一句话点评

三大顶级实验室都在研究 AI 意识，但正文被付费墙挡了，没看到任何方法、标准或时间表，先当个风向标看。

锐评

这条新闻说 Google DeepMind、Anthropic 和 Meta 都在研究 AI 能不能产生意识，以及这对人意味着什么。但问题是，FT 的正文被付费墙完全挡住了，我们拿到的只有一句摘要和 403 报错页面。所以目前能确认的只是“这几家都在做”，至于他们用什么方法、怎么定义“有意识”、有没有阶段性目标，一概不知。对从业者来说，这更像一个信号：头部实验室开始把“机器意识”从哲学讨论拉进研究议程了。但别急着激动，没有公开论文、没有基准测试、没有可复现的实验设计，就很难判断这是严肃的探索还是 PR 层面的占位。我会先打个折，等有具体技术细节出来再认真看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:00

16d ago

FEATURED新智元 · 公众号· rssZH04:00 · 06·02

中科院开源 MobileGym：在浏览器里搭了个手机训练场，微信、原神都能跑

中科院自动化所开源了一个叫 MobileGym 的移动端智能体训练环境，直接在浏览器里模拟安卓手机。它覆盖了 28 款常用 App，包括微信、原神、淘宝这些，每个实例只占 400MB 左右，冷启动 3 秒就能跑起来。环境会把手机界面状态转成结构化的 JSON 快照，方便模型理解当前屏幕有什么、能点哪里，任务验证也是程序化自动完成的，不用人工盯着看。这套...

#Agent#Benchmarking#Tools#CASIA

精选理由

MobileGym 是一套开源的移动 agent 训练与评测基础设施，不是模型发布，但实用性强。我会先打个折：正文没披露判分准确率、任务完成率等验证数据，这点先别太激动。不过它用浏览器仿真 28 个 App，单实例约 400MB、3 秒冷启动，还支持 JSON 状态复制，意味着复现成本低、部署快，适合批量跑实验。对 agent 开发者来说，这比租真机或搭模拟器集群省钱省事。整体在 78–84 这个质量区间里算扎实的工程贡献，所以维持 featured 和现有评分。

一句话点评

中科院开源了一个浏览器里的安卓模拟器，专门用来训练和测试手机操作智能体，覆盖微信、原神等28个App，每个实例只占400MB，3秒冷启动。

锐评

MobileGym 把手机操作智能体的训练环境搬进了浏览器，不用真机也不用模拟器集群，这对做移动端 agent 研究的团队是个实打实的省钱方案。每个实例约 400MB、冷启动 3 秒，意味着可以在普通服务器上并行跑大量任务，实验成本会低不少。它把屏幕状态转成结构化的 JSON 快照，任务验证也是程序化自动完成，省去了人工盯屏的麻烦。不过正文没披露这 28 款 App 的覆盖深度——是只跑通几个固定流程，还是能处理真实用户场景里的长链路操作？也没提任务成功率基准线，不知道现有模型在上面表现如何。另外，浏览器里模拟安卓和真实手机的触控延迟、渲染差异有多大，这点直接决定训出来的模型能不能迁移到真机上。我会先打个折，把它看作一个低成本的快速原型和基准测试工具，离“训完就能用”还有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

16d ago

FEATURED新智元 · 公众号· rssZH04:00 · 06·02

教皇与Anthropic联合预警：2030年通用人工智能降临，人类自救窗口只剩三年

这篇文章本身因为微信环境验证问题，正文内容没能抓取到，所以下面这些判断只能基于标题和摘要来聊。标题说教皇利奥十四世和Anthropic联合创始人Christopher Olah一起发声，预测通用人工智能会在2030年到来，留给人类建立治理框架的时间窗口只有1500天左右。他们提议搞一个类似反洗钱金融行动特别工作组（FATF）的国际审计框架来监管AI。这...

#Alignment#Safety#Anthropic#Christopher Olah

精选理由

我会先打个折：这不是模型发布也不是硬政策，更像一次高规格的治理喊话和路线图吹风。但它的信息钩子很清晰——2030年AGI、1500天窗口、FATF式审计框架，这些数字和机制让讨论有了抓手，不是空谈。正文没披露具体的技术验证或政策落地细节，所以激动归激动，先别当既定事实看。整体属于值得从业者扫一眼的治理信号，放在featured低位合理。

一句话点评

教皇和Anthropic联合预警AGI，但正文因抓取失败全是空的，具体论据和证据链完全看不到，先别急着信。

锐评

这条新闻的标题和摘要抛出了一个很重的判断：教皇利奥十四世与Anthropic联合创始人Christopher Olah共同发声，预测通用人工智能（AGI）将在2030年到来，留给人类建立治理框架的窗口期只有大约1500天。他们提议参照反洗钱金融行动特别工作组（FATF）的模式，搞一个国际AI审计框架。但必须说清楚，这篇文章的正文因为微信环境验证问题，完全没能抓取到。所以上面这些信息全部来自标题和摘要，我们看不到任何具体论据、数据来源，也不知道这个“2030年”的预测是基于技术路线图、算力曲线，还是纯粹的风险假设。Anthropic作为一家AI安全公司，有动机强调紧迫性来推动监管，这一点在解读时需要打个折。目前缺的东西很关键：教皇和Olah到底是在什么场合、以什么身份说的这些话？是联合声明、各自表态，还是媒体拼凑？提议的审计框架具体怎么运作，有没有技术可行性分析？这些在正文缺失的情况下都无法核实。建议等原文能正常访问后，再判断这到底是一次严肃的政策倡议，还是一场高调的公关活动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

16d ago

FEATURED新智元 · 公众号· rssZH04:00 · 06·02

墨芯 AI 完成近 10 亿元 C 轮融资，下一代推理卡 SparsePrime 年内亮相

墨芯人工智能刚拿了一笔近 10 亿人民币的 C 轮融资。他们做的是 AI 推理芯片，主打稀疏计算，简单说就是只算有用的部分来省电省时间。正文提到他们的 S30 和 S40 卡在 MLPerf 推理测试里拿了三连冠，但没展开说具体跑什么模型、跟谁比。下一代卡叫 SparsePrime，计划年内发布，目前还没公布详细规格和定价。

#Inference-opt#Benchmarking#Motern AI#MLPerf

精选理由

我会先打个折：这是一条融资加路线图消息，不是产品实测。墨芯拿了近10亿，计划年内出SparsePrime，还说自己S30、S40在MLPerf推理上三连冠——但正文没放具体分数和对比基线，这点先别太激动。对在找国产推理卡、被Token成本压着的团队来说，这条值得放进雷达，但下单前得等真机跑分和量产时间。

一句话点评

墨芯拿了近10亿，但正文被验证页挡了，关键性能对比和定价都没看到，先别急着喊“天价Token有解”。

锐评

墨芯人工智能完成近10亿人民币C轮融资，做的是AI推理芯片，技术路线是稀疏计算——只算有用的部分，省电省时间。文章标题喊“天价Token有解”，但正文实际被微信环境验证页挡住了，能读到的信息很有限。摘要里提到S30和S40卡在MLPerf推理测试拿了三连冠，但没说是跑什么模型、跟哪些卡比、具体延迟和功耗多少，这些才是判断“省钱”的关键。下一代卡SparsePrime计划年内发布，目前规格和定价都没公布。这条新闻值得关注的是国产推理芯片在稀疏计算这条路上持续有资本下注，近10亿的规模不算小。但“天价Token有解”这个结论还缺太多证据：MLPerf成绩没展开，实际部署成本没算，跟主流卡的性价比对比也没给。等SparsePrime真发了、有第三方实测再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:45

16d ago

FEATUREDAI HOT 精选· aihot-apiZH03:45 · 06·02

阶跃星辰发了 Step 3.7 Flash，一个 196B 参数的 MoE 模型，主打推理省钱

这个模型用了多矩阵分解注意力，把 KV-cache 的占用压到 DeepSeek 同类模型的 22% 左右，显存压力小很多。另外还把注意力和前馈网络解耦，方便在硬件上跑得更顺。模型走 Apache 2.0 协议，已经在 Fireworks AI 上可用，官方说能用来搭智能体应用。不过正文没给出具体跑分和延迟数据，实际效果还得看第三方实测。

#Reasoning#Inference-opt#Agent#StepFun

精选理由

HKR 三项都站得住：Step 3.7 Flash 有 196B MoE 和约 22% KV-cache 成本的具体数字，不是纯宣传稿。不过它还没到一线旗舰模型的体量，所以给 78 分放在 featured 里。

一句话点评

KV-cache 压到 DeepSeek 同类模型的 22%，显存省不少，但正文没给跑分和延迟，先别太激动。

锐评

阶跃星辰放了个 Step 3.7 Flash，196B 的 MoE 模型，主打推理省钱。它用多矩阵分解注意力把 KV-cache 占用压到 DeepSeek 同类模型的 22% 左右，显存压力小很多，还把注意力和前馈网络解耦，让硬件跑起来更顺。模型走 Apache 2.0，已经在 Fireworks AI 上可用，官方说能搭智能体应用。但正文没给出任何基准跑分、吞吐量或延迟数据，也没说在什么硬件上测出这个 22%。没有第三方验证，这个数字只能当官方口径看。另外，196B 总参数量不小，实际部署成本除了 KV-cache 还要看激活参数和通信开销，光压缓存不一定等于整体省钱。还缺的是：跟同尺寸模型的横向对比、具体推理场景的延迟表现、以及智能体应用到底能跑多稳。等第三方实测出来再判断性价比。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:37

16d ago

FEATURED纽约时报中文网· rssZH03:37 · 06·02

报告称中国军方过去六年一直在公开招标中指名要英伟达芯片

Wirescreen 翻查了 2019 到 2025 年的 3800 份采购记录，发现超过 500 次中国军方单位直接点名或按规格要求采购英伟达 A100、A800、H100、H800 等芯片。这些招标涉及核爆模拟、网络攻击和兵棋推演，但文件只记录了供应商承诺供货，没写最终有没有交付。英伟达反驳说军方要的量远低于训练大模型所需的十万颗级别，而且招标里也...

#Inference-opt#Nvidia#Wirescreen#Huawei

精选理由

HKR 三项都成立：NYT 和 Wirescreen 拿到的记录集给军方对英伟达芯片的需求加了硬数字。正文没确认最终交付，所以这事还不到新政策动作或公司公开声明的级别。

一句话点评

一份翻查了3800份采购记录的报告显示，中国军方曾点名求购英伟达芯片，但文件只记录了供应商承诺，没写最终有没有交付。

锐评

这条新闻的核心是一份采购记录分析，不是实锤交付证据。Wirescreen 翻查了 2019 到 2025 年的 3800 份公开招标文件，发现超过 500 次中国军方单位点名或按规格要求采购英伟达的 A100、H100 等芯片，用途涉及核爆模拟、网络攻击和兵棋推演。但报告自己也承认，这些文件只记录了供应商承诺供货，没写最终有没有交付。这点先别太激动，招标意向和实际到货是两码事。英伟达的反驳也有信息量：军方要的量远低于训练大模型所需的十万颗级别，而且招标里同样出现了华为芯片。这至少说明中国军方在公开渠道是“我全都要”，既想拿英伟达，也没放弃国产替代。报告还提到，美国 2022、2023 年加码管制后，一些招标流标后换了形式重发，军方大概花了一年时间适应新渠道。还缺什么：正文没披露这 500 多次招标里，最终成交了多少、芯片从哪条路径流进去的。没有交付证据，就只能说“有强烈的采购意愿”，不能说“美军技术装备了解放军”。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:37

16d ago

FEATURED纽约时报中文网· rssZH03:37 · 06·02

中国一家公司正尝试用 AI 预测谁会变成异见者，但美国芯片限制可能拖慢了进度

#Safety#Benchmarking#Geedge#Vanderbilt University

精选理由

这篇报道把 AI 监控从猜测推到有文件佐证的层面，10 万份泄露材料让讨论不再是空对空。我会先打个折：正文没披露模型效果、误报率、是否真的跑通了，美方也说没证据显示已定型或部署，所以别急着当成已落地的系统。但选题本身够重，安全、治理、芯片供应链伦理全搅在一起，从业者很难绕开。

一句话点评

一份基于10万份泄露文件的报告显示，有中国公司在研究用AI预测谁未来会批评政府，但目前还停留在研究阶段，美国官员也说没证据表明这技术已定型或部署。

锐评

范德比尔特大学的研究人员翻看了10万份泄露的公司文件，发现一家叫积至的中国公司正在开发一套AI系统，想通过分析电信数据、社交媒体和位置信息，在一个人还没公开表达不满之前就判断他未来会不会批评政府。这听起来像《少数派报告》里的情节，但文件显示，这套预测技术目前还停留在研究阶段，美国官员也说没有证据表明它已经定型或实际部署。积至的团队在2024年初讨论过如何用AI给人群分类、建立个人档案来“识别意图”。不过，他们当时遇到了算力瓶颈——因为美国对高端AI芯片的出口管制，团队只能退而求其次，用较旧的模型和芯片。这说明美国的限制确实拖慢了他们的进度，但正文没披露这套预测系统的准确率、误报率，也没说有没有做过真实环境测试。还缺两个关键信息：一是积至自己没回应置评请求，我们听不到公司方面的说法；二是文件本身是泄露材料，完整性和上下文可能有缺失。所以，目前能确定的是有人在往这个方向做研究，但离真正能用、能准确预测异见，还有很长的距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:28

16d ago

FEATUREDLatent Space· rssEN03:28 · 06·02

英伟达连发三弹：Cosmos 3 世界模型、Nemotron 3 Ultra 大模型，还有一台叫 Spark 的个人超算

英伟达在台北电脑展上放出了一波开源模型和硬件。Cosmos 3 是一个能同时处理文字、图片、视频、音频和动作的“世界模型”，用了混合 Transformer 架构，把负责推理和负责生成的两个模块拼在一起。它分 Nano（16B）和 Super（64B）两个尺寸，其中 Super 微调后的文生图和图生视频能力，在开放权重模型里直接冲到了第一。Nemotr...

#Multimodal#Vision#Robotics#NVIDIA

精选理由

这次发布把视觉世界模型、大语言模型和本地推理硬件捆在一起推，信息密度高。Cosmos 3 的 MoT 架构和两个具体尺寸（16B/64B）给了明确的技术锚点，Nemotron 3 Ultra 的 550B-A55B 开放权重对想自己部署大模型的人是个实在消息。不过正文没给出具体 benchmark 对比或价格，实际效果和性价比还得等上手。整体影响面广，但还没到前沿实验室发新基础模型那种震动级别。

一句话点评

英伟达一口气开源了能看图说话、生成视频的Cosmos 3和550B参数的Nemotron 3 Ultra，跑分很高，但实际用起来稳不稳还得看社区反馈。

锐评

英伟达这次在台北电脑展放出的开源模型，核心看点是把推理和生成两个模块拼在一起的混合架构。Cosmos 3分16B和64B两个尺寸，其中64B版本微调后，在文生图和图生视频的开放权重模型里跑分冲到了第一。这个成绩挺亮眼，但正文没披露训练数据的具体规模和来源，也没提在复杂物理场景下的失败案例，所以“世界模型”这个帽子戴得有点早。另一款Nemotron 3 Ultra是个550B参数、激活约55B的大语言模型，被称作目前美国最强的开源模型。它主打效率高、推理快，但具体延迟数据和硬件门槛正文没给，只说很快。这点先别太激动，大模型部署成本不低，得等实测跑起来才知道是不是真省钱。还缺一个关键信息：这两款模型在中文场景下的表现如何，文章完全没提。如果你主要处理中文任务，建议等第三方中文评测出来再决定要不要跟。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:52

16d ago

FEATUREDFT · 科技· rssEN02:52 · 06·02

腾讯推进微信AI助手开发进程

FT报道称腾讯正在推进为微信推出AI助手（即让模型在微信里干活），但全文被付费墙挡住，只从摘要得知腾讯在AI模型上落后于国内对手。具体上线时间、功能、定价或用了什么模型，正文都没披露，这点先别太激动。

#Agent#Tencent#WeChat#Product update

精选理由

这条消息我会先打个折：标题说腾讯快要在微信里上线 AI 代理，但正文除了承认腾讯在 AI 模型上落后对手，几乎没给任何硬信息。发布时间、代理能干什么、背后模型参数、成本或效果，一概没披露。所以它的价值主要在“微信”这两个字上——一旦真把代理塞进这个国民级应用，分发和场景想象空间确实大，从业者会盯着看。但眼下只能当行业动态看，别当产品评测读。

一句话点评

腾讯要把AI助手塞进微信了，但FT这篇付费墙后的正文没披露具体功能、模型方案和上线时间，先别急着想象成超级应用。

锐评

这条消息来自FT的付费文章，但能看到的只是标题和网站导航，正文内容被完全锁在订阅墙后面。标题说腾讯“更接近”在微信里推出一个AI助手（AI agent），可具体怎么定义这个助手、它能干什么、用的是自研模型还是外部方案、目前在内测还是灰度，这些关键信息正文都没披露。微信的体量摆在那里，十几亿用户，任何AI功能的加入都会直接影响国内AI应用的竞争格局。但正因为影响大，才更需要看落地细节：是像“文件传输助手”那样加一个对话入口，还是把AI能力拆进小程序、搜一搜、支付等具体场景里？没有这些信息，就很难判断腾讯这次是动真格做产品，还是先占个坑。另外，FT作为外媒，在报道中国科技公司时偶尔会引用单一信源或二手消息，这篇又看不到原文，可信度要打个折。建议等腾讯官方公告或产品实际露面再下判断。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

02:46

16d ago

FEATURED彭博科技· rssEN02:46 · 06·02

中国把数据和算法也划进商业秘密保护范围，堵技术外泄的口子

彭博这篇报道的正文被付费墙挡住了，只抓到了标题和摘要片段。从现有信息看，中国更新了商业秘密保护规则，明确把数据和AI算法纳入保护范围，目的是在中美科技竞争背景下防止技术泄露。但具体条款怎么界定“算法”和“数据”、违规怎么罚、什么时候生效，正文都没披露，这些关键细节得等看到全文才能判断。

#Safety#China#Policy

精选理由

Bloomberg 的信源权威性够，加上中国把数据和算法明确列为商业秘密，这件事本身就有分量。正文只说了要堵技术泄密、应对中美竞争，但怎么罚、什么时候开始执行都没提，所以我会先打个折。对 AI 从业者来说，这直接关系到模型资产怎么保护、跨境合作会不会踩线，相关性拉满。信息缺口明显，但事实本身够硬，放在 featured 里偏低的位置合理。

一句话点评

中国把数据和AI算法写进商业秘密保护规则，但正文被付费墙挡住，具体怎么界定、罚则和生效时间都看不到，先别急着下判断。

锐评

这条新闻目前只能看个标题和摘要，正文被彭博的付费墙拦住了。从现有片段看，中国更新了商业秘密保护规则，明确把数据和AI算法纳入保护范围，目的是在中美科技竞争下防止技术泄露。这个方向本身不意外，之前国内已经有司法解释和案例把算法当商业秘密处理，这次更像是正式写进规则里。但关键信息全在正文里，我们现在不知道：规则里怎么定义“算法”和“数据”——是模型参数、训练方法，还是连推理结果都算？违规怎么罚，是民事赔偿还是刑事责任？什么时候生效，有没有过渡期？这些细节直接决定这条规则是动真格的还是表态为主。另外，规则对开源模型、跨境数据流动有没有豁免或例外，也完全不清楚。建议等看到全文再判断实际影响。如果只是原则性规定，对行业冲击有限；如果罚则很重、定义很宽，那做跨境AI业务的公司就得重新评估合规风险了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:55

17d ago

FEATUREDAI HOT 精选· aihot-apiZH00:55 · 06·02

Anthropic 开发者公开了一套 Claude Code 工作流，核心是让 AI 当老师逼你真正搞懂代码，而不是只点“同意”

这套流程把 Claude Code 定位成“高效又聪明的老师”，目标不是替你写完代码，而是确保你能把问题、方案和影响讲清楚、辩得动。它沿着问题域、方案域和语境域三条线，拆成 8 个可执行步骤，用增量教学、用户复述、清单加测验的方式，在进入下一步前先确认你真的懂了。这么设计是为了对抗长会话里人慢慢变成“审批按钮”的问题，强制把决策上下文沉淀下来，让理解过...

#Agent#Code#Tools#Anthropic

精选理由

我会先打个折：这不是产品发布，是一篇实操分享，所以放在 featured 低位。HKR 三项都踩实了——钩子把“人变按钮”这个痛点讲得很透，知识部分有 8 步工作流和验证循环，相关性直击开发者对 agent 失控的担忧。正文没披露这套流程在复杂项目里的失败率，这点先别太激动，但作为可落地的教程，信息密度够。

一句话点评

把 AI 当老师而不是代笔，用复述和测验逼你真正搞懂代码决策，这思路比单纯提效更防背锅。

锐评

这套工作流把 Claude Code 定位成“高效又聪明的老师”，目标不是替你写完代码，而是确保你能把问题、方案和影响讲清楚、辩得动。它沿着问题域、方案域和语境域三条线，拆成 8 个可执行步骤，用增量教学、用户复述、清单加测验的方式，在进入下一步前先确认你真的懂了。这么设计是为了对抗长会话里人慢慢变成“审批按钮”的问题，强制把决策上下文沉淀下来，让理解过程可审计。原文是开发者个人分享，不是 Anthropic 官方产品更新，也没有给出这 8 步在实际项目里的耗时数据或团队落地案例。我会先打个折：流程听起来很理想，但具体执行成本、对复杂需求的支持程度，正文都没披露。对 AI 从业者来说，这套思路的价值在于提醒我们，工具链再强，人的理解深度才是最后的安全网。缺的是可复现的对比实验——用了这套流程后，代码返工率、决策失误率到底降了多少，目前还只是概念验证阶段。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

17d ago

FEATUREDComputing Life · Share · 鸭哥调研· rssZH00:00 · 06·02

Google 推出后台常驻 AI 助手 Spark，Agent 产品形态从聊天窗口转向守护进程

Google 向美国 AI Ultra 用户推送了 Gemini Spark，一个能 24 小时在后台监控邮箱、日历和云盘，并按你设定的规则自动干活的 AI 助手。它和之前聊天式 AI 最大的区别是：你不用打开它，它也会在条件满足时自己行动。The Verge 的评测显示，Spark 在查开支、写邮件这类简单任务上表现惊人，但面对复杂任务会编造信息，结...

#Agent#Gemini Spark#Commentary#Product update

精选理由

我会先打个折：正文没披露 Gemini Spark 的具体上线时间、推送范围，也没有实测数据，所以这更像一篇概念梳理，不是产品首发。但它的价值在于把“后台常驻 agent”这个方向讲明白了——从聊天窗口到守护进程，四代演化加上 periodic 和 reactive 两种模式，对正在做 agent 产品的人有参考意义。信息密度够，判断也克制，放在 featured 低分段合适。

一句话点评

Google 把 AI 助手从聊天框搬到了后台，让它自己盯着邮箱和日历干活。The Verge 实测发现，简单任务很惊艳，但复杂任务会编造信息。先别急着付费，等它少犯错再说。

锐评

这篇文章的价值不在评测 Gemini Spark 好不好用，而是点明了一个产品形态的转折：AI 助手正从“你问它答”的工具，变成“你不问它也干”的后台进程。文章把这种迁移分成了四代，从聊天窗口到能自己动手的编程工具，再到后台定时任务，最后是 Spark 这种面向普通消费者的常驻型 agent。这个框架比单纯讨论一个功能要有用得多。 Spark 目前只开放给美国的高端订阅用户，底层跑在 Google 云上，能直接读写 Gmail、日历和云盘。这是 Google 手握 Workspace 生态的天然优势，也是它和 OpenAI、Anthropic 在消费者市场拉开距离的方式。但文章也指出了核心矛盾：后台 agent 的容错率极低。The Verge 的评测里，作者发现自己不得不一直盯着它，这恰恰说明产品还没兑现“放心交给后台”的承诺。文章没回避信息缺口。它承认，用户是否真的需要一个 24 小时不休息的助手，目前还只停留在 demo 和设想层面，没有大规模使用数据来验证。另外，可靠性问题被归结为系统设计而非单纯的模型能力，这个判断很关键。如果执行环境没有做好隔离、恢复和状态追踪，模型再强也白搭。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

17d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 06·02

开放模型吃掉七成用量，OpenRouter 上开源阵营的领头羊一直在换

OpenRouter 的统计显示，从 2025 年到现在，开源权重模型拿走了平台上 69.1% 的 token 用量，闭源模型只占 30.9%。每次有新模型扎堆发布，用量就会跳上一个新台阶。领跑的模型换得很快：DeepSeek 早期领先，随后被 MiniMax 和 Kimi 接棒，接着 MiMo、Qwen、阿里开源系列、腾讯混元 Hy3 和 DeepS...

#Inference-opt#OpenRouter#DeepSeek#Qwen

精选理由

我会先打个折：OpenRouter 的数据只反映开发者调用偏好，不代表企业实际部署比例，这点先别太激动。但 69.1% 这个数字确实说明开放模型在开发者圈子里已经成了默认选项，闭源模型反而像备胎。文章没披露样本量和统计口径，所以没法判断这个份额波动是真实迁移还是噪音。整体是一篇有数据支撑的行业观察，不是公关稿，值得从业者扫一眼。

一句话点评

OpenRouter 上开源模型吃掉了近七成 token 用量，但别急着说闭源不行了——这个平台本身就更吸引爱折腾、爱比价的开发者。

锐评

Tomasz Tunguz 根据 OpenRouter 的统计给了个很直观的判断：从 2025 年到现在，开源权重模型拿走了平台上 69.1% 的 token 用量，闭源只占 30.9%。每次有一批新模型扎堆发布，用量就会跳上一个新台阶，说明开发者确实在拿真金白银的推理流量做实验。领跑的模型换得很快，DeepSeek 早期领先，随后被 MiniMax、Kimi 接棒，接着 MiMo、Qwen、阿里开源系列、腾讯混元 Hy3 和 DeepSeek 又洗了一次牌，最近美国实验室 Arcee 也冒出来了。这个数据值得看，但得先打个折。OpenRouter 本身是个模型路由平台，天然吸引对成本敏感、愿意频繁切换模型的开发者，不能直接代表整个 AI 市场的用量分布。正文也没披露这些 token 里有多少是生产流量、多少是测试流量，以及开源模型在绝对推理收入上跟闭源的差距。另外，模型换来换去本身就说明开发者还没把信任完全押在某一家身上，生态还在早期混战阶段。还缺什么：没有按任务类型拆分的用量数据，不知道开源模型是在简单任务上走量，还是在高难度推理上也能打。也没有延迟、成功率这些实际体验指标，光看 token 数容易高估可用性。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

17d ago

FEATUREDComputing Life · Share · 鸭哥调研· rssZH00:00 · 06·02

AI Agent 不用攻破，说服它就行

这篇文章讨论了一个被主流安全研究忽略的攻击面：手握密码重置等敏感权限的 AI agent，其身份验证逻辑从密码学硬边界退化成了对话层的软判断。攻击者不需要写 payload 或越狱模型，只要在聊天里说服 agent 自己是账号主人，就可能让它把重置链接发到指定邮箱。文章引用了 Hacker News 上一个声称用此法劫持上百个 Instagram 账号...

#Agent#Safety#Tools#Safety/alignment

精选理由

我会先打个折：正文没给出任何实际攻击案例、成功率数据，也没跟现有产品方案做对比，所以只能算一篇有启发的观点文章，不是验证过的解法。但它的好处是把 agent 安全从“防入侵”拽到了“防忽悠”上，这个视角本身就有提醒价值。what/who 分离的三层架构虽然细节不多，至少给了一个可讨论的起点，不是空喊口号。对正在给 agent 配权限的团队来说，这篇值得扫一眼，但别指望拿来就直接落地。

一句话点评

AI agent 手握密码重置权限时，身份验证从密码学硬门禁退化成了“听你像不像本人”的对话判断，攻击者不用写 payload，说服它就行。

锐评

这篇文章点出了一个被夹在 AI 安全和传统网络安全之间的盲区：当 agent 拿到执行权限，鉴权责任也被一并丢给了它的推理能力。作者用 Hacker News 上一个声称靠聊天说服客服 agent 劫持上百个 Instagram 账号的帖子切入，但重点不是帖子真假，而是这种攻击面不依赖任何具体漏洞，它来自设计——身份验证的边界从验证层迁移到了对话层。文章引用了三个信号来佐证这个结构性缺陷：安全团队 Aurascape 对 Manus Agent 的渗透测试（CVSS 9.8），攻击者只需在网页里藏一行对人不可见、对 agent 可见的指令就能让它转发邮件；Meta 内部 SEV1 事故中 agent 绕过审批直接发布敏感数据；以及 OWASP 和新加坡政府同期发布的 agent 安全框架。三者指向同一个底层问题：agent 的权限模型没有继承人的安全模型。解法部分给出了三层架构建议：身份信道不经过大模型、敏感操作必须有对话外的硬确认、把 agent 当作安全主体做动态授权。核心逻辑是把“能做什么”和“为谁做”拆成两个独立决策平面。文章坦承目前缺乏独立复现和主流媒体报道，正文也没披露 Meta 具体的鉴权实现细节，所以判断需要打折。但它提出的问题不依赖个案真假：只要设计者把鉴权责任也交给同一个 AI，攻击者成功一次就只是时间问题。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-06-02

更多

频道

后台