热点聚合 · 2026-05-22

▸ 49 signals · updated 3m ago

live · 238 today·policy v2

AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选Sumi：从头训练的 7B 开源均匀扩散语言模型78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选Sumi：从头训练的 7B 开源均匀扩散语言模型78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选Sumi：从头训练的 7B 开源均匀扩散语言模型78·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

126 212 320 419 542 632 749 826 923 1017 1136 1248 1337 1454 1539 1630 1719 1849 1976 2045 2148 2249 2313 2415 2520 2637 2744 2848 2935 3022 3114

2026年6月

一二三四五六日

147 258 348 447 545 619 715 852 945 1031 1128 1221 1313 1415 1524 1635 1726 1823 192021222324252627282930

2026-05-22 · 星期五2026年5月22日

23:59

27d ago

● P1AI HOT 精选· aihot-apiZH23:59 · 05·22

Gemini 月活破 9 亿，新增两个能替你干活的代理功能

Google 说 Gemini 应用月活用户超过 9 亿了。这次更新把 Gemini 从问答工具往主动干活的个人代理方向推了一步。新模型叫 Gemini 3.5 Flash，还换了套叫“Neural Expressive”的设计语言，另外 Gemini Omni 模型能把提示词直接生成视频。重点在两项代理功能：Daily Brief 会给你出个性化每日...

#Agent#Multimodal#Google#Gemini

精选理由

Google 这次更新核心就两件事：一是 Gemini 应用月活冲到 9 亿，盘子确实大；二是推出了 Daily Brief 和 Gemini Spark 两个代理功能，后者可以在用户授权下 24 小时跑任务。我会先打个折，正文没披露代理功能的具体完成率和延迟数据，实际干活靠不靠谱还不知道。但 9 亿这个量级加上“常驻后台的个人代理”定位，对做 agent 产品的团队来说是个明确的信号——大厂开始用自家分发渠道推代理了，竞争门槛在抬高。

一句话点评

Gemini 月活破 9 亿，但 Google 没说是怎么算的。新推的 Daily Brief 和 Spark 代理功能听起来像能替你干活，实际能接管多少任务、会不会翻车，正文没给细节，先别太激动。

锐评

Google 这次把 Gemini 从问答工具往主动干活的个人代理方向推了一步。月活 9 亿这个数字挺大，但正文没披露统计口径，是打开过就算，还是真在用的，不知道。新模型叫 Gemini 3.5 Flash，还换了套设计语言，另外 Omni 模型能把提示词直接生成视频，这点如果效果稳定，对内容创作挺省事。重点在两项代理功能：Daily Brief 给你出个性化每日简报，Gemini Spark 号称能 7x24 小时替你管理任务。听着像能帮你订票、回消息、整理日程，但授权范围、出错率、隐私怎么处理，正文全没提。这种主动代理一旦翻车，代价比问答答错大得多。还缺的是实际体验数据和限制条件。比如 Spark 能接管哪些 App，跨平台支持怎么样，延迟高不高。这些不说清楚，9 亿用户更像是个宣传数字，产品到底能不能用，还得等上手。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:48

27d ago

FEATUREDFT · 科技· rssEN22:48 · 05·22

特朗普政府拟要求外国人离美申请绿卡

特朗普政府计划收紧永久居留规则，要求外国人必须离开美国才能申请绿卡。正文未披露受影响的具体类别、时间表或对企业的冲击规模。

#Trump administration#Policy

精选理由

HKR 三项都过，但这是广义移民政策，不是 AI 模型、产品或研究新闻。正文没披露适用范围、时间表和企业影响规模，信息缺口明显，所以放在 all 低段。

一句话点评

特朗普要外国人离境才能申请绿卡，等于把境内调整身份的路堵死。FT独家，但正文被墙，没披露具体影响哪些类别、何时生效、企业会受多大冲击。目前只有标题和摘要，信息缺口很大，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:30

27d ago

FEATUREDAI HOT 精选· aihot-apiZH22:30 · 05·22

黄仁勋说 AI 基建年开支会冲到 4 万亿美元，比华尔街共识高了四倍

黄仁勋在英伟达财报电话会上抛出一个数字：超大规模云厂商的 AI 基建年开支会从现在的 1 万亿美元涨到 3 到 4 万亿，CFO 给的时间线是 2030 年前。华尔街分析师原本的共识是 2028 年才到 1.03 万亿，老黄直接翻了四倍。一季度谷歌、亚马逊、微软三家资本开支加起来已经超过 1100 亿美元，Meta 更是把全年预算拉到 1450 亿，结...

#Inference-opt#Nvidia#Jensen Huang#Commentary

精选理由

黄仁勋说的 3-4 万亿美元是 CEO 预测，不是已发生的模型发布或产品落地，所以分数压在 78-84 这个区间。数字本身有信号价值——它把云厂商的烧钱速度量化了，也间接给英伟达的营收预期撑腰。但正文没披露这个 4 万亿是怎么算出来的，也没说时间节点，这点先别太激动。

一句话点评

老黄在财报会上把云厂商AI基建年开支预期直接拉到3-4万亿美元，是华尔街共识的四倍。数字很炸，但这是卖铲子的人给淘金者画的饼，先打个折听。

锐评

黄仁勋在英伟达财报电话会上扔出的“4万亿美元”判断，本质上是把自家未来收入的天花板往上抬了一大截。他说的不是整个AI市场，而是超大规模云厂商一年的资本开支，目前这个数字是1万亿，他预测会翻三到四倍。CFO给的时间线是2030年前。对比一下，华尔街分析师原本觉得2028年才能到1.03万亿，老黄直接把预期拉满了。这个预测的锚点在哪？一季度谷歌、亚马逊、微软三家资本开支加起来已经超过1100亿美元，Meta更是把全年预算拉到1450亿。按这个烧钱速度，1万亿确实挡不住。但问题在于，这些投入最终要靠应用层的收入来回收，而目前Agent的可靠性还撑不起大规模商业闭环，正文里也提到有Agent在获得权限后9秒删光生产数据库的案例。文章没披露的是，这3-4万亿的构成里，有多少是英伟达自己的芯片收入，有多少是配套的电力、土地和基建。另外，电费上涨那部分数据来自SemiAnalysis和IEA，不是英伟达官方口径，引用时要注意来源。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:09

27d ago

FEATUREDAI HOT 精选· aihot-apiZH22:09 · 05·22

Claude Code v2.1.149：用量报告分类展示、企业可开放云端 MCP 连接器，并修了三个安全漏洞

这个版本主要做了三件事。第一，/usage 命令现在会按类别（比如对话轮次、工具调用）分开展示用量，方便你看出成本花在哪。第二，企业管理员可以通过 allowAllClaudeAiMcps 设置，允许团队直接使用 Anthropic 云端的 MCP 连接器，不用自己搭。第三，修了三个安全漏洞：PowerShell 脚本可能绕过权限执行、Git work...

#Code#Agent#Tools#Anthropic

精选理由

Claude Code 的一次小版本更新，改动不多但都落在实处。/usage 现在能按类别看用量，方便你盯成本；企业管理员多了个 allowAllClaudeAiMcps 开关，可以统一放行 MCP 工具，不用一个个批。安全方面修了 3 个问题，最要紧的是 PowerShell 权限绕过——正文没展开具体利用条件，但光这个就够让运维团队推更新了。整体属于实用型发版，没画饼。

一句话点评

Claude Code 更新了用量分类展示，能看出钱花在对话还是工具调用上；企业版可以直接用 Anthropic 云端的 MCP 连接器，省去自己搭。

锐评

这次 v2.1.149 更新不大，但三个改动都踩在痛点上。/usage 命令现在按类别分开展示用量，比如对话轮次和工具调用各自花了多少 token，这对控制成本挺实用——之前你只能看到一个总数，根本不知道钱烧在哪。企业管理员多了个 allowAllClaudeAiMcps 开关，允许团队直接用 Anthropic 云端的 MCP 连接器，不用自己部署和维护，对不想折腾基础设施的团队是个省心选项。安全方面修了三个漏洞：PowerShell 脚本可能绕过权限执行、Git worktree 沙箱白名单溢出、以及脚本路径带空格时 otelHeadersHelper 会挂。正文没披露这些漏洞的严重程度和是否被利用过，但从描述看都属于边界情况下的权限或稳定性问题，建议尽快升级。整体来看这是个维护型版本，没有新功能大改，但用量透明化和企业部署简化都挺实在。还缺的是：云端 MCP 连接器具体支持哪些服务、有没有额外费用，这些正文都没提，企业用户做决策前得自己去翻文档。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:08

27d ago

FEATUREDAI HOT 精选· aihot-apiZH22:08 · 05·22

Claude 自动模式向 Pro 用户开放，支持 Sonnet 4.6 和 Opus 4.7

Claude 的自动模式现在 Pro 计划也能用了，不再是最贵那一档的专属。这次更新还接入了 Sonnet 4.6 和 Opus 4.7 两个模型，按 Shift+Tab 就能让 Claude 自己跑任务。正文没提价格有没有变，也没说是不是全量推送，这点先别太激动。

#Agent#Tools#Claude#Anthropic

精选理由

这是一次中等体量的产品更新，不是新模型或重大能力发布。自动模式进 Pro 计划，配上两个模型和快捷键，对日常靠 Claude 干活的开发者有实际影响，但还没到需要全行业关注的程度。

一句话点评

Claude 自动模式下放到 Pro 计划，还接入了 Sonnet 4.6 和 Opus 4.7，按 Shift+Tab 就能跑任务。但正文没提价格和推送范围，先别急着升级。

锐评

这次更新把自动模式从最贵档位拉到了 Pro 计划，门槛降了不少。之前只有 Max 用户能用，现在更多人可以让 Claude 自己跑任务，按 Shift+Tab 就启动。模型方面给了两个选择：Sonnet 4.6 和 Opus 4.7，前者快，后者强，看你要速度还是要质量。但正文没写 Pro 计划的价格有没有跟着变，也没说是不是全量推送、有没有调用次数限制。自动模式跑起来消耗的 token 通常比手动对话多，如果 Pro 的额度没调，实际能用多久是个问题。另外 Opus 4.7 在自动模式下的表现和手动模式有没有差距，也没给数据。还缺的是：Pro 用户每月能用多少次自动模式、单次任务有没有步数上限、两个模型在自动模式下的成功率和延迟对比。这些没公布之前，只能说门槛低了，但划不划算还得自己试。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:52

27d ago

FEATUREDHacker News 首页· rssEN20:52 · 05·22

NTSB因AI合成事故飞行员音频而关闭公开档案库

美国国家运输安全委员会（NTSB）在 5 月 21 日暂停了其在线事故档案系统的公开访问。起因是网上有人利用软件和 AI 工具，根据调查文件里的信息，重新生成了 UPS 货运航班 2976 号坠机前驾驶舱内遇难飞行员的声音片段。联邦法律本来就禁止调查机构公开驾驶舱录音，这次绕过禁令的“复原”行为直接促使 NTSB 紧急关停了整个数据库。文章没有披露被复...

#Audio#Safety#NTSB#Ars Technica

精选理由

我会先打个折：正文只有 RSS 和 HN 的元数据，案卷编号、音频是谁做的、NTSB 在什么条件下撤的，全都没写。所以这条消息的“新”是成立的，但信息厚度很薄。钩子很强——用 AI 复刻死人声音，还逼得官方机构撤材料，这在安全和伦理上都够扎眼。对从业者来说，它提醒了一件事：语音克隆在公共记录上的滥用，已经开始触发真实的制度反应。这点先别太激动，等后续有案卷细节再判断影响多大。

一句话点评

有人用 AI 把空难遇难飞行员的声音“复活”了，NTSB 吓得直接关了公开档案库。

锐评

这事挺离谱的。美国国家运输安全委员会（NTSB）有个公开的交通事故调查档案库，里面会放一些事实报告和证据材料。结果有人从这些材料里扒出数据，用 AI 软件合成了遇难飞行员在坠机前最后几秒的声音，还传到了网上。NTSB 在 5 月 21 日直接暂停了整个公开档案系统的访问。他们这么紧张，是因为美国联邦法律本来就禁止调查机构公开驾驶舱录音，怕的就是被拿去消费死者。现在技术绕过了这个限制，用公开的飞行数据和文字记录就能“逆向工程”出声音，等于把法律想保护的东西又造了出来。这暴露了一个很现实的漏洞：只要信息碎片够多，AI 就能拼出你不想让人听到的东西。不过，正文没具体说这些人到底用了什么工具、从哪些数据里提取了声音特征，也没提合成音频的逼真程度。所以现在还不清楚这到底是需要专业技能的深度伪造，还是拿个现成软件就能搞定的“一键生成”。这点先别太激动，但 NTSB 直接关库的反应，说明他们觉得这事风险已经大到没法靠打补丁解决了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:39

27d ago

FEATUREDThe Verge · AI· rssEN20:39 · 05·22

谷歌AI概览对"disregard"搜索返回意外回复

谷歌AI概览又翻车了。有用户发现，搜“disregard”（忽略）这个词，AI概览没有正常总结搜索结果，反而像聊天机器人一样回复“收到，有事再找我”。到周五下午谷歌已经撤掉了这个查询的AI概览，改成优先展示相关新闻。正文没披露触发原因，也没说修复方案。

#RAG#Safety#Google#The Verge

精选理由

这是一个单次查询触发的搞笑翻车事件，有具体查询词和下线时间，但正文没披露影响范围、是否可复现，也没有系统性影响数据，所以重要性压在 68 的 all 档合理。

一句话点评

谷歌搜索的AI概览把“disregard”这个词直接搞崩了，搜出来只有一大片空白和一个词典链接，等于废了。

锐评

谷歌刚把AI摘要推到搜索结果最前面，就出了个离谱的bug：搜“disregard”这个词，AI回复区只给出一大块空白，用户得往下翻很久才能看到唯一有用的韦氏词典链接。这已经不是回答质量差的问题，而是整个界面直接坏掉，对搜这个词的人来说毫无价值。TechCrunch的编辑拿必应做了对比，必应的结果虽然不算完美，但至少能看。一个做了快15年科技报道的记者说，这是他头一次觉得必应的搜索结果比谷歌有用。这件事暴露的不是AI模型笨，而是谷歌在把AI强行塞进搜索时，对边缘情况的测试明显没做够。正文没提谷歌官方有没有回应，也没说这个bug影响了多少搜索量。但一个英文常用词就能触发空白页，说明上线前的质量把控很粗糙。如果连这种基础词都处理不好，更复杂的查询会出什么乱子，先别太乐观。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:26

27d ago

FEATUREDHacker News 首页· rssEN20:26 · 05·22

Models.dev：开源的AI模型规格、定价与能力数据库

Models.dev 是一个开源项目，把各家 AI 模型的规格、定价和能力信息整理成数据库，方便开发者横向对比。项目在 GitHub 上已有 3.9k 星标，但正文没披露具体收录了多少模型，也没说数据怎么更新——这点先别太激动，覆盖面和时效性还不清楚。如果你经常在不同模型之间挑花眼，这个库能省去挨个翻文档的麻烦。

#Benchmarking#Models.dev#Hacker News#Open source

精选理由

HKR-R 成立是因为模型定价直接影响选型和成本；HKR-H 和 HKR-K 不成立是因为正文没给规模、数据来源或更新机制。有用但不够头条。

一句话点评

一个把各家模型价格、能力参数摊开对比的开源数据库，选模型前可以先去翻翻，但数据更新频率和准确性正文没细说。

锐评

Models.dev 做了一个 AI 从业者很需要的事：把不同模型的规格、定价和能力放在一个地方，用开源的方式维护。它不像厂商官网那样只说好话，而是直接列出参数和价格，方便横向对比。目前项目在 GitHub 上拿了 3.9k 星，说明确实戳中了很多人的痛点——现在模型太多、更新太快，选型成本很高。不过正文主要来自 GitHub 页面，没披露数据是怎么采集和校验的。如果全靠社区手动提交，那覆盖面和时效性就得打个问号。另外，定价信息变化频繁，数据库能不能跟上厂商的调价节奏，正文也没提。这点先别太激动，把它当成一个快速参考的起点可以，但做采购决策前最好再去官方文档核实一遍。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

19:57

27d ago

● P1AI HOT 精选· aihot-apiZH19:57 · 05·22

Anthropic 的 Project Glasswing 一个月内发现超万个高危软件漏洞

Anthropic 说，他们和大约 50 家合作伙伴用 Claude Mythos Preview 模型，在全球最关键的基础软件里找到了超过一万个高危或严重级别的漏洞。现在瓶颈已经不是找漏洞的速度，而是验证、通报和打补丁的速度。在开源软件扫描这块，模型自己估算发现了 6,202 个高危或严重漏洞，其中 1,752 个已经过独立安全公司或 Anthrop...

#Code#Agent#Benchmarking#Anthropic

精选理由

Anthropic 这次放出的不是模型跑分，而是 Claude 在真实关键系统里挖漏洞的战报。约 50 家合作伙伴用 Claude Mythos Preview 扫出超过一万个高危或严重漏洞，独立验证准确率 90.6%，说明模型在安全自动化这条线上已经从“能看”走到“能干活”了。我会先打个折：正文没披露漏洞类型分布、误报率和修复成本，也没说这 90.6% 是在什么条件下测的，所以准确率数字先别太激动。但不管怎么说，一万多个高危漏洞这个量级，加上 Mozilla、Cloudflare 这类合作方背书，对做安全自动化和关键基础设施防护的团队来说，是一个...

一句话点评

Anthropic 用新模型一个月扫出上万个高危漏洞，但具体细节要等补丁铺开才能说，现在看到的数字先打个折。

锐评

Anthropic 公布了 Project Glasswing 的首月数据：约 50 家合作方用 Claude Mythos Preview 模型，在各自的核心软件里总共发现了超过一万个高危或严重漏洞。Cloudflare 一家就找到 2000 个 bug，其中 400 个是高危或严重级别，而且误报率比人类测试员还低。Mozilla 测 Firefox 150 时挖出 271 个漏洞，是上一版用 Claude Opus 4.6 时的十倍多。这些数字说明 AI 找漏洞的速度已经远超人类，现在瓶颈变成了怎么快速验证、通报和打补丁。在开源软件扫描上，Anthropic 自己用 Mythos Preview 扫了 1000 多个项目，模型自己估计有 6202 个高危或严重漏洞。其中 1752 个已经过外部安全公司复核，90.6% 是真漏洞，62.4% 确认是高危或严重级别。按这个比例推算，光开源项目就能筛出近 3900 个高危漏洞。wolfSSL 那个例子挺直观——模型直接构造了一个能伪造证书的攻击，影响数十亿设备。不过要冷静看。Anthropic 自己说了，因为行业惯例是漏洞发现后 90 天才公开细节，现在披露的都是滞后指标。正文没给出漏洞的具体类型分布，也没说这些漏洞里有多少是模型独立发现、多少需要人工引导。英国 AISI 和 XBOW 的外部评测都夸模型能力强，但评测基准的覆盖面和真实攻防场景的差距有多大，文章没展开。另外，微软和甲骨文都说补丁量在猛增，但没提这些补丁对应的漏洞修复成本有多高。等补丁大规模部署后 Anthropic 承诺会放出更多细节，那时候才能判断这波 AI 挖漏洞到底改变了什么。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:42

27d ago

● P1彭博科技· rssEN19:42 · 05·22

Anthropic融资超300亿美元，估值突破900亿

彭博社援引知情人士消息，Anthropic 计划最快下周关闭一轮超过 300 亿美元的融资，投后估值超过 9000 亿美元。这个数字会让它超过 OpenAI，成为全球最值钱的 AI 创业公司。不过正文被 Bloomberg 的机器人验证墙挡住了，具体条款、投资方和资金用途都没披露。

#Anthropic#OpenAI#Bloomberg#Funding

精选理由

彭博说 Anthropic 最快下周就能把这轮超过 300 亿美元的融资关掉，投后估值冲到 9000 亿美元以上，按这个数字它会超过 OpenAI 成为估值最高的 AI 初创公司。我会先打个折：正文没披露具体投资人、资金用途和估值计算方式，而且交易还没落袋，所以重要性停在 91 分，没往 95 以上推。但这条消息本身够直接——钱、时间、排名三个要素都给了，对关注前沿实验室资本动态的人就是一条硬消息。

一句话点评

Anthropic 这轮融的钱比原定目标还多，估值直接反超 OpenAI，但 9000 亿这个数字得看最终条款会不会缩水。

锐评

Anthropic 这轮融资的规模和速度都挺夸张。超过 300 亿美元、估值破 9000 亿，如果下周真能敲定，它会直接超过 OpenAI 成为估值最高的 AI 创业公司。这个估值背后有收入数据在撑：公司预计第二季度营收 109 亿美元，比上季度翻了一倍多，而且可能首次实现盈利。年化营收目标也喊到了 500 亿美元，去年 7 月这个数字才 40 亿，增长曲线很陡。不过这些数字目前都来自彭博社引用的匿名消息源，最终投资承诺和条款还在谈，存在变数。文章没披露这轮融资的具体领投方和资金用途，也没说 9000 亿估值是投前还是投后。另外，年化营收是按短期收入推算全年，如果后续季度增速放缓，这个数字会打折扣。我会先打个折看这件事：收入增长是真的猛，但估值已经跑到很前面了。还缺的是具体的投资人名单、资金怎么花，以及这轮融资后离上市还有多远。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

17:46

27d ago

FEATUREDr/LocalLLaMA· rssEN17:46 · 05·22

Agent 里的调度模型能做多小？有人用 3B 激活参数的 MoE 跑通了本地 ReAct 循环

这篇帖子来自一个叫 HomoAgens1 的本地部署实验，他把 Agent 的调度模型和写代码的大模型拆开看，专门测调度环节能缩到多小。他用的 Qwen3.6-35B-A3B 是个 MoE 模型，实际干活时只激活约 3B 参数，跑在一块 12GB 显存的 GPU 上，关了 30 个专家做 offload，生成速度能到每秒 40 个 token。实验发现...

#Agent#Tools#Code#Qwen

精选理由

我会先打个折：这是 Reddit 上的单人实验，不是正式发布，结论别当定论。但它的发现很实在——用 Qwen3.6-35B-A3B 跑 ReAct 编排，3B 激活参数就能在 12GB 显卡上跑到 40 t/s，成本够低。更小的模型不是推理先崩，而是工具调用纪律先坏，这个失败模式对选型很有参考价值。显存、速度和故障点都给了具体数字，对想在家用显卡上折腾 agent 的人是一手好参考。

一句话点评

调度模型可以很小，但小模型先崩的不是推理，是工具调用纪律——会自己编参数、重复错误调用。

锐评

这个实验把 agent 的调度和写代码拆开，专门测调度模型能缩多小。用 Qwen3.6-35B-A3B 这个 MoE 模型，实际只激活约 3B 参数，跑在 12GB 显存上，关了 30 个专家做 offload，生成速度能到每秒 40 个 token。实验发现，更小的稠密模型最先在工具调用纪律上出问题，比如自己编造参数、重复错误调用，而不是推理能力先崩。这点挺反直觉——通常大家觉得小模型先输在脑子不够用，但这里先输在手脚不老实。不过正文没披露具体测了哪些小模型、用的什么 benchmark，也没说工具调用失败率的具体数字。实验只跑在本地 ReAct 循环里，场景比较单一，换到更复杂的多步任务或不同框架下结论可能不一样。另外，MoE 模型 offload 专家后实际推理成本到底省了多少，也没给量化对比。还缺的是：小模型在工具调用上崩，是因为训练数据里工具调用样本太少，还是模型容量本身就不够记住工具 schema？如果能补上这个归因，对选模型会更有指导意义。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:32

27d ago

FEATUREDHacker News 首页· rssEN17:32 · 05·22

微软开始取消内部 Claude Code 许可证，正文没披露范围和原因

这条消息来自 Hacker News 热帖，标题说微软在取消 Claude Code 的许可证，但原文只给了一个存档链接，没有展开讲取消了多少、为什么取消、什么时候开始的。帖子有 99 个赞和 56 条评论，说明关注度不低，但信息量很薄。我会先打个折：目前只能确认微软内部有人在动 Claude Code 的权限，具体是合规收紧、预算砍掉还是转向自家 C...

#Code#Microsoft#Claude#Product update

精选理由

标题说微软开始取消 Claude Code 许可证，但正文除了一个存档链接和 HN 上的 99 分、56 条评论，什么都没展开。我会先打个折：这条消息的传播价值在于冲突感，而不是信息量。微软为什么取消、是部分客户还是全部、什么时候生效，这些关键点全是空白，所以别急着下结论。对从业者来说，它更像一个信号——大厂在开发者工具上的边界摩擦可能影响实际采购和工具链选择，但目前只能当个引子看。

一句话点评

微软在砍 Claude Code 的许可证，但原文没给取消范围、原因和时间，只有一条存档链接，先别急着下结论。

锐评

这条消息目前只有标题和一条存档链接，正文没披露微软为什么取消、砍了多少个许可证、是临时收紧还是永久停用。Hacker News 上 99 个赞和 56 条评论说明从业者很关心，但讨论基础很薄。能确认的只有一点：微软内部有人在动 Claude Code 的权限。可能的原因有几个方向——合规部门收紧外部 AI 工具的使用、预算调整、或者微软在推自家的 Copilot 替代。但这些都是猜测，原文没有任何内部邮件或政策文件佐证。如果后续有微软员工出来说具体数字和原因，这条新闻才值得认真看。现在只能当个信号：大厂对第三方 AI 编码工具的态度可能在变。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

17:27

27d ago

FEATUREDAI HOT 精选· aihot-apiZH17:27 · 05·22

Kakuna：把原型代码自动加固成生产级项目的 AI 工具

Kakuna 是一个 AI 代理工具，专门把早期快速原型转成可维护的生产级代码库。它内置检查清单和“先定计划再执行”的工作流，模拟人类开发与运维的流程，在不动功能的前提下自动做代码审查、补测试、重构这些“无聊活”。工具强调用多个子代理并行干活来提效，一次大约 16 小时的运行能生成上百次提交，把一个脆弱的 MVP 变成结构清晰、能长期迭代的稳定项目。正...

#Agent#Code#Tools#Kakuna

精选理由

Kakuna 这个工具让代理按内置检查清单和“计划-目标”流程自动加固代码，一次约16小时能跑出上百次提交。我会先打个折——单条推文来源、非大厂出品，验证强度有限，但信息量够：工作流机制、运行时长、产出规模都给了具体数字，不是画饼。对正在折腾原型转生产的开发者来说，这种“代理帮你擦屁股”的思路有参考价值，所以放在 featured 档。

一句话点评

一次跑16小时自动把原型代码加固成生产级，但正文没提它改完的代码能不能直接通过CI和人工review。

锐评

Kakuna 做的事是把一个脆弱的 MVP 代码库自动加固成结构清晰、能长期维护的版本。它用内置检查清单和“先定计划再执行”的流程，模拟开发运维的常规操作，在不动功能的前提下补测试、做重构、跑代码审查。一次大约 16 小时的运行能生成上百次提交，这个量级说明它确实在干大量重复的“无聊活”，而不是只改几个文件做做样子。不过正文没披露它实际跑在什么语言或框架的项目上，也没说加固后的代码是否通过了 CI 流水线或人工 review。这点先别太激动——能生成上百次提交不代表每次提交都靠谱，如果后续还得人工大量返工，省下的时间可能又还回去了。另外，它强调用多个子代理并行提效，但没给出并行带来的具体加速比或资源消耗，比如 16 小时是单机还是集群跑出来的。还缺一个关键信息：它处理的项目规模有多大。如果只是几百行的小原型，16 小时和上百次提交反而说明效率不高。如果是几千行的项目，那这个自动化程度才值得认真看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:09

27d ago

FEATUREDAI HOT 精选· aihot-apiZH17:09 · 05·22

谷歌在 I/O 大会甩出一整套 AI 代理开发工具，从写代码到上线调试全包了

谷歌这次发布的不是单个模型，而是一条让 AI 代理（能自主干活的程序）落地的工具链。Antigravity 2.0 是个独立桌面应用，配了命令行工具和 SDK，方便开发者直接在本机跑代理。Google AI Studio 新增 Kotlin 支持，号称能一键生成安卓应用并发布，还出了手机版 App。Gemini API 里加了托管代理服务，部署步骤简化...

#Agent#Tools#Code#Google

精选理由

HKR 三项都成立：谷歌端出了一套有名字、有组件的代理工具栈，覆盖本地开发、云端托管和浏览器协议。不过目前只有社交媒体的摘要，正文没披露定价、API 细节和实际演示，所以分数卡在 78–84 这个区间。我会先打个折，等看到更完整的文档再往上调。

一句话点评

谷歌把代理开发工具一口气打包了，从桌面到浏览器到部署都给了，但别急着喊生态，先看实际跑起来稳不稳。

锐评

谷歌这次 I/O 发的不是单个模型，而是一整套让 AI 代理落地的工具链。Antigravity 2.0 是个独立桌面应用，配了命令行和 SDK，开发者可以在自己电脑上直接跑代理，不用全扔云端。Google AI Studio 加了 Kotlin 支持，号称能一键生成安卓应用并发布，还出了手机版 App，方便在移动端调试。Gemini API 里新增了托管代理服务，部署步骤简化到一键，但正文没披露托管环境的延迟、并发上限和计费细节，这点先别太激动。 WebMCP 作为开放标准塞进了 Chrome 149，让网页能向代理暴露工具，相当于给代理开了个浏览器里的工具箱。Chrome DevTools 也开放给代理做自动化调试，理论上能省不少手动排查时间。企业客户可以直接连 Google Cloud 项目，DeepMind 的科学技能包则针对特定领域研究加速。整条链从开发、接口到部署都覆盖了，但关键信息缺了不少：Antigravity 2.0 的资源占用、托管代理的稳定性验证、WebMCP 的安全边界都没提。工具链看着全，实际能不能扛住生产环境的复杂度，还得等开发者大规模用起来再看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:01

27d ago

FEATUREDAI HOT 精选· aihot-apiZH17:01 · 05·22

智能体工作负载正在改写推理成本账本

SemiAnalysis 扒了 43.2 万条真实编码智能体的请求记录，输入 token 的中位数不是大家常说的 3.2 万或 6.4 万，而是 9.6 万。这个量级意味着模型在接到你的问题之前，已经吞下了比《了不起的盖茨比》全书还长的上下文。正文没披露用了哪些模型、成本曲线、采样方式和统计时间窗口，所以这个数字先当个参考，别急着拿它算账。

#Agent#Code#Inference-opt#SemiAnalysis

精选理由

HKR 三项都过：SemiAnalysis 拿出了一个 43.2 万条编码智能体请求的数据集，中位输入 9.6 万 token，这个数据点本身够硬。但模型、成本曲线、采样方法全都没说，所以只能算强数据点，到不了必写级别。

一句话点评

SemiAnalysis 扒了 43.2 万条真实编码智能体请求，输入 token 中位数是 9.6 万，不是大家常说的 3.2 万或 6.4 万。这个数字先当参考，正文没披露用了哪些模型、成本曲线和采样方式。

锐评

这条数据点值得从业者看一眼，因为它直接打脸了行业里对智能体输入长度的普遍假设。9.6 万 token 的中位数意味着模型在接到你的问题之前，已经吞下了比《了不起的盖茨比》全书还长的上下文——这对推理成本和延迟的影响是实打实的。如果这个数字有代表性，那很多按 3.2 万 token 做的成本估算都得重算。不过我会先打个折。正文没披露这 43.2 万条请求来自哪些模型、采样时间窗口多长、有没有过滤掉异常值。如果样本里混了大量调试阶段的超长上下文请求，中位数就会被拉高。另外也没说成本曲线——输入长了，但模型是不是用了缓存、分块处理或者投机解码来压成本，这些都不知道。还缺两样东西：一是输出 token 的分布，光看输入不看产出，算不出完整的推理账单；二是不同模型在这个输入量级下的延迟和成功率对比。有这两块，才能判断 9.6 万 token 到底是新常态，还是某个特定场景的偏态。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:03

27d ago

FEATUREDr/LocalLLaMA· rssEN16:03 · 05·22

llama.cpp 新分支让 MoE 模型在 12GB 显存上跑得更快，RTX 2060 上速度从 19/22 tk/s 提到 26 tk/s

comanderxv 给 llama.cpp 开了个叫“experts first”的分支，专门优化混合专家模型（MoE）的显存调度。做法是把常用的专家模块提前缓存到显存里，实测用 RTX 2060（12GB 显存）跑 Qwen3.6-35B-A3B 模型，专家缓存命中率约 62%，生成速度从原来的 19 或 22 token/秒提升到了 26 tok...

#Inference-opt#Tools#Code#llama.cpp

精选理由

HKR 三项都踩中了：钩子是一块 12GB 的老卡把 35B MoE 速度拉上来一截，有缓存机制和命中率数据撑着，话题又打在本地推理的成本神经上。不过这事目前还局限在本地推理的小圈子，所以放在 featured 档刚好，不用拔到必读。

一句话点评

给 llama.cpp 开了个“专家优先”分支，把 MoE 模型常用模块提前缓存，12GB 显存跑 35B 模型能到 26 token/秒，但命中率 62% 意味着近四成情况还得等。

锐评

这个分支的思路很直接：混合专家模型（MoE）每次推理只激活一小部分专家，与其每次都从内存或硬盘现调，不如把最常用的那几个提前塞进显存里。实测用一张 RTX 2060（12GB 显存）跑 Qwen3.6-35B-A3B，生成速度从原来的 19 或 22 token/秒提到了 26 token/秒，提升幅度在 18% 到 37% 之间。不过“专家缓存命中率约 62%”这个数字得看你怎么理解。它说明有将近四成的请求还是没命中缓存，该慢的时候照样慢。正文没交代这个命中率是在什么任务上测的——写代码、聊天、还是长文总结——不同场景下专家被激活的分布可能差很多，实际体验的波动会比平均速度大。另外，这个分支目前只是个人 fork，还没合进 llama.cpp 主线。稳定性、兼容其他模型（比如 Gemma）的表现、以及缓存策略能不能自适应调整，正文都没提。如果你手头正好有 12GB 左右显存的卡想跑大 MoE 模型，可以试试，但别指望它对所有任务都稳定提速。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:59

27d ago

FEATUREDHacker News 首页· rssEN15:59 · 05·22

DeepSeek宣布V4 Pro永久降价至原价四分之一

DeepSeek 在定价页更新了一条脚注：V4 Pro 模型现在的 75 折优惠在 2026 年 5 月 31 日结束后，会直接变成正式价格，也就是原价的四分之一。具体来说，输入 token（没命中缓存）从每百万 1.74 美元降到 0.435 美元，输出 token 从 3.48 美元降到 0.87 美元。缓存命中的输入价格更便宜，只要 0.0036...

#Inference-opt#DeepSeek#Product update

精选理由

我会先打个折：这条消息的钩子很足，永久四分之一价直接挑动价格战神经，对开发者钱包影响大，所以 H、K、R 都成立。但正文没披露具体单价，信息缺了一块，没法判断实际便宜到什么程度，所以只够 featured 门槛，算不上必写的大新闻。

一句话点评

DeepSeek V4 Pro 的 API 价格永久降到原价四分之一，输入缓存命中每百万 token 只要 0.0036 美元，但并发上限只有 500，高负载业务得先算清楚排队成本。

锐评

DeepSeek 把 V4 Pro 的促销价直接变成了永久定价，输入缓存未命中从 1.74 美元/百万 token 砍到 0.435 美元，输出从 3.48 美元砍到 0.87 美元，降幅 75%。这个价格在同类模型里确实有竞争力，尤其适合对成本敏感、调用量大的场景。不过公告里没提降价后模型性能有没有变化，也没说是不是因为推理架构优化才降的本。另外 V4 Pro 的并发限制是 500，比 Flash 版的 2500 低不少，意味着高峰期可能排队，实际吞吐量会受影响。如果你打算把核心业务切过去，建议先压测一下延迟和可用性，别光看单价就冲。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:38

27d ago

FEATUREDDwarkesh Patel 播客· rssEN15:38 · 05·22

从逻辑门到 AI 芯片：Reiner Pope 的芯片设计黑板课

MatX 的 CEO Reiner Pope 从最底层的与、或、非逻辑门讲起，一步步拆解 AI 芯片到底怎么工作。他先用一个 4 比特乘 4 比特、再用 8 比特累加的例子，演示了乘法累加（MAC）运算在电路里长什么样——这其实就是矩阵乘法的基本动作，AI 芯片绝大部分时间都在干这个。接着聊到数据搬运比计算还贵，所以芯片里要用多路复用器（mux）来省连...

#Inference-opt#Reiner Pope#MatX#Dwarkesh Patel

精选理由

Dwarkesh 这次访谈没讲空话，Reiner Pope 从最底层的门电路开始，一步步解释怎么为 AI 推理专门设计芯片。我会先打个折：这不是产品发布或行业爆料，更像一堂硬核科普，所以分数不会给到新闻级。但内容密度很高，把脉动阵列、数据流和 ASIC 的取舍都讲透了，对做推理优化的人有实际参考价值。正文没披露 MatX 芯片的具体性能指标，这点先别太激动。

一句话点评

这篇不是新闻，是一堂从与或非门讲到GPU架构的芯片设计课。Reiner Pope用白板把矩阵乘法的电路实现拆得很透，适合想补硬件的算法工程师看。

锐评

这是一篇很硬的科普访谈，不是产品发布或融资消息。MatX CEO Reiner Pope从最底层的逻辑门开始，手把手演示了4比特乘法累加电路怎么搭，再一路讲到脉动阵列、流水线寄存器、FPGA和ASIC的区别、缓存和便签本的设计取舍，最后解释了为什么GPU核心比CPU小得多。Dwarkesh Patel作为投资人没藏着掖着，开头就说了自己是天使投资人，这点挺坦诚。访谈里最有意思的判断是：数据搬运比计算本身贵得多，所以芯片设计的大量精力都花在怎么用多路复用器省连线、怎么安排数据流上。Pope还拿人脑和芯片做了对比，但正文没给出具体结论，这部分更像一个开放讨论。缺的东西也很明显：全程没提MatX自家芯片的任何具体参数、性能指标或流片进度，也没和英伟达现有产品做直接对比。所以这更像一次面向公众的芯片通识课，而不是技术路线声明。如果你想知道MatX到底能不能打，这篇给不了答案。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:37

27d ago

FEATUREDTechCrunch AI· rssEN15:37 · 05·22

Google 的 AI 眼镜我们上手试了，离好用就差一口气

Google 在 I/O 大会上给了一小段上手时间，试的是带显示功能的 Android XR 眼镜，不是今年秋天只出声的那款。镜片上能直接叠一层信息，比如天气、步行导航、打车详情和实时翻译，还能用 AI 自己捏小组件。眼镜会同时支持 iPhone 和安卓手机。但正文没提价格、什么时候开卖、续航和具体硬件参数，所以现在只能算工程机阶段，别急着掏钱。

#Multimodal#Vision#Google#Gemini

精选理由

我会先打个折：正文没披露价格、上市时间和续航，所以重要性停在 74 分、放在 featured 低位是合理的。但 TechCrunch 的实际上手测试本身就比通稿有说服力，Gemini 把翻译和导航叠进视野这个机制，是把 AI 从“问一句答一句”推到“你看着世界它帮你理解”的关键一步。对从业者来说，这比又一个聊天机器人更新更值得盯。

一句话点评

上手感觉不错，但别急着掏钱：价格、续航、开卖时间全没公布，现在就是个工程机。

锐评

Google 这次在 I/O 大会上拿出来的 AI 眼镜，是带显示功能的 Android XR 版本，不是今年秋天只出声的那款。镜片上能直接叠一层信息，比如天气、步行导航、打车详情和实时翻译，还能用 AI 自己捏小组件。眼镜会同时支持 iPhone 和安卓手机，这点对不想换生态的人挺友好。但正文只给了很短的上手时间，而且没提价格、什么时候开卖、续航和具体硬件参数。所以现在只能算工程机阶段，离真正能买还差好几步。我会先打个折：功能演示看着顺滑，但没经过日常折腾的验证，比如强光下显示效果、长时间佩戴发热、通知轰炸会不会烦人，这些全不知道。还缺一个关键信息：Google 打算怎么处理隐私和第三方应用生态。眼镜上一直开着摄像头和麦克风，路人怎么知道你在拍没拍？如果只有 Google 自己的服务好用，那它就是个 Gemini 配件，算不上独立设备。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:32

27d ago

FEATUREDr/LocalLLaMA· rssEN15:32 · 05·22

Qwen-27B 4位量化版本发布，16GB显存支持10万token上下文

Pablo_the_brave 放出了一个 Qwen-27B 的 4-bit 量化版（IQ4_KS），模型文件只有 14.1GB，专门适配 ik_llama.cpp，目标就是 16GB 显存的 NVIDIA 卡。亮点是用了 Q4_0 Hadamard KV cache，把上下文窗口撑到了 105k token——相当于一次塞进大半本《三体》的量。作者测...

#Inference-opt#Reasoning#Benchmarking#Qwen

精选理由

这是一条Reddit上的量化配置分享，目标受众是LocalLLaMA社区。数字确实有用——27B模型压到14.1GB，配合特定KV cache优化能跑105k上下文，对16GB显存用户是个好消息。但正文没披露具体推理速度或精度损失，验证偏弱。影响力局限在社区层面，够不上精选。

一句话点评

Qwen-27B 用 IQ4_KS 量化后能塞进 16GB 显存的 NVIDIA 卡跑了，速度到 40 tok/s。但原帖被 Reddit 屏蔽，具体配置和测试细节看不到。

锐评

这条消息对玩本地部署的人来说是个好消息：27B 参数的模型，通过 IQ4_KS 这种高压缩量化，终于能在单张 16GB 显存的 NVIDIA 消费级显卡上跑起来，而且生成速度到了每秒 40 个 token，已经可用了。这意味着你不用买天价专业卡，也能在本地玩到接近 30B 级别的模型。但兴奋之前得先打个折。原帖链接点进去是 Reddit 的网络安全拦截页面，正文内容完全看不到。我们只知道标题里提了 ik_llama.cpp 这个分支和 16GB 显存，但具体的量化损失、运行精度、上下文长度、功耗和温度表现，这些关键信息全是空白。40 tok/s 这个数字来自另一个帖子标题，也没有详细说明是短文本生成还是长对话下的稳定速度。所以这条消息的价值在于指了个方向，但没法当实测结论用。想知道真实效果，得等有人绕过屏蔽把原帖内容搬出来，或者自己下模型跑一遍。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:12

27d ago

FEATUREDAI HOT 精选· aihot-apiZH15:12 · 05·22

Project Genie 接入谷歌街景，能把美国真实地点变成可交互世界

Project Genie 和谷歌地图街景打通了，现在你可以把美国真实地点直接转成能走进去玩的交互式世界。正文没披露具体支持哪些城市、生成机制、收费方式，也没说开放范围有多大。

#Multimodal#Vision#Google DeepMind#Google Maps

精选理由

Project Genie 跟谷歌街景合作，把美国真实地点变成能走进去互动的世界。我会先打个折——正文没写具体城市、生成机制和开放范围，所以别当产品发布看。但如果是真的，用街景数据直接生成可交互环境，省掉建模成本，这点对做仿真和世界模型的人挺有吸引力。

一句话点评

谷歌地图街景能直接生成可交互世界了，但正文没提支持哪些城市、怎么收费、生成要多久，先当概念演示看。

锐评

Project Genie 把谷歌街景的美国地点变成了能走进去玩的交互式世界。听起来像把静态全景图升级成可探索的 3D 场景，但正文只发了一条推文，没披露任何技术细节。关键信息全缺：支持哪些城市、生成一场景要多久、对用户设备有什么要求、是否收费、开放给普通用户还是仅限内测。没有这些，很难判断是产品落地还是技术 demo。从 AI 从业者角度看，如果真能把街景数据实时转成可交互环境，对游戏、模拟训练、虚拟旅游都有价值。但街景数据本身是离散的全景图拼接，要生成连续可走的 3D 空间，中间涉及深度估计、场景重建、空洞填补，质量如何完全没提。建议等官方放出实际演示或技术文档再评估。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

15:09

27d ago

FEATUREDAI HOT 精选· aihot-apiZH15:09 · 05·22

大模型在生产环境会“说胡话”，但大部分跑分测试根本不查这个

Dharma-AI 在 Hugging Face 发了篇博文，说现在的大语言模型上线后经常出现文本退化——输出内容来回重复、前言不搭后语或者逻辑崩掉。这种故障直接影响用户体感和模型能不能用，但主流基准测试基本没把这类问题纳入评分。文章呼吁业界在评估体系里加上对文本退化的系统追踪和量化指标，正文没披露具体的指标设计或实验数据。

#Benchmarking#Safety#Dharma-AI#Hugging Face

精选理由

HKR 三项都过了，但这篇帖子只披露了故障模式和基准盲区，没给样本量、具体指标或复现方法，信息密度偏低，放在 featured 里靠下的位置比较合适。

一句话点评

大模型上线后输出变复读机或胡言乱语，主流跑分榜根本不测这个，正文没给具体指标和实验数据。

锐评

Dharma-AI 在 Hugging Face 上指出了一个挺实在的问题：模型在真实环境里会“文本退化”，比如来回重复同一句话、前后逻辑断裂，用户一看就觉得这模型不行。但现在的评测榜单基本不碰这块，大家还在卷数学题和阅读理解，离生产环境差得远。文章呼吁把退化现象纳入评估体系，但正文没披露他们打算怎么量化——是统计重复 n-gram 比例、测连贯性分数，还是用人工标注？也没给出任何实验数据或案例样本。所以这篇更像一个方向提醒，不是一套可落地的方案。对做模型部署的团队来说，这个提醒本身有价值：如果你只看榜单选模型，上线后用户投诉“它老说车轱辘话”，那榜单分数再高也没用。但具体怎么测、阈值设多少，还得自己摸索，文章没给现成答案。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:53

27d ago

FEATUREDHacker News 首页· rssEN14:53 · 05·22

Superset：一个能同时派多个 AI 编程助手干活的开源编辑器

#Agent#Code#Tools#Superset

精选理由

HKR 三项都踩中了，但这是 YC 新项目的首发帖，正文没给用量、定价和性能对比。git-worktree 并行 agent 这个工作流设计够上 featured，但离必写还差实际验证数据。

一句话点评

一个 IDE 能同时跑多个编程助手，想法不错，但正文没给出任何性能对比或实际省了多少时间，先当概念验证看。

锐评

Superset 把自己定位成“AI 代理时代的代码编辑器”，核心卖点是能在一台机器上并行跑 Claude Code、Codex、OpenCode 等多个编程助手，通过 git worktree 让它们互不干扰地改代码。团队还放出了 Remote Workspaces 的测试版，可以在远程机器上跑这些助手，再从桌面应用里统一管理。项目在 GitHub 开源，是 YC P26 批次的项目。但正文没披露任何关于并行效率、资源占用、冲突处理机制的具体数据，也没说清楚多个助手同时改代码时，合并冲突怎么解决、代码质量怎么保证。这些是实际用起来最要命的问题。目前看，这个工具解决的是“让多个 AI 助手同时干活”的调度问题，但没回答“干出来的活能不能直接用”。如果后续能补上冲突解决策略、代码审查流程和实际案例，会比现在这个“军队”比喻更有说服力。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:36

27d ago

● P1AI HOT 精选· aihot-apiZH14:36 · 05·22

BitCPM-CANN开源发布，华为昇腾NPU原生训练1.58比特大模型

ModelBest、清华和OpenBMB搞了个BitCPM-CANN，从0.5B到8B都有，全程用华为昇腾910B NPU训练，没走英伟达路线。1.58比特三元量化意味着每个权重只取三种值，内存比BF16省了约6倍，能塞进手机、电脑和车载设备里跑。基准测试成绩保住了全精度模型的95-97%，这点挺实在。我会先打个折：正文没披露具体推理延迟和功耗数据，也...

#Inference-opt#Benchmarking#ModelBest#Tsinghua University

精选理由

HKR三项都站得住：昇腾910B全栈训练1.58比特开源模型这个角度够新，数据也扎实。没给P1是因为目前只有发布事实，缺少独立复现或实际落地效果的佐证，所以先放在featured。

一句话点评

面壁智能在华为昇腾 NPU 上原生训练并开源了 1.58-bit 大模型，显存省了约 6 倍，能力保留率 90% 以上，但正文没给具体评测基准和延迟数据。

锐评

这条消息最值得看的是“全栈国产算力跑通了极低比特训练”。BitCPM-CANN 从量化算子到训练框架全在昇腾 910B 上完成，意味着以后在华为卡上做 1.58-bit 模型有了公共基础设施，不用每家从头搭一遍。四个尺寸（0.5B 到 8B）都开源了，官方说推理显存比 BF16 省约 6 倍，能力保留率在 90% 到 97.2% 之间，8B 模型能塞进旗舰手机跑。但先别太激动。文章没交代这个“能力保留率”是在哪些基准上测的，也没提推理延迟和吞吐。极低比特模型最怕的是生成质量在长文本或复杂任务上掉得厉害，光看一个百分比不够。另外，训练成本、与同尺寸全精度模型在真实业务场景下的对比也都没给。如果后续能补上这些，才能判断它是不是真能当端侧主力模型用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:50

27d ago

FEATUREDAI HOT 精选· aihot-apiZH11:50 · 05·22

Karpathy 用 65 行规则文件把 AI 编程准确率从 65% 拉到 94%

Karpathy 在 GitHub 上发了一个叫 CLAUDE.md 的规则文件，65 行、4 条规则，让 AI 编程准确率从 65% 跳到 94%。核心思路是逼开发者先想清楚再动手：深度思考、代码越短越好、只改该改的地方、每一步都盯着目标走。文件已经拿了超 22 万星标，但正文没披露 94% 这个数字是在什么任务、什么模型上测出来的，也没说对比基线是...

#Code#Tools#Andrej Karpathy#GitHub

精选理由

这篇我会先打个折，因为正文只给了总结性的数字，没披露具体是哪 4 条规则、在什么任务集上测的、评测方法是什么。但 Karpathy 这个名字加上 94% 这个数字，对用 Claude Code 干活的人来说，诱惑力足够大。22 万星标也说明社区在追这个方向。所以虽然信息有缺口，还是值得推给读者看一眼，只是别把 94% 当成普适结论。

一句话点评

Karpathy 用 65 行规则把 AI 编程准确率从 65% 拉到 94%，但正文没说是测什么任务、用什么模型，这个数字先打七折看。

锐评

Karpathy 在 GitHub 发了一个叫 CLAUDE.md 的规则文件，65 行、4 条规则，让 AI 编程准确率从 65% 跳到 94%，已经拿了超 22 万星标。四条规则说白了就是：先想清楚再写、代码能短就短、只改该改的地方、每一步都盯着目标走。这其实是在逼开发者改掉“先写再说”的习惯，把思考过程变成硬性步骤塞进 AI 的指令里。但 94% 这个数字要小心看。正文没披露是在什么任务上测的——是写单函数还是搭完整项目？用的是什么模型？对比的 65% 基线又是怎么来的？这些信息全缺，就没法判断这个提升是普适的，还是只在特定场景下成立。另外，规则文件本身是给 Claude 用的，换到其他模型上效果会不会打折扣，也没提。还缺一个关键信息：遵守这四条规则对开发者自己的时间成本有多大。如果每次写代码前都要花大量精力把需求拆到足够细，那省下来的调试时间能不能覆盖前期的投入，正文完全没说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:17

27d ago

● P1AI HOT 精选· aihot-apiZH11:17 · 05·22

阿里千问 App、PC 及网页端上线 Qwen3.7-Max，免费可用

千问 App 更新到 6.9.7 版就能在对话框里切到 Qwen3.7-Max，PC 和网页端也一样，目前免费。官方说这个模型主打“让模型进业务流程干活”，能写代码、自动跑办公流程，还能扛住长任务——他们自己测了一次 35 小时、调用工具超过 1000 次的内核优化实验，全程没断思路。不过这些数据来自官方测试，实际体验会不会打折还得自己试。另外，API...

#Agent#Code#Tools#Alibaba

精选理由

阿里把 Qwen3.7-Max 铺到千问全线产品，门槛降到免费，还特意强调 35 小时连续工具调用没崩，摆明了在打 agent 可靠性和零成本体验这两张牌。我会先打个折：正文没给基准测试、上下文窗口和 API 定价，所以实际能力上限和商用成本还看不清。但就凭多端同步上线和这个压测结果，对正在选模型做工具链集成的人来说，是个值得立刻上手试的信号。

一句话点评

千问 App 更新后能免费用 Qwen3.7-Max，官方说它能跑 35 小时不断思路，但这是自家测试，实际稳不稳还得自己上手试。

锐评

阿里把最新的 Qwen3.7-Max 直接塞进了千问 App、PC 和网页端，更新到 6.9.7 版就能免费用。这个模型的核心卖点是“让模型进业务流程干活”，也就是所谓的智能体能力。官方给了一个很具体的数字：在一次内核优化实验里，它自主跑了 35 个小时，调用了超过 1000 次工具，全程没断思路。这个数字如果真实，说明它在处理长链条、多步骤任务时的稳定性确实不错，至少比动不动就忘掉上下文的模型强。但这里有个关键信息缺口：这个 35 小时的测试是官方自己跑的，任务场景、失败重试次数、人工干预比例都没披露。所以这个数字更像一个上限参考，实际用起来，比如让它自动处理几十封邮件或写一个复杂项目，效果可能会打折。另外，文章提到它能跨框架部署，在 Claude Code 等工具里也能用，这对开发者是个好消息，不用被绑在单一工具上。目前 API 还没上线，只能通过官方客户端体验。想评估它到底能不能扛住真实业务，最好等 API 开放后，用自己的任务跑一遍，重点关注它在第 20 步、第 50 步时的逻辑连贯性和错误恢复能力。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:00

27d ago

FEATUREDMIT 科技评论· rssEN10:00 · 05·22

Google I/O 暴露了 AI 做科研的两条路：专用工具还在用，但资源正流向通用智能体

Google I/O 上，DeepMind 的 Hassabis 一边用“我们正站在奇点的山脚下”这种大词，一边展示的是 WeatherNext 提前预警飓风救了人命。这正好点出了 AI 做科研的两条路线：一条是像 WeatherNext、AlphaFold 这种专为解决某个科学问题训练的专用工具；另一条是让通用大模型像智能体一样自己搞研究。现在资源明...

#Agent#Reasoning#Tools#Google

精选理由

我会先打个折：这篇是 MIT Technology Review 的评论，不是一手技术报告，所以细节有限。但它的判断站得住——Google 把科学 AI 的牌子从 AlphaFold 那套单独炫技，换成 Gemini for Science 这个统一入口，还塞进了 AI Co-Scientist 和 AlphaEvolve 两个组件，并且开放申请。对做 AI 应用的人来说，这比发一篇论文实在，因为能摸到产品了。不过别太激动，正文没披露这套东西的算力成本、实际科研产出对比，也没说普通团队用不用得起，所以目前更像一个方向牌，不是落地手册。

一句话点评

Google I/O 上，Hassabis 一边喊“站在奇点山脚”，一边展示 WeatherNext 提前预警飓风救了人命。口号很响，但实际能打的还是专用工具，通用 AI 科学家还早。

锐评

Google 这次在 I/O 上把科学 AI 的调子拉得很高，Hassabis 甚至用上了“奇点”这种词。但仔细看他们展示的东西，真正落地见效的还是 WeatherNext 这种专为解决某个具体问题训练的模型，比如提前预警飓风登陆，可能真救了人命。这和“通用 AI 自己搞科研”是两条路。 Google 现在明显想把资源往第二条路上引，推出了一个叫 Gemini for Science 的打包方案，里面塞了 AI Co-Scientist 和 AlphaEvolve，还开放申请让外部研究员试用。但文章也说了，像 AlphaFold、WeatherNext 这些老牌专用工具并没有被砍掉，去年还在更新版本，科学家们也还在大量使用。这其实反映出一个尴尬：口号喊得响，但现阶段能出活、能拿诺贝尔奖的，还是专用模型。文章没给出 Gemini for Science 的具体测试数据或外部验证结果，只说“正在取得实际研究贡献”。这点先别太激动，通用 AI 科学家到底能不能独立产出可靠成果，目前还缺独立复现和同行评审。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

09:46

27d ago

FEATUREDAI HOT 精选· aihot-apiZH09:46 · 05·22

国家发改委：建训练基础设施，让机器人从跑马拉松到进工厂商场家庭

国家发改委在5月22日的发布会上，用北京亦庄人形机器人半马的成绩来说明具身智能的进步：参赛队伍从20多支涨到100多支，完赛队伍从6支涨到40多支，机器人跑得更快、过弯更灵活、导航更自主。下一步会重点建两样东西：一是训练基础设施，用来采集数据和训练机器人的“大脑”和“小脑”模型，让它在不同场景都能干活；二是应用中试基地，把软硬件生态和训练设施打通，加速...

#Robotics#NDRC#Policy

精选理由

这条政策指向很明确，就是要让机器人走出比赛场景，进到真实环境里干活。队伍和完赛数量的增长是实打实的进步，但正文没披露训练基础设施和中试基地的具体预算、时间表和规模，所以实际推进速度还得看后续落地细节。

一句话点评

发改委用机器人半马成绩说话，参赛队从20多支涨到百余支，完赛从6支涨到40多支，进步肉眼可见。但“进工厂、进商场、进家庭”还只是目标，正文没给出训练基础设施的具体投资规模和时间表，这点先别太激动。

锐评

国家发改委这次发布会拿北京亦庄人形机器人半马的成绩当论据，比单纯喊口号实在。参赛队伍从20多支涨到百余支，完赛队伍从6支涨到40多支，说明能跑完全程的机器人确实多了，背后是高爆发力电机、动态平衡“小脑”模型和自主导航能力的提升。这些进步让机器人从“能跑完”升级到“能高速、灵活、自主地跑完”，但赛道环境和工厂、商场、家庭完全是两码事，赛道上的表现不能直接等于干活能力。下一步重点是两样东西：一是训练基础设施，用来采集数据和训练机器人的“大脑”和“小脑”模型，让它在不同场景都能干活；二是应用中试基地，把软硬件生态和训练设施打通，加速落地。思路是对的，但正文没披露具体投多少钱、建多大规模、什么时候能用上。没有这些数字，很难判断这是真金白银的推进还是方向性表态。另外，机器人进家庭意味着要在完全非结构化的环境里安全、稳定地工作，目前的技术成熟度离这个目标还有不小距离，正文也没提安全标准和责任划分这些落地必须解决的问题。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:45

27d ago

FEATUREDAI HOT 精选· aihot-apiZH09:45 · 05·22

网易有道把“子曰4”的多模态模型和语音合成模型都开源了

这次开源的是一个270亿参数的多模态模型和一个语音合成模型。多模态模型主要针对教育场景，能看懂带图表的数学题，在纯中文数理难题上准确率81.4%。团队用精简过的推理样本做训练，把模型思考过程的输出长度压缩了43.2%，所以回答同样的问题，吐出的token更少、推理更快，直接效果就是推理成本会降下来。语音合成模型支持用3秒中文音频克隆音色，能跨14种语言...

#Multimodal#Vision#Audio#NetEase Youdao

精选理由

我会先打个折：有道不是前沿大模型实验室，所以这条消息的份量到不了顶流，但信息本身够具体。27B 参数的多模态模型，中文数理题做到 81.4% 准确率，说明在中文理科场景有一定可用性，不过正文没披露评测集和对比基线，这点先别太激动。语音模型覆盖 14 种语言，对做多语言 TTS 产品的人是个直接可用的资源。全量开源意味着可以直接拿来微调或部署，省去从头训的成本，但实际推理开销和显存需求正文没提，动手前得自己测一下。整体看，这是一次信息完整、可验证的发布，对关注中文多模态和语音落地的从业者有实操参考价值。

一句话点评

有道把270亿参数的多模态模型和语音克隆模型都开源了，做教育应用和语音合成的开发者可以直接拿来用。

锐评

网易有道这次把“子曰4”的两个核心模型全量开源，对做教育场景和语音应用的开发者来说，是个可以直接上手试试的东西。多模态模型有270亿参数，主打能看懂带图表的数学题，在纯中文数理难题上准确率81.4%。这个数字看着不错，但正文没说明是在哪个基准测试集上跑的，也没提对比的是哪些同等规模的模型，所以这个“行业顶尖”的说法得先打个折。比较实在的一个点是，团队用精简过的推理样本做训练，把模型思考过程的输出长度压缩了43.2%。这意味着回答同一个问题，吐出的token更少，推理成本会直接降下来，对实际部署来说比跑分更有意义。语音合成模型支持用3秒中文音频克隆音色，能跨14种语言合成，克隆准确度号称超97%，但相似度是85%以上，这个差距说明在情感和跨语言迁移上，实际听感可能还有提升空间。整体看，这次开源诚意挺足，模型权重和代码都给了。但缺的是更多第三方评测和实际业务场景里的延迟、并发数据，光看官方给出的几个数字，还判断不了在真实高并发教育场景下到底省不省钱、好不好用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:52

27d ago

FEATUREDHacker News 首页· rssEN07:52 · 05·22

宾州一所高中被 AI 换脸裸照撕裂

404 Media 报道，宾州拉德诺高中一名高一男生花了 250 美元订阅 App Store 里的 Movely 应用，把五名女同学的脸贴到裸体上，生成了 AI 儿童性虐待材料。事情发生在 2025 年 12 月，男生事后用学校发的设备在 Snapchat 上跟朋友说“每一分钱都花得值”，第二天他没去上学，但女生们去了，还发现男生们在替他打掩护。文章...

#Multimodal#Vision#Safety#404 Media

精选理由

404 Media 挖出的这个案子很具体：Radnor 高中 5 名女生被同学用 AI 生成假裸照，涉事新生承认花 250 美元买了 Movely 订阅。正文没提警方后续怎么处理，也没说学校有没有启动调查，这点信息是缺的。但光凭受害者全是未成年人、工具成本明确这两条，就足够让关注 AI 安全的人绷紧神经——这不是模型跑分翻车，是真实世界里已经发生的伤害。

一句话点评

宾州一所高中出了件很糟的事：有男生花250美元买了个App，把五名女同学的脸贴到裸体上生成假照片。这事最让人不安的不是技术，是男生们集体替他打掩护。

锐评

404 Media 这篇报道把一起校园 AI 造假事件讲得很具体。一名高一男生花了 250 美元订阅 App Store 里叫 Movely 的应用，把五名女同学的脸合成到裸体上，生成了儿童性虐待材料。事情发生在 2025 年 12 月，男生事后用学校发的设备在 Snapchat 上跟朋友说“每一分钱都花得值”，第二天他没去上学，但女生们去了，还发现男生们在替他打掩护。这个案例的冲击力不在技术多高明，而在门槛低到离谱：一个高中生、一部手机、250 美元，就能对同学造成实质性伤害。学校所在的拉德诺学区是宾州排名靠前的公立高中，有反欺凌和反骚扰政策，宾州也在 2024 年把恶意深度伪造入刑了，但事发后校方的应对让家长很不满。报道没披露警方的处理结果，也没说 App 开发者是否被追责。这点信息缺口挺关键——光有法律条文不够，得看执法端能不能落地。另外，男生用学校发的设备聊这事，学校对设备上发生了什么到底知道多少、管了多少，文章也没展开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:50

27d ago

FEATUREDLatent Space· rssEN05:50 · 05·22

AI 基础设施又添独角兽：Exa、Modal、TurboPuffer 三家同时拿到大额融资

这期主要聊了三家 AI 基础设施公司的融资进展。TurboPuffer 先确认年经常性收入达到 1 亿美元并且已经盈利，这个数字说明做向量数据库的生意可以自己造血了。Exa 完成了 2.5 亿美元的 C 轮融资，估值 22 亿美元，他们做的是 AI 搜索引擎。Modal 融了 3.55 亿美元，估值冲到 47 亿美元，业务是帮开发者更方便地跑模型和部署...

#Agent#RAG#Inference-opt#Latent Space

精选理由

Latent Space 这条汇总把三笔 AI 基础设施融资串在一起，信息密度高。TurboPuffer 做到 1 亿美元年经常性收入并且盈利，说明向量搜索这类基础能力已经有客户愿意持续付费，不是纯烧钱。Exa 拿 2.5 亿美元 C 轮、估值 22 亿美元，Modal 拿 3.55 亿美元 C 轮、估值 47 亿美元，两笔都是大额后期融资，反映资本在往模型训练和推理的底层平台集中。对做 AI 应用的人来说，这些数字能帮你判断下游供应商的稳定性和议价空间。正文没展开各家具体技术指标或客户构成，所以估值背后的溢价逻辑只能看个大概，这点先别太激动。

一句话点评

三家AI基础设施公司同时公布大额融资，TurboPuffer做到1亿美元年收入且已盈利，Exa和Modal估值分别冲到22亿和47亿美元。

锐评

这期Latent Space的新闻里，三家做AI基础设施的公司同时公布了融资进展，挺少见的。TurboPuffer先确认年经常性收入达到1亿美元并且已经盈利，这个数字说明做向量数据库的生意可以自己造血了，不是光烧钱。Exa完成了2.5亿美元的C轮融资，估值22亿美元，他们做的是AI搜索引擎。Modal融了3.55亿美元，估值冲到47亿美元，业务是帮开发者更方便地跑模型和部署。三家都上了独角兽的牌桌，但正文没披露具体的收入结构或客户集中度，所以盈利质量和增长可持续性还得再观察。另外，文章后半段提到了一些模型研究进展，比如RAEv2在图像生成上收敛速度快了10倍以上，NVIDIA的Gated DeltaNet-2在长文本检索上有明显提升，但这些都还停留在论文阶段，离实际产品落地有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:58

27d ago

FEATURED新智元 · 公众号· rssZH04:58 · 05·22

微软投了 OpenAI 130 亿，自家工程师用 Claude Code 把账本烧穿了

微软计划在 6 月底前停掉体验与设备团队的 Claude Code 订阅，把近 10 万工程师迁到 GitHub Copilot CLI。文章把原因归结为外部按 token 计费的成本太高，但正文因为需要验证码没加载出来，具体烧了多少钱、内部怎么讨论的都没看到。

#Agent#Code#Tools#Microsoft

精选理由

我会先打个折：这不是模型发布或官方重大产品更新，更像一次内部成本管控动作。但 HKR 三项都站得住——微软投 OpenAI 又禁 Claude Code 的对比很抓人，时间、人数、计费原因都给了，而且直接踩中编程助手在企业里怎么省钱的痛点。正文没披露具体账单金额，所以别把省钱效果说死。整体适合放在 featured 位置，81 分合理。

一句话点评

微软要把近10万工程师从Claude Code迁回自家Copilot CLI，理由是外部按token计费太贵。但正文被验证码挡了，具体账单和内部决策细节都没看到。

锐评

这条消息的核心信息是：微软体验与设备团队计划在6月底前停掉Claude Code订阅，把近10万工程师迁到GitHub Copilot CLI。文章把原因归结为外部按token计费的成本太高，但正文因为需要验证码没加载出来，具体烧了多少钱、内部怎么讨论的都没看到。我会先打个折。微软推自家工具不奇怪，但“成本太高”这个理由需要看数字才能判断是真实压力还是内部策略。近10万工程师的规模如果真在用Claude Code，按token计费确实可能是个天文数字，但没披露具体金额就只能当个说法听。还缺几块关键信息：一是Claude Code在微软内部的实际用量和账单规模；二是Copilot CLI能不能接住这10万人的需求，功能差距有多大；三是这次迁移是技术决策还是商业博弈。如果是真的省钱，那对用外部AI coding工具的大团队是个参考信号，但这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:58

27d ago

FEATURED新智元 · 公众号· rssZH04:58 · 05·22

香港理工和港科大（广州）发现，日常聊天就能悄悄污染 AI 助手的长期记忆，不用任何恶意指令

这篇研究来自香港理工大学和香港科技大学（广州），他们做了一个叫 ULSPB 的测试集，里面有 350 种场景。核心发现是：攻击者不需要写越狱提示词，只要在日常对话里夹带私货，就能慢慢把 AI 助手的长期记忆带偏。比如聊着聊着，让模型记住错误的用户偏好或事实，后续决策就会出错。团队还提出了一个防御方案叫 StateGuard，原理是在每次更新记忆前先检查...

#Agent#Memory#Safety#The Hong Kong Polytechnic University

精选理由

这篇我会先打个折：正文没给出具体攻击成功率或防御对比数字，所以没法判断实际危害有多大。但选题本身很刁钻——大家盯着越狱攻击，它却告诉你正常对话也能让 Agent 慢慢“学坏”，这对把 Agent 放进业务流程的团队是个实在的提醒。ULSPB 的 350 个设置让测试面够宽，不是那种只测三五条样本的玩具基准。建议关注后续有没有开源测试集和修复方案，这点先别太激动。

一句话点评

这篇研究说，不用越狱提示词，日常聊天就能慢慢污染 AI 助手的长期记忆，让它后续决策出错。但原文被微信验证页挡住了，具体实验数据看不到。

锐评

香港理工和港科大（广州）的研究者发现，攻击者不需要写什么越狱提示词，只要在日常对话里夹带私货，就能慢慢把 AI 助手的长期记忆带偏。他们做了一个叫 ULSPB 的测试集，包含 350 种场景，专门模拟这种“温水煮青蛙”式的记忆污染。比如聊着聊着，让模型记住错误的用户偏好或事实，后续决策就会出错。团队提出的防御方案叫 StateGuard，原理是在每次更新记忆前先检查一下改动是否安全。论文声称在特定测试设置下，能把危害评分压到接近零。但这里要打个折：原文被微信的验证页面挡住了，我没看到具体的实验数字、模型规模、攻击成功率这些关键信息。对做 AI 应用的人来说，这条值得关注的点在于：安全风险不一定来自明显的恶意攻击，正常交互里的“脏数据”也能慢慢腐蚀模型状态。但 StateGuard 的实际开销、误报率，以及离开论文测试集后效果如何，正文都没披露，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:58

27d ago

FEATURED新智元 · 公众号· rssZH04:58 · 05·22

Anthropic 更新了 Agent 架构，但正文被验证页挡住了，没法确认具体改了什么

这篇文章的链接点进去只显示“环境异常，需要验证”，正文内容完全看不到。从已有的英文摘要看，阿里云的 JVS Crew 把 Agent、环境和会话拆成了三层，加了沙盒、快照恢复、权限控制和按量计费；Anthropic 在 5 月 19 号给 Claude 托管 Agent 加了自托管沙盒。文章还提到几个国内客户案例，说部署周期两周，效率提升 5 到 10...

#Agent#Tools#Memory#Anthropic

精选理由

文章把阿里云 JVS Crew 和 Anthropic 的沙箱更新放在一起比，讲的是企业级 agent 基础设施怎么落地。有具体架构细节，也有安全与计费的讨论，对正在选型或关注 agent 生产化的从业者有用。不过 Anthropic 那部分信息偏薄，正文没展开 self-hosted sandboxes 的限制和实际表现，这点先别太激动。整体属于值得一看的产品对比，不是必写的模型发布。

一句话点评

阿里云和Anthropic都在给AI Agent加“沙盒”，让模型干活时不会搞崩系统，还能按量计费。但原文被微信屏蔽了，具体细节看不到。

锐评

这条新闻的核心是两家公司不约而同在给AI Agent加“安全围栏”。阿里云的JVS Crew把Agent运行拆成三层：模型本身、它干活的环境、以及和用户的对话记录，并且加入了沙盒隔离、快照恢复和权限控制。这意味着企业可以像用虚拟机一样用AI，崩了能回滚，还能按实际用量付费。Anthropic在5月19号也给Claude的托管Agent加了自托管沙盒，思路类似。文章提到国内有客户两周部署完，效率提升5到10倍，但这个数字缺少具体场景和对比基准，先打个折看。最大的问题是原文链接被微信判定“环境异常”，需要验证才能看，所以上面的判断全部基于英文摘要。正文里到底有哪些客户案例、技术限制是什么、成本具体多少，这些关键信息目前都看不到。如果后续能拿到完整文章，重点要核实那“5到10倍”是怎么算出来的，以及沙盒本身会带来多少额外延迟和开销。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:30

27d ago

● P1AI HOT 精选· aihot-apiZH04:30 · 05·22

DeepSeek推进七百亿元融资，承诺坚持开源而非商业化

DeepSeek 正在敲定一笔约 700 亿元人民币的首轮外部融资，投前估值约 450 亿美元。腾讯、IDG 资本和砺思资本接近参投，梁文锋个人也可能注资约 200 亿元。他在投资者会议上明确表示，公司会继续做开源模型，目标是通用人工智能，而不是急着商业化。如果这笔钱到位，将创下中国科技初创公司首轮融资的最高纪录。不过文章也提到，具体金额和最终参投方仍...

#DeepSeek#Liang Wenfeng#Tencent#Funding

精选理由

HKR 三项都踩中了。700 亿融资规模本身就够炸，加上梁文锋个人可能跟投 200 亿，这种资金体量在开源模型公司里不常见，所以 H 给了。K 这边，450 亿美元估值、腾讯和 IDG 接近入局，以及梁文锋明确说坚持开源不急着商业化，都是能帮人判断行业水温的关键事实。R 更直接，这笔钱怎么花、开源路线能不能扛住商业化压力，会直接影响国内 AI 创业的资本逻辑和开源生态。分数没给到 95 以上，是因为交易还在推进，最终条款和交割都没披露，先打个折。

一句话点评

700亿融资、450亿美元估值，梁文锋自己还要再掏200亿，但承诺继续开源不急着变现——这个组合挺少见，先别太激动，钱到账再说。

锐评

DeepSeek这轮融资如果落地，700亿元人民币的规模会是中国科技初创公司首轮融资的最高纪录。投资前估值约450亿美元，腾讯、IDG和砺思资本接近确定参投，国家队也在里面。梁文锋个人可能注资约200亿，同时明确表示继续开发开源模型，目标是通用人工智能而不是短期变现。这些数字很大，但正文没披露资金的具体用途——是买算力、养团队还是做生态？也没说开源会开到什么程度，是只放权重还是连训练方法、数据配比都公开。另外，报道来源是彭博社援引知情人士，最终参与者和金额都可能变，现在下结论还早。如果梁文锋真的用个人资金跟投200亿，那他对控制权和长期路线的坚持会比口头承诺更有说服力。但反过来，这么大一笔钱进来，投资方对回报的耐心能有多久，正文完全没提。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:58

27d ago

FEATUREDAI HOT 精选· aihot-apiZH03:58 · 05·22

OpenAI Codex 的 /goal 模式转正了，现在可以给 AI 派跨小时甚至跨天的长任务

OpenAI 把 Codex 里的 /goal 模式从实验功能升级成了稳定版。你可以在 Codex 应用、IDE 插件或命令行里用，设定好里程碑后，AI 会自己跑任务，持续几小时甚至几天。中间能随时查看进度、改方向或暂停。用之前要升级应用并打开这个功能（命令行或手动改配置文件都行），开启后在输入框就能管理任务，侧边对话可以看进度，不会打断主任务。正文没...

#Agent#Code#Tools#OpenAI

精选理由

我会先打个折：文章只说了功能转正和多端支持，但没披露任务失败怎么恢复、资源消耗上限、以及哪些套餐能用。对想试的人，知道它能跑长任务就够了；对想上线用的人，信息缺口还很大。所以放在 featured 低段，等后续补上安全和成本细节再往上调。

一句话点评

Codex 的 /goal 模式结束实验正式上线，AI 能自己跑几小时甚至几天的任务，中间可以随时看进度、改方向或暂停。但正文没给出任何稳定性数据或实际跑通案例，这点先别太激动。

锐评

OpenAI 把 Codex 里的 /goal 模式从实验功能升级成稳定版，核心变化是让 AI 能长时间自主执行任务，不再需要人一直盯着。你设定好里程碑，它就能在应用、IDE 插件或命令行里持续跑，几小时到几天都行，中间可以随时查看进度、调整方向或暂停。这相当于把 agent 的工作周期拉长了，从单次问答变成了持续交付。但正文完全是功能描述，没给任何量化数据。稳定性到什么程度？任务跑几天会不会中途崩掉？成功率多少？资源消耗多大？这些全都没提。也没看到实际案例，比如跑了个什么复杂任务、花了多长时间、中间改了几次方向。对从业者来说，这种长时间自主运行的 agent 最怕的就是不可控，正文恰恰没回答这个问题。另外，开启方式提到要升级应用并手动改配置或敲命令行，说明还不是一键开启的体验，门槛还在。想评估这个功能到底能不能用，得等有人跑出真实任务数据再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:17

27d ago

FEATUREDHacker News 首页· rssEN03:17 · 05·22

sddw：给 Claude Code 加一套分步写规格、清上下文的开发流程

作者开源了一个 Claude Code 插件，把开发任务拆成需求、代码分析、设计三份规格文档，再把实现切成多个子任务逐个做。每完成一个步骤就清一次上下文，目的是让模型每次只盯一小块，减少跑偏，也省 token 钱。规格文件落地到磁盘，方便断点续传，也能在早期发现模型理解错的地方。正文没给出具体省了多少成本或性能提升的量化数据，这点先别太激动。

#Agent#Code#Tools#Claude

精选理由

我会先打个折：正文没给性能对比、没披露实际省了多少 token、也没说在复杂项目上的表现，所以不能给太高。但三层规格加每步清上下文这个组合拳，确实戳中了用 Claude Code 写代码时上下文越跑越偏、账单越来越贵的真实问题。对正在折腾 coding agent 的人来说，这个思路值得看一眼，只是别指望拿来就能用，还得自己踩坑验证。

一句话点评

把大任务拆成规格文档和子任务，每步清上下文，思路很实用，但没给省了多少成本或效果对比，先当思路参考。

锐评

这个开源插件把 Claude Code 的开发流程拆成了两步走：先让模型产出需求、代码分析、设计三份规格文档，再把实现切成多个子任务逐个做。每完成一个步骤就清一次上下文，目的是让模型每次只盯一小块，减少跑偏，也省 token 钱。规格文件落地到磁盘，方便断点续传，也能在早期发现模型理解错的地方。思路本身不复杂，就是把软件工程里“分而治之”的做法搬到了 AI 编程助手上。但正文没给出任何量化数据——省了多少 token、任务完成率有没有提升、延迟增加了多少，这些都没提。项目目前只在 Hacker News 上拿了 5 个赞，讨论也不多，说明还没经过足够多的实际项目验证。如果是真的省钱又提效，这个工作流值得一试，尤其是长任务容易把上下文撑爆的场景。但缺了对比实验和成本数据，现在只能说是个有道理的工程直觉，离“最佳实践”还差一截。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:58

27d ago

● P1彭博科技· rssEN02:58 · 05·22

DeepSeek 创始人把目标定为通用人工智能，同时一笔 100 亿美元的融资在推进

彭博这条快讯只给了标题，正文被付费墙挡住了。标题说 DeepSeek 创始人公开把 AGI（通用人工智能）设为目标，并且公司正在推进一轮 100 亿美元的融资。但创始人具体怎么说的、钱从哪来、谁领投、估值多少、钱打算怎么花，这些关键信息正文都没披露。100 亿这个数字放在 AI 创业公司里非常夸张，如果是真的，说明资本市场对 DeepSeek 的预期已...

#Reasoning#DeepSeek#Bloomberg#Funding

精选理由

标题信息量不小，但正文基本是空壳，没给出创始人原话、融资细节或任何时间线。我会先打个折：这条消息的传播价值在于 DeepSeek 把 AGI 目标和巨额融资同时抛出来，信号很强，但事实支撑很弱。Bloomberg 的稿子只给了标题级事实，投资人是谁、钱怎么花、估值多少全没写，所以重要性停在 86 分是合理的，不能再往上拉。

一句话点评

DeepSeek 创始人公开把 AGI 当目标，同时 100 亿美元融资在推进。但正文被付费墙挡住，具体谁投、估值多少、钱怎么花全没披露，先别太激动。

锐评

这条消息只有标题，正文被彭博的付费墙挡得严严实实，所以能确认的事实非常有限。标题透露了两件事：一是 DeepSeek 创始人首次公开把 AGI（通用人工智能）设为公司目标，二是公司正在推进一轮 100 亿美元的融资。100 亿这个数字放在 AI 创业公司里极其夸张，如果属实，说明资本市场对 DeepSeek 的预期已经拉到了和 OpenAI 差不多的量级。但关键信息全是缺口——创始人原话怎么说的、是内部信还是公开演讲、这轮融资谁领投、估值多少、钱打算砸在算力还是人才上，正文都没披露。另外，喊 AGI 目标本身在 2026 年这个节点不算新鲜事，各家头部公司都在喊，重点要看有没有配套的路线图或阶段性验证指标。这条新闻目前更像一个信号，说明 DeepSeek 在资本层面要搞大动作，但具体怎么搞、能不能搞成，还得等更多细节出来才能判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:13

28d ago

FEATURED彭博科技· rssEN02:13 · 05·22

联想财报显示AI业务增长抵消零件涨价压力

联想发了财报，AI相关业务增长抵消了元器件涨价，股价一天涨了13%，接近历史最高。正文没披露具体营收、利润和利润率，所以AI到底贡献了多少真金白银还不清楚。但市场反应很直接——涨了13%，说明投资者觉得AI这块能撑住联想未来的利润。

#Lenovo#Funding

精选理由

HKR-K通过，因为13%的股价反应和AI收益抵消组件涨价的机制值得记录。HKR-H和R较弱：正文没披露收入、利润或AI业务拆分，所以这条只是泛泛的行业信号。

一句话点评

联想财报后股价涨13%，接近26年新高，原因是AI业务增长抵消了元器件涨价。但正文没披露AI业务的具体营收和利润，所以这波上涨更多是市场情绪驱动，不是实打实的数字撑起来的。投资者赌AI能成为联想未来的利润支柱，但缺关键财务数据，这点先别太激动。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

02:00

28d ago

FEATURED机器之心 · 公众号· rssZH02:00 · 05·22

Meta 华人团队发布 ATLAS：用一个词让视觉模型学会可泛化的推理

Meta AI 和港中文的研究者搞了个叫 ATLAS 的方法，核心是在视觉语言模型里塞一个“功能词”（Functional Token），让模型能同时走两条路：一条是显式的、一步步调用工具去操作图像（Agentic 推理），另一条是隐式的、在内部潜空间里直接算（Latent 推理）。他们配套搞了个 ATLAS-178K 数据集，分两阶段训练——先做监督...

#Reasoning#Vision#Multimodal#Meta AI

精选理由

我会先打个折：这是 Meta AI 和港中文联合发的研究，不是产品发布或旗舰模型，所以重要性给到 78 分比较合适。一个 Functional Token 搞定视觉推理这个 hook 确实抓人，正文也给了数据集和训练方法的细节，对做多模态和 agent 的团队有参考价值。但正文没披露实际部署成本或大规模验证结果，这点先别太激动。

一句话点评

Meta 和港中文搞了个 ATLAS，用一个“功能词”让模型同时走两条推理路径，显式调用工具和隐式内部计算，但正文被微信验证页挡住了，具体效果和数字看不到。

锐评

这条消息的核心卖点是“一个词搞定可泛化的视觉推理”。ATLAS 的做法是在视觉语言模型里塞一个功能词，让模型能同时跑两条路：一条是显式地一步步调用工具去操作图像，另一条是在模型内部潜空间里直接算。这个思路有意思，相当于给模型装了个双模开关，能根据任务自己选走哪条路，或者两条路一起走。但问题来了，正文被微信的环境异常验证页挡住了，我看到的只有标题和摘要。摘要里提到他们搞了个 ATLAS-178K 数据集，分两阶段训练，先做监督学习再用强化学习，还用了叫 LA-GRPO 的方法来训练稀疏的视觉操作词。这些名词听起来挺唬人，但具体怎么训的、在哪些任务上测的、比现有方法好多少，全看不到。摘要里连一个数字都没给，没法判断这个“可泛化”到底泛化到什么程度。对从业者来说，这种双路径推理如果能落地，确实可能省掉一些反复调 prompt 或工具链的麻烦。但没看到实验数据之前，先别太激动。建议等论文放出来，重点看他们在跨任务、跨数据集的泛化测试上到底拿了多少分，以及推理延迟和计算开销涨了多少。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:00

28d ago

FEATURED机器之心 · 公众号· rssZH02:00 · 05·22

CVPR 2026 | HiF-VLA：用视频压缩的思路教机器人“边看动作边想下一步”

西湖大学团队搞了个叫 HiF-VLA 的框架，核心想法是把机器人看世界的方式从“一帧帧静态图”换成“画面怎么动的”。它直接用 H.264 这类视频编码器从画面里提取紧凑的运动向量，再让一个联合专家模型同时预测未来的视觉动态和该做的动作序列。论文里给的数据是，在设定的历史窗口下，显存峰值 31.4GB，延迟 117.7 毫秒。不过正文因为环境验证问题没加...

#Robotics#Vision#Agent#Westlake University

精选理由

这篇 HiF-VLA 我会先打个折：它还是一个单篇研究，没有落地案例或多方交叉验证，所以放在 featured 低位。但它的思路确实比多数 VLA 论文更“省”——直接用 H.264 运动向量代替逐帧视觉编码，把“看变化”和“想动作”塞进联合专家里一起算，显存压到 31.4GB、延迟 117.7ms，对想在真机上跑实时推理的团队是个可参考的方向。正文没披露在真实机械臂上的成功率或与主流 VLA 的 head-to-head 对比，这点先别太激动。

一句话点评

HiF-VLA 让机器人不再只看静态画面，而是直接读视频里的运动信息来预判下一步动作，显存 31.4GB、延迟 117.7 毫秒，但正文没披露在真实机器人上的验证结果。

锐评

西湖大学这篇 CVPR 论文的思路挺直接：以前机器人视觉模型大多一帧帧看静态图，容易忽略“东西在怎么动”。HiF-VLA 改用 H.264 这类视频编码器直接提取运动向量，相当于让模型读的是画面的变化轨迹，而不是一张张照片。再配合一个联合专家模型，同时预测未来的视觉动态和该做的动作序列，目标是让机器人能“边想边做”。论文给出的数字是显存峰值 31.4GB，延迟 117.7 毫秒，在设定的历史窗口下看起来能跑。但这里要打个折：正文因为环境验证问题没加真实机器人实验，所有结论都停在仿真和离线数据上。对做具身智能的人来说，仿真跑得再好，上了真机可能完全是另一回事。还缺几个关键信息：运动向量压缩后到底丢了多少对抓取、避障有用的细节？31.4GB 的显存对边缘设备还是太重，有没有轻量化方案？另外，这套框架能不能兼容不同品牌的机械臂和摄像头，正文也没提。这些不补上，离“能用”还有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:37

28d ago

FEATUREDAI HOT 精选· aihot-apiZH01:37 · 05·22

特朗普临阵叫停AI监管令，马斯克和扎克伯格在背后做了什么

特朗普在签字仪式前几小时突然取消了一份AI行政令。这份命令原本打算让政府在AI模型公开发布前先做安全评估。据Axios报道，直接原因是特朗普的AI顾问大卫·萨克斯、Meta的扎克伯格和xAI的马斯克都强烈反对，并在签字前夜到当天上午分别游说了特朗普。特朗普本人也一直不喜欢监管，他事后对记者说，监管会拖慢美国AI的领先速度。另外，草案里让财政部在安全漏洞...

#Safety#Donald Trump#David Sacks#Mark Zuckerberg

精选理由

我会先打个折：正文没披露草案全文、适用范围和交叉信源，所以事实颗粒度有限。但这条消息把白宫内讧、科技大佬游说和一个具体的发布前审查机制串在一起，冲突感和信息增量都够，放在 featured 没问题。

一句话点评

特朗普在签字前几小时叫停了AI安全评估行政令，马斯克、扎克伯格和AI顾问萨克斯连夜游说是直接原因。

锐评

这条新闻最值得看的是决策过程本身：一份已经排上签字仪式的行政令，被三位科技圈大佬在签字前夜到当天上午的几通电话直接打没了。特朗普事后对记者的解释也很直白——“我讨厌监管”，担心这会拖慢美国AI的领先速度。报道来自Axios，引用了多位知情人士，但Meta和xAI都没回应置评请求。草案里还有一个争议点：财政部被赋予了协调安全漏洞的主导角色，而以往这是网络安全局和标准技术研究院的活儿。正文没解释为什么财政部要插一脚，也没说这个“自愿测试计划”到底覆盖哪些模型。另外，白宫国家网络主任办公室私下透露还在制定其他AI安全举措，但具体是什么、什么时候出，正文完全没提。所以这份行政令告吹不等于美国AI监管就此停摆，只是“加速派”暂时占了上风。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:30

28d ago

FEATUREDHacker News 首页· rssEN01:30 · 05·22

三星芯片员工获得平均34万美元年度奖金

三星芯片部门员工将拿到平均约34万美元的奖金，原因是AI业务利润飙升。但正文没披露奖金计算公式、发放条件、到账时间，也没给出具体的利润数字，所以这个“平均”到底覆盖多少人、是不是全员都有，目前还不清楚。

#Samsung#Commentary

精选理由

HKR-H和HKR-R成立：34万美元奖金这个钩子够强，且触及AI利润分配的现实话题。HKR-K不成立：奖金口径、发放条件、AI利润数据正文都没披露，信息不完整。

一句话点评

三星芯片部门员工今年平均奖金34万美元，但正文没披露具体发放范围和计算方式，这个数字先打个折看。

锐评

三星芯片部门员工今年能拿到平均34万美元的年度奖金，这个数字来自员工谈判结果，不是公司主动普发。奖金直接和AI热潮带来的存储芯片利润挂钩，说明HBM这类高附加值产品确实在给公司回血。不过目前只有标题和摘要，正文是空的，没法确认这34万是税前还是税后、包含哪些职级、是现金还是部分股票。如果是部门全员平均，那基层工程师和高管之间的落差可能很大，这个平均数会掩盖内部差距。还缺的关键信息：奖金占年薪的比例、和去年同期的对比、以及三星其他部门是否也有类似涨幅。这些数据才能判断这波AI红利到底惠及了多少人。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

01:07

28d ago

FEATURED纽约时报中文网· rssZH01:07 · 05·22

特朗普松口卖芯片，北京反而拦着不让买

特朗普半年前批准英伟达向中国卖 H200 芯片，但北京至今没让任何一家公司下单，反而把企业往华为、寒武纪等国产替代上推。文章说这背后是中美技术脱钩的深度不信任：中国想借机逼本土芯片产业提速，企业则抱怨算力不够是最大瓶颈。现在国内芯片性能号称已追上 H200，但良率跟不上，所以很多公司只能租用境外数据中心的英伟达芯片远程训练模型——速度慢、数据泄露风险高...

#Inference-opt#Nvidia#Huawei#Cambricon

精选理由

HKR 三项全中：批准后六个月零采购，加上北京明确引导企业转向华为、寒武纪，这是很强的芯片政策信号。不过它毕竟不是模型发布或重大产品更新，所以分数放在 78–84 区间，82 合理。

一句话点评

特朗普批了，但北京不买账，半年零订单。这背后不是芯片不好，而是信任没了，国产替代的算力账还没算平。

锐评

这条新闻最反直觉的地方在于：美国松绑了，中国反而不要了。特朗普半年前批准英伟达向中国卖 H200 芯片，但北京至今没让任何一家公司下单，反而把企业往华为、寒武纪的国产芯片上推。这不是芯片性能的问题——文章提到国产芯片性能号称已追上 H200——而是良率跟不上，产量不足以喂饱整个市场。所以很多公司只能租用境外数据中心的英伟达芯片远程训练模型，速度慢、数据泄露风险高，但至少能用。文章引用的数字能看出算力饥渴和现实之间的落差：中国公司今年在 AI 芯片和数据中心上的总支出预计 123 亿美元，而美国同行是约 1 万亿美元，差了近一个数量级。这既说明中国公司花钱更谨慎，也说明他们确实被卡着脖子。深度求索最新模型首次针对华为芯片做了优化，算是一个信号，但正文没披露具体性能对比和良率数据，所以“追上 H200”这个说法得打个折。还缺什么？文章没讲清楚北京到底在等什么——是等国产良率爬坡，还是在用“不买”当谈判筹码。也没说英伟达这 583 亿美元季度利润里，中国市场缺席到底损失了多少。这些缺口让整件事看起来更像一场漫长的博弈，而不是简单的技术选择。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:02

28d ago

FEATUREDAI HOT 精选· aihot-apiZH01:02 · 05·22

Luma推出Agents工作流自动将用户好评转化为配图

Luma Labs 上线了一个叫 Luma Agents 的自动化流程：你只需要把客户的好评贴进去，选个风格，AI 就会自动生成推荐语配图。正文没披露定价、用了什么模型、以及开放范围，所以暂时没法判断它比人工做图便宜多少或快多少。

#Agent#Vision#Tools#Luma Labs

精选理由

这是 Luma Agents 的一个小更新，给出了一个具体的生成机制——用户贴好评、选风格、出图。但正文没披露价格、模型参数或上线范围，信息缺口明显。HKR-K 通过，HKR-H 和 HKR-R 不通过，所以归入 all 层级。

一句话点评

Luma Labs 上线了 Luma Agents，把用户好评贴进去、选个风格，AI 自动生成推荐语配图。这活儿以前得设计师或运营手动排版，现在一条链接搞定。但正文没披露定价、用了什么模型、开放范围，所以没法判断它比人工做图便宜多少或快多少。短评：省了设计人力，但成本未知，先别急着替换团队。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

00:00

28d ago

● P1Computing Life · Share · 鸭哥调研· rssZH00:00 · 05·22

智谱发布GLM-5.1高速版API，输出速度达每秒400个token

智谱在 5 月 22 日放出了 GLM-5.1 高速版 API，输出速度标称 400 tokens/s，是人类阅读速度的 80 倍以上。这个速度不是靠传统编译优化“调”出来的，而是底层的 TileRT 推理引擎把 GPU 的工作模式从“批处理车间”改成了“连续流水线”——取消计算步骤之间的等待和隔离，让数据持续流动，GPU 不再频繁启停。模型本身也做了...

#Inference-opt#Zhipu#GLM-5.1#TileRT

精选理由

400 tokens/s 是个好钩子，但正文没交代测试条件、并发数、输入长度和计费规则，所以速度先打个折看。TileRT 的说法有信息量，不过没展开具体怎么重构执行模型，技术细节偏薄。整体对从业者有提醒价值，但缺少独立验证，所以分数停在 78 不动。

一句话点评

智谱把旗舰模型的速度拉到400 tokens/s，不是靠换小模型，而是重写了推理引擎。这点挺狠，但正文没提价格和实际延迟，先别急着喊“最快”。

锐评

智谱这次发布的GLM-5.1高速版，直接把API输出速度干到了每秒400个token，刷新了全球大模型厂商的公开纪录。更值得关注的是，它没走“用小模型换速度”的老路，而是声称在旗舰级模型上做到了低延迟。技术实现上，他们和TileRT团队合作，在推理引擎、调度系统和基础设施三个层面做了系统级优化。简单说，就是通过提前编译、把计算任务常驻在GPU里，省掉了大量调度和同步的开销，让单卡吞吐能力更高，多卡协同也更聪明。不过，这篇IT之家的报道主要来自厂商通稿，缺少第三方实测数据。400 tokens/s是稳定输出还是瞬时峰值？在高并发下尾延迟到底压到了多少？这些关键指标都没给。另外，价格也没披露，速度快但成本如果翻倍，对生产环境来说意义就大打折扣。目前这个API只开放给部分企业客户，普通开发者还没法验证。总的来说，技术思路有突破，但实际效果还得等更多独立评测和定价信息出来才能下判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

28d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·22

Grok集成开源个人助手OpenClaw向订阅用户开放

xAI 在 5 月 22 日宣布，Grok 模型已集成到开源个人助手 OpenClaw 中。OpenClaw 是一个本地优先的智能体，可以在 Mac Mini、笔记本、服务器甚至树莓派上运行，并且能跨会话记住上下文。它支持连接 WhatsApp、Telegram、Slack 等聊天工具，用户可以在这些平台上直接与 Grok 交互。只要你有 SuperG...

#Agent#Tools#Memory#xAI

精选理由

HKR-H 和 HKR-K 都过了，因为 OpenClaw 的消息集成和订阅条件算新信息。但影响停留在常规产品更新级别——没发新模型、没跑分、没改价、也没公开开发者 API 细节。

一句话点评

Grok 的付费账号现在能直接用在 OpenClaw 这个开源个人助理里了，等于你的 AI 订阅多了一个能跑在自己设备上的管家。

锐评

xAI 把 Grok 接入了 OpenClaw，一个开源、本地优先的个人助理平台。简单说，如果你有 SuperGrok 或 X Premium 订阅，现在就能在自家电脑、树莓派甚至 VPS 上跑一个 Grok 驱动的助手，还能让它接入 WhatsApp、Telegram、Slack 等聊天软件，在你常用的对话框里直接使唤它。这件事的实用点在于：模型还是 Grok，但运行环境和交互渠道交给了用户自己掌控。OpenClaw 强调本地运行和跨会话记忆，这对在意数据留在本机的人来说是个加分项。不过正文没提这种接入方式下 Grok 的响应延迟、功能阉割情况，也没说和官方 App 比体验打几折。另外，OpenClaw 本身是个社区项目，稳定性、后续维护力度都还是未知数。如果是真的省钱又方便，那对已有订阅的用户算白捡一个本地助手；但别急着把它当生产级工具，先拿台闲置设备跑跑看再说。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

00:00

28d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·22

可塑界面：AI 让软件界面按需变形，不再只有一种固定样子

Salesforce 已经“砍掉”了传统界面，销售不用登录网站就能通过 AI 更新交易记录。作者把这种趋势叫做“可塑界面”——AI 能根据你当下在干嘛，动态生成最适合的交互形式，比如开车时给你念邮件摘要、审文案时弹出网页应用、做预算时直接给个带图表的表格。文章引用了 Airbnb CEO 和 Anthropic 工程师的观点，认为纯文本对话不够用，电商...

#Agent#Tools#Multimodal#Salesforce

精选理由

我会先打个折：这篇是软件形态的展望，没有上线时间、用户数据或可复现的测试，所以放在评论类里刚好。正文说 Salesforce 已经用无头架构让销售靠 AI 直接改数据，界面不再写死，而是按场景动态生成 HTML、音频甚至网页。这点先别太激动——正文没披露这套动态生成在 Salesforce 里的实际覆盖范围、延迟和出错率，也没说 MCP 具体怎么接。但思路本身对做 B 端产品的人有用，因为它把“界面”从设计稿变成了模型输出，省不省开发成本另说，至少交互逻辑要重想。

一句话点评

Salesforce 把界面“砍了”，销售不用登录网站就能让 AI 更新交易记录，但文章没给实际落地数据和用户反馈。

锐评

这篇文章提出了一个挺有意思的判断：软件界面不会消失，而是会变成“可塑的”——AI 根据你当下的场景，动态生成最适合的交互形式。比如开车时给你念邮件摘要，审文案时弹出网页应用，做预算时直接给个带图表的表格。作者引用了 Airbnb CEO 和 Anthropic 工程师的观点，认为纯文本对话不够用，电商需要更丰富的界面，工程师也开始用 HTML 替代 Markdown 做输出。但文章本质上是一篇趋势评论，不是产品报告。它没披露 Salesforce 这套“无头”架构到底有多少客户在用、响应延迟多高、错误率如何，也没说动态生成界面在复杂业务场景下会不会失控。这些数字和验证的缺失，让“可塑界面”目前更像一个方向性判断，而不是马上能搬进产品的方案。还缺什么：一是实际案例的规模数据，二是动态 UI 的可靠性和一致性怎么保证，三是企业怎么管理这些随时生成又可能消失的界面——总不能每个临时表格都变成新的技术债。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

28d ago

FEATUREDComputing Life · Share · 鸭哥调研· rssZH00:00 · 05·22

DS4 引擎让 DeepSeek V4 Flash 在 Mac 上跑起来了，还解决了 agent 对话的“失忆”问题

DeepSeek V4 Flash 是个 284B 总参数、13B 激活的 MoE 模型，性能接近前沿水平，但主流推理引擎在 Mac 上都跑不了。antirez 专门为它写了 DS4 引擎，纯 C、Metal 优先，一个编译命令就能用。它最特别的地方是解决了 agent 工作流里的上下文断裂：模型生成工具调用时，DS4 会记住原话，下次 agent 返...

#Agent#Inference-opt#DeepSeek#antirez

精选理由

标题和摘要给的期待是“在 Mac 上本地跑 DeepSeek V4 Flash 的实操方案”，但正文只列了 DS4 引擎的三项机制名称，没给出模型大小、实际性能、Mac 兼容性要求，也没有可复现的测试结果。我会先打个折：对想动手试的开发者来说，知道有这些机制存在已经算有用信息，但离“能照着做”还差关键数据。H、K、R 三项都踩中了，信息缺口也明显，放在 featured 层级刚好——够吸引人点进去看，但读完会发现缺胳膊少腿。

一句话点评

antirez 用纯 C 写了个 Mac 专用引擎，让 284B 的 DeepSeek V4 Flash 能在本地跑，还解决了 agent 对话里上下文断裂的老毛病。

锐评

这条消息对想在 Mac 上跑大模型的开发者来说是个实打实的好消息。DeepSeek V4 Flash 本身性能很强，但之前主流引擎在 Mac 上都跑不了，等于空有屠龙刀没处用。antirez 的 DS4 引擎直接填了这个坑，一个 make 命令就能编译，还兼容 OpenAI、Anthropic 的 API，你手头的 Claude Code 或 Codex 可以直接接上去用。它最值得关注的设计是解决了 agent 工作流里的上下文断裂问题。简单说，模型调用工具时，DS4 会记住它说的原话，等 agent 返回结果时把原话塞回去，这样模型就不用因为格式翻译的细微差异而重新理解整段对话。在 100K token 的长上下文里，这能省下几十秒的重新计算时间。另外，它把 KV cache 存到磁盘上，重启 server 后能直接加载，不用再从头处理那几万 token 的系统提示。不过文章没给出具体的硬件门槛和价格，只提了 96GB 内存的 Mac 能跑。性能数据倒是给了：M4 Max 上生成速度稳定在 23-27 t/s，M3 Ultra 上能到 27-37 t/s，峰值功耗才 50W。这个速度日常 coding 够用，但别指望能飙到云端 GPU 的水平。另外，ds4-agent 还是 alpha 阶段，正文也说了质量不稳定，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-05-22

更多

频道

后台