热点聚合 · 2026-05-19

▸ 76 signals · updated 3m ago

live · 238 today·policy v2

AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

126 212 320 419 542 632 749 826 923 1017 1136 1248 1337 1454 1539 1630 1719 1849 1976 2045 2148 2249 2313 2415 2520 2637 2744 2848 2935 3022 3114

2026年6月

一二三四五六日

147 258 348 447 545 619 715 852 945 1031 1128 1221 1313 1415 1524 1635 1726 1824 1912021222324252627282930

2026-05-19 · 星期二2026年5月19日

23:33

30d ago

FEATUREDAI HOT 精选· aihot-apiZH23:33 · 05·19

Anthropic 找宗教和哲学学者聊 AI 的道德养成，并给 Claude 加了个“良心提醒”工具

Anthropic 启动了一个对话项目，跟超过 15 种宗教、哲学和跨文化传统的学者、神职人员聊前沿 AI 的道德问题。他们不是要让模型信某个教，而是想借鉴这些领域里关于“好品格是怎么养成的”长期思考，来改进 Claude 的宪法和训练方式。一个直接产出是：他们给 Claude 装了一个能在任务中途主动调用的工具，用来提醒它自己的伦理承诺。内部测试里，...

#Alignment#Safety#Anthropic#Claude

精选理由

Anthropic 这次没发模型，而是拉了一群宗教、哲学和跨文化传统的学者来讨论前沿 AI 该有什么价值观，同时测了一个伦理承诺提醒工具，看能不能让 Claude 少跑偏。我会先打个折：正文没披露这个工具到底降低了多少不对齐行为，也没说对 Claude 产品本身有什么改动，所以效果还看不清。但选题本身挺刁钻，不是那种换个说法重讲安全的稿子，对从业者来说能戳中价值观和边界感的神经。

一句话点评

Anthropic 找和尚道士聊 AI 道德，不是让模型信教，而是想抄“怎么养出好人”的作业。他们还做了个工具，让 Claude 在关键时刻能主动提醒自己别跑偏，内部测试说违规行为明显少了。

锐评

Anthropic 这次没发模型，而是公开了他们跟超过 15 种宗教、哲学传统的学者聊天的阶段性结果。核心目的不是搞多元文化公关，而是想从这些领域关于“品格怎么养成”的长期思考里找灵感，用来改进 Claude 的宪法和训练方式。一个直接产出是：他们给 Claude 装了个能在任务中途主动调用的工具，用来提醒它自己的伦理承诺。内部对齐评估里，用上这个工具后，模型的违规行为明显减少。这个结果挺有意思，但正文没披露具体数字，比如违规率从多少降到了多少，也没说测试场景是真实交互还是模拟对抗。团队自己也承认，还没搞清楚效果到底来自提醒内容本身，还是“停下来想一想”这个动作。这点先别太激动，等他们把数据和实验设计放出来再说。另外，文章只讲了输入端的对话，没提这些传统里的观点如果互相冲突怎么办，也没说最终怎么落地到宪法的具体条款上。目前看，这更像一个早期探索，离真正影响模型行为还有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:49

30d ago

FEATUREDAI HOT 精选· aihot-apiZH22:49 · 05·19

Gemini Omni 能拿你的脸和声音做数字分身，以后拍视频不用真人出镜了

Gemini Omni 上线了一个新功能，你可以用自己的长相和声音创建一个数字分身。建好之后，这个分身就能替你出镜生成视频，不用每次都重新上传照片。正文没提这个功能要不要钱、在哪些地区能用、什么时候正式上线，我会先打个折观望。

#Multimodal#Vision#Audio#Gemini

精选理由

Gemini Omni 让用户拿自己的形象和声音做数字分身视频，建好之后不用反复传图，这点对做内容的人挺方便。但正文没写价格、哪些地区能用、什么时候上线，所以现在只能当个预告看。我会先打个折：功能听着省事，可落地时间表和成本都不清楚，别太激动。

一句话点评

Gemini Omni 能拿你的脸和声音做数字分身拍视频了，但正文没提收费、地区和上线时间，先别急着激动。

锐评

Gemini Omni 这次更新的核心就一件事：你可以用自己的长相和声音捏一个数字分身，之后让它替你出镜生成视频，不用每次都重新上传照片。听起来很方便，但正文只给了一句功能描述，关键信息全是空白。没写这个功能是免费还是付费，没写哪些地区能用，也没写是已经上线还是预告。我会先打个折看。对做内容的人，这功能如果能落地，确实省了反复拍摄的麻烦；但数字分身的安全和滥用风险，正文一个字都没提。现在还缺定价、可用区域、正式上线时间，以及最基本的防冒充机制说明。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:51

30d ago

FEATURED彭博科技· rssEN21:51 · 05·19

SpaceX 被曝计划在 IPO 后 30 天收购 AI 编程工具 Cursor

彭博社援引知情人士消息称，SpaceX 打算在上市 30 天后买下 AI 编程助手 Cursor。这篇报道没披露交易金额、IPO 时间表，也没提监管审批条件。Cursor 是目前程序员圈子里很火的 AI 写代码工具，如果交易落地，SpaceX 等于直接把一套成熟的 AI 开发工具塞进自己的工程体系里。不过现在连 SpaceX 什么时候上市都还没定，这个...

#Code#SpaceX#Cursor#Elon Musk

精选理由

Bloomberg 的信源加上 SpaceX 在 IPO 后立刻买 Cursor 这个奇怪安排，让消息本身够硬、够新、也够有话题性，所以 HKR 全中。不过正文没披露价格、IPO 时间表和监管条件，信息缺口明显，分数就停在 84，不到 85 的 P1 线。

一句话点评

SpaceX 打算上市后 30 天买下 AI 编程工具 Cursor，但报道没给金额、IPO 时间，连监管审批都没提，先当传闻看。

锐评

这条消息最值得关注的是逻辑本身：SpaceX 想直接把程序员圈子里最火的 AI 写代码工具塞进自己的工程体系。Cursor 能帮开发者自动补全、生成和修改代码，如果整合进 SpaceX 的火箭和卫星软件流程，理论上能加快迭代速度。但报道全篇靠匿名消息源撑着，交易金额、IPO 时间表、监管审批条件一概没披露。SpaceX 什么时候上市都还没定，30 天这个数字听起来更像谈判桌上的一个意向条款，离落地还远。另外，Cursor 这类工具在安全敏感场景下的可靠性还没被大规模验证过，航天软件对代码正确性的要求又极高，这笔买卖如果真成了，后续怎么磨合才是真正的看点。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:45

30d ago

FEATUREDAI HOT 精选· aihot-apiZH21:45 · 05·19

Claude Code 团队把主力输出格式从 Markdown 换成了 HTML

Claude Code 团队发现让模型直接生成 HTML 页面，比用 Markdown 更能把事说清楚。文章举了四个具体用法：用表格做对比、用 CSS 控制排版样式、用 SVG 画图表、用 JavaScript 加交互操作。他们没说性能数据或成本变化，更像是一篇内部实践分享，告诉你“我们这么用下来效果不错”。

#Code#Tools#Claude Code#Product update

精选理由

Claude Code 团队把默认输出从 Markdown 切到 HTML，这篇官方博文列出了表格、CSS、SVG 和 JS 交互四种用法，说明 HTML 在展示结构化结果和可交互内容上比纯文本强。对写代码的人有实操参考价值，但不算重大产品发布，放在 featured 档合适。

一句话点评

Claude Code 团队发现让模型直接吐 HTML 比写 Markdown 更能把事说清楚，但全文没给任何性能或成本数据，更像一篇内部使用心得。

锐评

这篇博文讲的是 Claude Code 团队的一个实践转向：把默认输出格式从 Markdown 换成 HTML。他们的核心判断是，HTML 在表达复杂信息时比纯文本强太多，具体体现在四个地方——用表格做对比、用 CSS 精确控制排版、用 SVG 直接画图表、用 JavaScript 加交互操作。这四点确实戳中了 Markdown 的软肋，尤其是当你需要让模型输出一个可排序的表格或者一个动态图表时，Markdown 根本做不到。但文章有个明显的问题：它完全没给数字。没有说换成 HTML 之后输出 token 消耗涨了多少、生成延迟有没有变高、用户满意度有没有量化提升。全文是纯定性描述，读起来像团队内部的经验总结，而不是一次有数据支撑的产品迭代公告。这点先别太激动，把它当成一个方向性信号就好——Anthropic 在认真考虑让模型输出更丰富的交互内容，而不是永远困在纯文本里。另外，文章也没提这种 HTML 输出在非代码场景下的表现，比如让模型写一份带图表的分析报告时，HTML 的排版稳定性如何、会不会出现样式错乱。这些缺口让整篇分享的参考价值打了折扣，但作为思路启发还是值得一看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:33

30d ago

FEATUREDTechCrunch AI· rssEN21:33 · 05·19

Google在I/O大会宣布AI设计工具Pics面向教师和个体户

Google 在 I/O 大会上发布了一款叫 Pics 的 AI 设计应用，目标用户是老师和个体户，用文字描述就能生成社交媒体图、邀请函、营销物料，不需要设计技能。这明显是冲着 Canva 和 Anthropic 的 Claude Design 去的。但正文没披露 Pics 具体能做什么、怎么收费、什么时候正式上线，只说今年夏天会推给 Google A...

#Tools#Google#Product update

精选理由

H 和 R 通过：Google 在 IO 大会提 AI 设计工具，确实是个竞争信号。K 不通过：文章只确认了方向和目标用户，功能、定价、发布时间一概没披露，信息量不够支撑高重要性评分。

一句话点评

Google 在 I/O 上发布了 AI 设计应用 Pics，目标用户是老师和个体户，用文字描述就能生成社交媒体图、邀请函等，明显对标 Canva 和 Claude Design。但正文没披露具体功能、定价和上线时间，只说今年夏天推给 Google A... 目前信息量太少，更像一个占位宣言，先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

21:27

30d ago

FEATUREDAI HOT 精选· aihot-apiZH21:27 · 05·19

ChatGPT 图像生成周用量冲到 15 亿次，OpenAI 聊了聊 Images 2.0 带来的新玩法

OpenAI 发推说，现在大家每周在 ChatGPT 里生成超过 15 亿张图片。研究员 kenjihata、产品负责人 adele__li 和主持人 AndrewMayne 一起聊了 Images 2.0 上线后冒出来的新用法和趋势。正文没展开具体是哪些用例，也没给技术细节，就提了个数字和一场对谈。

#Multimodal#Vision#OpenAI#Kenji Hata

精选理由

我会先打个折：正文只给了 15 亿这个总数，没拆地区、模型版本或付费/免费比例，也没说 Images 2.0 具体改了啥。但光这个量级就够说明图像生成已经从尝鲜变成高频刚需，对算力规划和竞品压力都有参考价值。没有新能力或定价信息，所以分数停在 78 不往上拉。

一句话点评

OpenAI 自己发推说周生成量破 15 亿张，但正文没给任何用例或技术细节，更像一次 PR 报数。

锐评

这条推文就两件事：一个数字，一场对谈预告。15 亿张/周这个量级确实大，说明 ChatGPT 的图像生成已经从尝鲜变成了高频日常工具。但 OpenAI 没拆这 15 亿里多少是正经创作、多少是表情包和梗图，也没说 Images 2.0 上线后留存和付费转化怎么样。研究员和产品负责人聊“新用例和趋势”，正文却一个例子都没列，等于把信息全锁在对谈里。我会先打个折：数字本身有参考价值，但缺拆解就只是流量展示。真正值得看的是他们后续会不会放出用户行为数据，比如重复生成率、编辑链路、多轮对话里的图像使用模式，这些才能判断图像生成是不是真在往生产力方向走。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:25

30d ago

FEATUREDTechCrunch AI· rssEN21:25 · 05·19

Gmail 现在能直接语音问收件箱了，Google I/O 2026 上演示了用 Gemini 翻找邮件细节

Google 给 Gmail 的 AI 收件箱加上了语音对话搜索，你可以直接开口让 Gemini 帮你从邮件堆里挖出具体信息。目前正文没披露这个功能会推给哪些用户、支持什么语言、要不要额外付费、响应有多快，也没说背后是用什么检索机制把邮件捞出来的。

#Audio#Tools#RAG#Google

精选理由

我会先打个折：这功能听起来挺方便，开车时动嘴就能查邮件里的航班号或报销金额。但正文只说了“可以语音搜 Gmail”，没交代支持哪些语言、是不是全球推送、要不要额外付费，也没讲清楚 Gemini 到底怎么从邮件里捞出答案——是直接扫全文还是先建索引。这点先别太激动，等有实测再判断到底省不省事。

一句话点评

Gmail 能语音搜邮件了，但正文没写谁能用、要不要钱、反应快不快，先当个 demo 看。

锐评

Google 给 Gmail 的 AI 收件箱加了个语音对话搜索，你可以直接开口让 Gemini 帮你从邮件堆里挖出具体信息。这相当于把外挂资料库的检索方式搬进了邮箱，用自然语言代替关键词翻找。但这条消息来自 RSS 摘要，关键信息全是缺口：没披露功能会推给哪些用户、支持什么语言、要不要额外付费、响应延迟多少，也没说背后是用什么检索机制把邮件捞出来的。这些直接决定它到底是实用工具还是发布会上的演示片段。我会先打个折。语音搜邮箱听起来方便，但如果检索不准、响应慢，或者只支持英文、只给付费用户，那对大多数人的实际帮助就有限。等 Google 放出具体上线时间和使用限制再判断不迟。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

21:00

30d ago

● P1彭博科技· rssEN21:00 · 05·19

SoftBank向OpenAI投资600亿美元引发内部担忧

软银已向 OpenAI 承诺投入超过 600 亿美元，部分内部人士对孙正义如此力挺 Sam Altman 感到不安。正文没披露具体交易条款、资金到位时间表，也没说有多少人表达了担忧，以及这些担忧在内部是否被正式讨论过。

#SoftBank#OpenAI#Sam Altman#Funding

精选理由

我会先打个折：正文没披露具体的投资条款、时间表，也没说内部到底有多少人反对，所以很多判断还悬着。但 Bloomberg 能拿到“内部人士担忧”这种料，本身就说明 SoftBank 这笔超过 600 亿美元的押注在内部有争议。孙正义对 Altman 的个人投入被单独拎出来说事，这比单纯报一个融资额更有信号意义——它暗示了决策可能不够冷静，也把 OpenAI 的资本结构风险又翻了出来。这点先别太激动，但值得盯着后续条款和反对声浪会不会公开化。

一句话点评

孙正义押注OpenAI超600亿美元，内部人怕他像当年迷信WeWork创始人一样迷信奥特曼，而且投了这么多连个董事会席位都没拿到。

锐评

这条新闻的核心不是钱多，而是权力结构和决策机制出了问题。软银对OpenAI的总投资承诺已超过600亿美元，持股超过10%，但既没有董事会席位，连观察员席位都没有。这意味着软银对这笔巨额押注几乎没有决策影响力，只能被动跟随奥特曼的节奏。内部人士向彭博社透露，孙正义曾多次不耐烦地驳回关于“OpenAI万一失败怎么办”的提问，下属后来干脆不再提了。有几个数字值得注意：软银上一财年利润增长超过三倍，达到创纪录的320亿美元，大部分收益来自OpenAI估值上升。但这只是账面浮盈，OpenAI还没上市。而软银股价已从去年10月高点下跌超过20%，标普也下调了对软银的展望，担心这笔押注会消耗流动性。另外，软银已经缩减了一笔以OpenAI股份为担保的100亿美元保证金贷款计划，说明债权人也在犹豫。文章没披露的是：OpenAI具体的上市时间表和估值依据、软银内部是否有正式的风险对冲方案、以及孙正义本人对Anthropic近期突破的具体看法。这些信息缺口让“高度信心”的说法显得更像表态而非论证。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

21:00

30d ago

FEATUREDThe Verge · AI· rssEN21:00 · 05·19

Google I/O 画了一堆 AI 大饼，但前提是你得把个人数据交出来

Google 在 I/O 2026 上发布了 Gemini Spark（常驻 AI 助手，能帮你张罗活动）、Daily Brief（每日简报）和 Gmail AI 收件箱（根据邮件自动生成待办和回信草稿）。这些功能听起来都挺实用，但核心都是靠大量个人数据喂出来的。文章点出了这个信任问题，不过正文没披露具体的数据处理条款，所以先别急着说它安全还是不安全。

#Agent#Tools#Memory#Google

精选理由

Google 在 I/O 2026 亮出的几个新工具，核心卖点是替你读邮件、替你整理信息，但前提是你得把大量个人数据交出去。正文只说了这些功能依赖个人信息，没写数据怎么处理、存多久、会不会拿去训练模型。我会先打个折：产品方向很明确，就是让 AI 住进你的邮箱和日程里，但隐私和信任那部分目前只有表态，没有细节。这点先别太激动，等 Google 把数据处理规则说清楚再判断值不值得跟进。

一句话点评

Google 把一堆实用功能绑在了你的个人数据上，但正文没披露具体怎么用、存多久，这点先别太激动。

锐评

Google 在 I/O 大会上画的饼，核心逻辑是用你的邮件、日程、位置信息去喂出一个贴身 AI 管家。Gemini Spark 能帮你攒局，Gmail AI 能替你写回信，听起来确实省事。但文章点到了一个关键缺口：这些功能跑在大量个人数据上，而 Google 没在发布时把数据处理规则摊开讲。我会先打个折。实用性和隐私风险是绑在一起的，如果后续不公布数据是本地处理还是上传云端、会不会用于训练模型，那这些功能就只是半成品。对从业者来说，值得盯的是 Google 后续会不会出技术白皮书，而不是只看 demo 有多流畅。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:47

30d ago

● P1FT · 科技· rssEN20:47 · 05·19

Google 要出智能眼镜，还会在搜索引擎里塞进 AI 代理

Google 准备发布智能眼镜，同时给搜索引擎加上 AI 代理功能。CEO Sundar Pichai 说这些功能靠新的 Gemini 模型驱动，目标是缩小跟 Anthropic 和 OpenAI 的差距。不过这篇付费墙后面的正文没披露具体规格、上市时间和价格，所以眼镜长什么样、卖多少钱、什么时候能买到，现在都还不知道。

#Agent#Google#Sundar Pichai#Anthropic

精选理由

我会先打个折：正文没披露参数、时间表和价格，所以没法判断落地有多快。但 Google 把 Gemini agent 塞进搜索，再配上智能眼镜，等于在用户每天用的入口上同时推两个 AI 触点。Pichai 自己说新功能要缩小跟 Anthropic、OpenAI 的差距，这话本身就说明他们承认落后，也在用产品动作追。对从业者来说，看点不是技术多新，而是 Google 怎么用分发优势把 agent 推到普通人面前。这点先别太激动，等具体上线和实测再说。

一句话点评

Google 要发智能眼镜，还给搜索加了能替你干活的 AI 代理，但全文卡在付费墙后，规格、价格、上市时间一概没写。

锐评

这条消息本身挺重磅：Google 终于要出智能眼镜，同时把 AI 代理塞进搜索引擎，CEO 说靠新的 Gemini 模型来追赶 Anthropic 和 OpenAI。但尴尬的是，FT 这篇正文完全在付费墙后面，我们能看到的只有标题和摘要，所以眼镜长什么样、卖多少钱、什么时候能买到，现在全是问号。我会先打个折：Google 在硬件上翻过车，智能眼镜能不能成，得看它解决了什么实际问题，而不是又画一个“未来生活”的饼。搜索加代理这事倒更值得关注——如果真能让模型直接帮你订机票、比价、填表，那是对现有搜索体验的改造，而不只是多一个聊天窗口。但正文没披露代理能调用哪些服务、权限边界在哪、出错谁兜底，这些才是落地时真正要命的问题。还缺的关键信息：新 Gemini 模型在哪些指标上缩小了差距，是跑分、延迟还是实际任务完成率？眼镜的交互方式是语音、手势还是别的？这些 FT 都没给，只能等后续报道或 Google 自己公布。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:32

30d ago

FEATUREDAI HOT 精选· aihot-apiZH20:32 · 05·19

Claude 操控真实界面的生产实践指南：点击更准、长任务不跑偏、操作可回放

Claude 现在能直接操作真实软件界面了，这篇博客讲的是怎么把它用到生产环境里，而不是只跑个 demo。文章给了四个具体机制：一是提高点击准确率，减少点错按钮的概率；二是可以选“思考努力级别”，在速度和效果之间做取舍；三是在长会话里保持上下文，避免任务跑到一半忘了前面在干嘛；四是把 Claude 的操作录成可重放的演示日志，方便排查和复现。正文没给出...

#Agent#Tools#Memory#Claude

精选理由

我会先打个折：这不是官方模型或产品发布，更像一份实战经验总结，所以放在质量教程档位。但它把 Claude 操控真实界面的四个关键机制讲得很清楚——怎么提高点击准头、怎么控制模型思考深度、怎么处理长会话不丢上下文、怎么把操作录下来复现。对正在把 agent 塞进业务流程的团队来说，这些点比 benchmark 数字更有用。

一句话点评

Claude 现在能直接操作真实软件界面了，这篇博客讲的是怎么把它用到生产环境里，而不是只跑个 demo。

锐评

这篇东西的价值在于它终于不画饼了，直接聊生产环境怎么落地。四个机制里，点击准确率和思考努力级别这两点比较实在——前者直接关系到任务能不能跑通，后者给了工程上调节成本与效果的旋钮。长会话上下文保持和可重放日志，更像是把 agent 当正经软件工程来对待，而不是一次性魔法。不过正文只给了 RSS 摘要，没看到具体数字。比如点击准确率到底提升了多少、思考级别分几档、长会话能撑多少步、日志回放有没有性能开销，这些关键指标都没披露。另外也没提这套方案对哪些软件界面有效，是只针对浏览器还是桌面应用也能用。我会先打个折：这更像是一份实践原则清单，不是可复现的基准测试。真要评估可靠性，得等有人拿它跑几百次重复任务，看失败率和恢复能力。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:30

30d ago

FEATUREDOpenAI 博客· rssEN20:30 · 05·19

OpenAI在新加坡成立首个海外应用AI实验室

OpenAI 宣布与新加坡数字发展及信息部合作，推出“OpenAI for Singapore”计划，承诺投入超过 3 亿新元（约 16 亿人民币）。核心动作是在新加坡设立首个美国以外的应用 AI 实验室，未来几年内招聘 200 多名技术岗位，重点部署前沿模型到公共服务、金融、医疗和数字基础设施。同时会与教育部、GovTech 合作做 AI 教学工具（...

#OpenAI#Partnership#Product update

精选理由

OpenAI 自带关注度，但这条消息只说了“OpenAI for Singapore”和多年合作，合作方、预算、模型范围、时间表全没提。信息量极低，属于营销通告，按硬排除规则打分上限39。

一句话点评

OpenAI 把第一个海外应用实验室放在新加坡，投了 2.34 亿美元。这钱主要花在招人和租办公室上，不是直接买算力。

锐评

OpenAI 在新加坡设了个新实验室，这是它在美国之外第一个面向实际应用的研发据点。Bloomberg 报道的 2.34 亿美元投资，按新闻里的说法，主要会用在招人和场地这些运营开销上，不是直接砸向 GPU 集群。这点要先说清楚，别把它理解成又建了一个大型训练中心。从官方博客看，这个实验室的重点是跟新加坡本地企业和政府合作，把现有模型塞进具体业务场景里，比如金融、公共服务。换句话说，它更像一个做本地化适配和落地的工程团队，而不是搞基础模型研究的。目前两篇报道都没提实验室具体规模有多大、计划招多少人，也没说清楚这 2.34 亿是分几年花完。这些信息缺口意味着，现在判断它对 OpenAI 亚太收入的实际拉动效果还太早。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

20:25

30d ago

FEATUREDAI HOT 精选· aihot-apiZH20:25 · 05·19

Google AI Edge Gallery 更新：手机端模型能调外部工具、设提醒、记住聊天了

Google 给 AI Edge Gallery 这个手机端模型体验应用加了三个新能力。一是安卓版开始实验性支持 MCP（模型上下文协议），你可以给手机上的 Gemma 4 模型配一个外部工具服务器地址，比如连上 Google Workspace 查日历邮件，或者接 Google Maps 问路、接网页抓取工具读链接内容。模型在本地决定调哪个工具，请求...

#Agent#Tools#Memory#Google

精选理由

Google 在安卓 AI Edge Gallery 里塞了实验性 MCP 支持，Gemma 4 能直接调 Workspace、Maps 这些外部工具，还补了通知和会话记忆。我会先打个折——正文没披露延迟、耗电和实际可用工具数量，目前更像开发者尝鲜版。但方向很明确：让手机端模型从聊天框跳出来，进到系统里干活。这点先别太激动，等看实际跑起来的稳定性。

一句话点评

手机端模型能直接调你的日历、邮件和地图了，但这是实验功能，MCP 服务器得自己搭或连云端，别当成品用。

锐评

Google 给 AI Edge Gallery 这个手机端模型体验应用加了三个新能力，最值得看的是安卓版开始实验性支持 MCP（模型上下文协议）。简单说，你可以在手机上给 Gemma 4 模型配一个外部工具服务器地址，比如连上 Google Workspace 查日历邮件，或者接 Google Maps 问路。模型在本地决定调哪个工具，请求发出去由服务器执行，推理和决策全在手机上完成。这点先别太激动。正文明确说这是实验功能，iOS 版还没跟上，而且 MCP 服务器需要你自己部署在家庭电脑或云端，不是开箱即用的服务。另外两个更新是定时通知提醒和聊天记录持久化，能让长时间对话的上下文恢复更快，属于体验补课。正文没披露端侧推理的实际延迟、功耗，也没说 MCP 工具调用的失败率和安全边界。这些缺口意味着现在更适合开发者尝鲜，离普通用户能稳定用还有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:44

30d ago

FEATUREDAI HOT 精选· aihot-apiZH19:44 · 05·19

OpenAI 卖算力期货：交钱锁定长期 GPU，正文没写价格和最低消费

OpenAI 上线 Guaranteed Capacity 服务，让客户提前锁定长期算力，避免高峰期排队。官方说法是帮企业在算力紧张时也能跑关键任务。但公告没披露价格、合同年限、最低配额，也没说锁的是哪种 GPU。我会先打个折——这更像给大客户吃定心丸，小团队暂时不用激动。

#Inference-opt#OpenAI#Product update

精选理由

我会先打个折：正文没给价格、期限和容量配额，所以现在只能知道 OpenAI 开始卖算力预留，但不知道划不划算。H 来自 OpenAI 把算力稀缺变成一种可预订的服务，对 API 用户是个实在的钩子。K 只到产品名和规划机制这一步，缺关键商业细节。R 踩中了生产可靠性和预算规划这两个痛点，所以能进 featured，但信息缺口把分数压在中段。

一句话点评

OpenAI 开始卖算力期货了，但价格、年限、最低起订量全没写，小团队先别激动。

锐评

OpenAI 上线了 Guaranteed Capacity，说白了就是让企业提前交钱锁定算力，避免高峰期排队。这对需要稳定跑关键任务的大客户是好事，但公告里关键信息全缺：没写价格、没写合同年限、没写最低配额，也没说锁的是哪种 GPU。我会先打个折——这更像给大客户吃定心丸，小团队暂时不用激动。从产品逻辑看，这暴露了 OpenAI 算力吃紧的现实。与其让客户在高峰期抢不到资源，不如提前卖期货，既能锁定收入，又能规划负载。但没披露定价模型是个硬伤：是按预留实例打折，还是溢价卖稀缺资源？如果是后者，成本可能不降反升。还缺两个关键信息：一是如果 OpenAI 自己算力不够，违约怎么赔；二是锁定的算力能不能灵活调配到不同模型。这些不写清楚，合同签了也可能踩坑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:34

30d ago

● P1Hacker News 首页· rssEN19:34 · 05·19

OpenAI为生成图片采用Google SynthID水印技术并推出验证工具

OpenAI 宣布给 ChatGPT、Codex 和 API 生成的图片加上 Google DeepMind 的 SynthID 隐形水印，同时把自家的内容来源信息正式对齐 C2PA 标准。简单说，C2PA 像给图片贴了个带签名的数字标签，记录谁生成的、怎么改过，但截图或转格式时容易丢；SynthID 则是在像素层面埋信号，更扛得住截图和压缩。两者互补...

#Safety#Vision#OpenAI#Google

精选理由

我会先打个折：正文只给了 55 分、23 条评论，没写覆盖哪些模型、什么时候上线、验证机制怎么跑，信息缺口不小。但 OpenAI 接 Google 的水印方案这件事本身够具体，不是画饼，对做内容溯源和合规的从业者来说是个可追踪的信号。这点先别太激动，等上线细节出来再判断实际效果。

一句话点评

OpenAI 用上了 Google 的 SynthID 给生成图片打隐形水印，还接入了 C2PA 元数据标准，以后查图来源会方便一点，但只对自家产品有效。

锐评

OpenAI 这次做了两件事：一是加入 C2PA 开放标准，在图片的元数据里直接写明“这是 AI 生成的”；二是把 Google 的 SynthID 水印技术集成进自己的产品。SynthID 相当于给图片像素里藏了一个肉眼看不见的记号，就算截图、压缩也很难去掉，比单纯看元数据更扛造。不过，这两招目前只覆盖 OpenAI 自己模型生成的图片。正文没提 DALL·E 以外的产品，也没说第三方工具或截图后还能不能验出来。另外，验证工具具体怎么用、准确率多少、会不会误判，文章都没给数字。这点先别太激动。水印能增加造假成本，但挡不住决心够大的攻击者。真正缺的是一套跨平台、跨模型的通用验证机制，以及平台愿意强制执行的动力。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:25

30d ago

FEATUREDAI HOT 精选· aihot-apiZH19:25 · 05·19

Google 把 Tensor 芯片的 AI 能力开放给开发者，Pixel 10 手机上的 TPU 现在可以直接跑模型了

Google 发布了 Tensor ML SDK 的公开测试版，开发者现在能把 PyTorch 或 TFLite 模型转换、编译后，直接调用 Pixel 10 系列手机里的 TPU 芯片来跑推理。整个流程通过 LiteRT 这个统一框架完成，不用再分别对接底层硬件驱动。官方还提供了一个模型库，里面有超过 100 个现成的经典模型和生成式 AI 模型，包...

#Inference-opt#Tools#Multimodal#Google

精选理由

HKR-K 很扎实：文章给出了 Pixel 10 TPU 上的具体工作流和一个 100+ 模型库。H 和 R 也够得上 featured，但这是个测试版开发者 SDK，不是旗舰模型或面向大众的产品发布，所以我会先打个折。

一句话点评

Pixel 10 的 TPU 终于对第三方开发者开放了，不用再绕道 CPU/GPU，但前提是你得用 LiteRT 这套新框架。

锐评

Google 把 Pixel 10 系列里那块 TPU 的推理能力开放给了普通开发者，不再只是自家相机和翻译功能独享。现在你可以把 PyTorch 或 TFLite 模型通过 LiteRT 框架转换、编译，直接调用手机里的 TPU 来跑。官方还准备了一个模型库，里面有超过 100 个现成模型，包括 Gemma 3 1B 这种小语言模型。对开发者来说，最大的好处是省事：LiteRT 把底层硬件驱动和编译器都封装好了，不用分别对接。它还支持自动降级，TPU 不可用时能切回 CPU 或 GPU。但正文没提 TPU 推理的具体延迟和功耗数据，也没说模型编译后体积会膨胀多少。这些对端侧部署很关键，现在只能自己测。另外，模型分发走的是 Google Play 的 AI Packs 通道，这意味着你的 App 只能在 Google 生态里用这套方案。如果目标用户不在 Pixel 10 上，这套东西暂时用不上。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:15

30d ago

FEATUREDTechCrunch AI· rssEN19:15 · 05·19

Google 学 Meta 做音频眼镜，在 I/O 2026 上发了款靠语音交互的智能眼镜

Google 在 I/O 大会上宣布和 Warby Parker、Gentle Monster 合作，推出新的“音频眼镜”。这副眼镜没有屏幕，主要靠语音指令来操作 Google 自家的应用和服务，包括调用 Gemini 助手。它会同时支持 Android 和 iOS，设计上有三星参与，预计今年晚些时候上市。正文没披露具体价格、硬件参数和确切发售日期，所...

#Audio#Agent#Tools#Google

精选理由

我会先打个折：正文没给价格、上市时间和硬件参数，所以只能当个信号看，别太激动。但 Google 在 I/O 上亮出这副音频眼镜，摆明了要跟 Meta 抢 AI 穿戴入口，语音调用 Gemini 这条信息本身是实的。对从业者来说，这比单纯发个模型更能说明大厂在把 AI 往硬件里塞的节奏。

一句话点评

Google 学 Meta 做音频眼镜，没屏幕、靠语音和 Gemini 干活，但价格和上市时间都没说，先当个预告看。

锐评

Google 在 I/O 大会上宣布跟 Warby Parker、Gentle Monster 合作推出“音频眼镜”，说白了就是一副没有屏幕、主要靠语音指令操作的智能眼镜。用户可以通过它调用 Gemini 助手和 Google 自家的应用服务，同时支持 Android 和 iOS，设计上还有三星参与。这路线跟 Meta 的 Ray-Ban 联名款很像，都是先不做显示，用音频和 AI 助手切入日常佩戴场景。但正文没披露价格、硬件参数和确切发售日期，只说了“今年晚些时候上市”。没有这些信息，很难判断它跟 Meta 现有产品比有没有竞争力。另外，纯语音交互在户外、嘈杂环境下的可靠性，以及 Gemini 在穿戴设备上的响应延迟，也都没提。这点先别太激动，等有实测和定价再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:03

30d ago

FEATURED彭博科技· rssEN19:03 · 05·19

Anthropic 的 Mythos 模型让美国监管机构暂停了对大银行的部分网络安全检查

美国金融监管机构推迟了对几家最大银行的部分网络安全相关检查，原因是 Anthropic 新发布的 Mythos 模型暴露了新的风险。我会先打个折：正文被 Bloomberg 的付费墙挡住了，具体检查范围、暂停多久、涉及哪些银行，以及 Mythos 模型到底在技术上展示了什么新能力，这些关键信息目前都没披露。

#Safety#Anthropic#Mythos#Policy

精选理由

我会先打个折：正文只说了暂停检查这个动作，没披露 Mythos 到底在测试里暴露了什么、影响了哪些银行、暂停多久。所以冲击力有，但信息缺口也大。对从业者来说，这至少说明前沿模型的安全评估结果，已经开始直接左右金融监管的实操了，这点值得盯着后续。

一句话点评

美国监管机构因 Anthropic 的 Mythos 模型暴露新风险，暂停了对大银行的部分网络安全检查。但正文被付费墙挡住，具体停了什么、停多久、涉及哪几家银行都没说，先别急着下结论。

锐评

这条消息的核心是，一个还没被外界完全搞清楚的新模型，直接让金融监管的动作踩了刹车。Anthropic 的 Mythos 模型到底展示了什么能力，能让监管机构觉得现有的银行网络安全检查不够用了，这是最值得追问的点。目前 Bloomberg 的报道被付费墙完全挡住，我们只知道检查暂停了，但检查范围、暂停时长、受影响银行名单这些关键事实一概缺失。对从业者来说，这更像一个信号：前沿模型的安全评估结果，正在从论文和基准测试里走出来，开始直接影响现实世界的监管节奏。但信号有多强，完全取决于 Mythos 暴露的风险是理论上的还是可复现的攻击路径。正文没披露技术细节，也没说明监管机构是基于 Anthropic 的自报、第三方红队测试还是自己的复现结果做出的决定。这些信息缺口让整件事的可信度要打个折，建议等更多技术报告或监管文件出来再判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:09

30d ago

FEATUREDr/LocalLLaMA· rssEN18:09 · 05·19

英伟达放出 Nemotron-Labs-Diffusion 模型，用扩散解码把 8B 模型跑到 850 tok/s

英伟达发了 Nemotron-Labs-Diffusion 系列，包含 3B、8B 和 14B 三个稠密模型。这组模型同时支持传统的自回归解码和新的扩散并行解码，还带了一种叫 self-speculation 的加速技巧。最抓眼球的是 8B 版本在 GB200 上单并发能跑到每秒 850 个 token，作为对比，同样条件下自回归解码是 253 tok...

#Inference-opt#Multimodal#Vision#NVIDIA

精选理由

NVIDIA 这次没走自回归老路，拿扩散模型做了三个稠密 LLM，最小的 3B，最大的 14B。我会先打个折：目前只有 Reddit 帖子当信源，没有论文或技术报告，所以 850 tok/s 这个数先别太激动，正文没披露具体测试条件和 batch size。但方向本身有意思——扩散并行解码加上 self-speculation，理论上可以一次出多个 token，不用像自回归那样一个字一个字往外蹦，推理延迟能压下去。8B 模型在 GB200 上跑出这个速度，如果属实，对本地跑模型、做实时对话的人挺省钱。信息缺口也明显：没提训练数据、没提多语言能力、没...

一句话点评

英伟达把扩散模型思路搬到大语言模型上，8B模型在GB200上跑到850 tok/s，比传统方式快两倍多，但正文没披露具体任务和精度损失。

锐评

这条消息最值得看的是推理速度。8B模型在GB200上单并发跑到每秒850个token，对比传统自回归解码的253 tok/s，确实快了一大截。他们用的是一种叫扩散并行解码的方法，简单说就是让模型一次生成一整段文本，再逐步修正，而不是一个字一个字往外蹦。还加了个self-speculation技巧，相当于模型自己给自己做推测解码，进一步压榨速度。但这里有几个信息缺口。正文没说明850 tok/s是在什么任务上测的，是简单对话还是长文生成，也没提输出质量有没有打折。扩散模型在图像生成里很成熟，搬到文本上最大的坑就是连贯性和事实准确性，这两点原文完全没提。另外，测试硬件是GB200，这是英伟达最新的高端卡，普通开发者手里的设备能不能复现这个速度，要打个大问号。我会先观望。如果后续有独立评测验证精度没塌，这套方法对需要低延迟的场景确实有用。但眼下只能把它当成一个有意思的工程探索，别急着对标生产环境。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:09

30d ago

FEATUREDAI HOT 精选· aihot-apiZH18:09 · 05·19

Gemini 月活冲到 9 亿，官方把功劳归给发版速度

Gemini 应用月活用户超过 9 亿。官方说增长主要靠发布节奏快，但正文没列出具体是哪些功能、怎么统计的、统计周期多长，只预告会在后续推文里回顾过去一年的重要更新。

#Gemini#Google#Product update

精选理由

Gemini 官方账号自己报出 9 亿月活，这个数字够硬，也够有话题性，所以给了 featured。但正文只提了一句增长来自更快发布节奏，具体哪些功能、怎么统计的、算的是 app 还是含网页端，全都没说。我会先打个折：9 亿可能包含 Google 全家桶的被动触达，不一定是主动使用。这点先别太激动，等后续有拆解再重新评估。

一句话点评

9亿月活听着挺唬人，但正文没说是怎么算的、统计周期多长，也没列具体功能，这条更像预告片。

锐评

Gemini 应用月活破 9 亿，官方把增长归因于“发布节奏快”，但这条推文本身没给出任何支撑数据。我会先打个折：没披露统计口径（是打开过就算，还是活跃使用）、没说明统计周期、也没列出到底哪些功能拉动了增长，只说“后续回顾”。对从业者来说，这个数字的参考价值有限——没有功能清单和用户行为数据，就没法判断是产品真变好用了，还是靠 Google 全家桶导流堆出来的量。想复盘的团队得等后续推文，看他们到底回顾了什么功能、有没有附带实验数据或用户反馈。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:06

30d ago

FEATUREDAI HOT 精选· aihot-apiZH18:06 · 05·19

Google 把 Gemini 科研助手 ERA 发在 Nature 上，并开放早期测试

Google Research 在《自然》杂志上发表了他们基于 Gemini 的“经验研究助手”（ERA），同时通过 Google Labs 的可信测试者计划开放了早期访问。这个工具想帮研究人员自动完成文献综述、提出假设和设计实验这些耗时的工作。文章主要讲了 ERA 从一篇 Nature 论文走向实际计算发现工具的过程，但正文没披露它在真实科研场景里的...

#Agent#Code#Tools#Google Research

精选理由

Google Research 把基于 Gemini 的 ERA 发在了 Nature 上，同时通过 Google Labs 的可信赖测试者计划开放初步试用。我会先打个折：正文没给出具体指标、基准测试设置，也没讲可复现的工作流细节，所以没法判断它到底有多能打。但这件事本身值得关注——它不是在秀一个 demo，而是试图把论文里的研究助手推到真实科研场景里去验证。这点先别太激动，等看到实际使用反馈和量化结果再说。

一句话点评

Google 把基于 Gemini 的科研助手 ERA 发了 Nature，还开了早期测试。但正文没给出任何真实科研场景的验证数据，目前更像一篇 PR 博客。

锐评

Google 在《自然》上发了篇论文，介绍他们的“经验研究助手”ERA，想帮研究人员自动读文献、提假设、设计实验。同时通过 Google Labs 的可信测试者计划开放早期访问。听起来像是个能省掉大量重复劳动的科研外挂，但文章从头到尾没给出任何在真实实验室里跑出来的效果数据。发 Nature 本身说明同行评议过了关，但博客里只讲了“从论文到工具”的故事线，没提模型在具体学科任务上的准确率、召回率，也没说测试者反馈。这点先别太激动——有顶刊背书不等于产品已经好用。还缺几块关键信息：ERA 在什么学科上测过、幻觉率多高、能不能处理带图表和实验数据的论文、和人工做文献综述比到底省了多少时间。这些不说清楚，很难判断它是个真能进实验室干活的助手，还是又一个包装成科研工具的通用大模型界面。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:03

30d ago

FEATUREDHacker News 首页· rssEN18:03 · 05·19

Google 宣布 Gemini CLI 将于 2026 年 6 月停止服务迁移至 Antigravity

Google 宣布 Gemini CLI 将在 2026 年 6 月 18 日停止服务，个人免费用户和 Pro/Ultra 订阅用户届时都无法再使用。这个命令行工具去年发布后攒了超过 10 万 GitHub 星标和 6000 个合并请求，但 Google 认为用户现在需要的是多个 AI 代理互相配合干活，而不是单打独斗，所以决定把精力集中到新的 Ant...

#Tools#Code#Google#Gemini CLI

精选理由

Google 开发者博客扔出一个 Gemini CLI 的停用日期，并指向 Antigravity CLI 作为替代。标题本身就是一个硬截止日，对依赖这条命令行的开发者冲击不小，所以 HKR 三项都站得住。不过正文除了日期和迁移目标外，没解释怎么迁、兼容性如何、旧项目会不会断，信息量其实很薄。我会先打个折，把它放在 featured 的低位，因为截止日本身就有新闻性，但细节缺口太大，不值得给更高分。

一句话点评

Google 把 Gemini CLI 砍了，用户得在 6 月 18 日前迁到新工具 Antigravity CLI，免费版直接停服。

锐评

Google 宣布 Gemini CLI 将在 2026 年 6 月 18 日停止服务，所有用户被导向新的 Antigravity CLI。这不是简单的改名，而是底层架构的切换：新工具用 Go 重写，主打多智能体协作和异步任务，背后和 Antigravity 2.0 桌面版共享同一套智能体引擎。对免费用户和 Gemini Code Assist 个人版用户来说，这就是个硬 deadline，到期直接断连。官方说新工具保留了 Agent Skills、Hooks 等核心功能，但也承认初期做不到 1:1 功能对齐。企业付费用户暂时不受影响，可以继续用旧版。正文没披露迁移工具或自动转换方案，只给了文档链接。10 万 GitHub star 的项目说停就停，社区反馈和实际迁移摩擦有多大，目前看不出来。如果你深度依赖 Gemini CLI 的某个特定扩展或工作流，最好现在就对照文档检查兼容性，别等到截止日才发现缺胳膊少腿。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:00

30d ago

FEATUREDThe Verge · AI· rssEN18:00 · 05·19

Gemini 将接入沃尔沃 EX60 的外部摄像头，帮你读懂停车标志

Google 和沃尔沃在 I/O 大会上说，Gemini 会连上还没发布的 EX60 SUV 的外部摄像头，第一个功能是解释那些让人头疼的停车标志。这靠的是沃尔沃车机本来就用了 Google 的 Android Automotive 系统。Google 还提了一嘴，以后可能让 Gemini 回忆路过的路牌之类，但正文没展开说具体还有哪些场景。

#Vision#Multimodal#Google#Volvo

精选理由

H 和 K 都成立：Gemini 连上沃尔沃 EX60 外部摄像头做停车标志解读，是一个具体的多模态上车用例，不是画饼。R 偏弱，因为文章只说了功能存在，没讲怎么处理隐私、误判怎么兜底、会在哪些市场推送，这些信息缺口让冲击力打了折扣。

一句话点评

Gemini 要连上沃尔沃 EX60 的外部摄像头，第一个活是帮你读停车牌。功能听着实用，但只说了这一个场景，别急着当全自动驾驶助手看。

锐评

Google 和沃尔沃在 I/O 上宣布，Gemini 会接入还没发布的 EX60 SUV 的外部摄像头，首发功能是解释那些让人头疼的停车标志。这靠的是沃尔沃车机本来就用了 Google 的 Android Automotive 系统，所以 Gemini 能直接拿到摄像头画面，不用额外折腾硬件。 Google 提了一嘴，以后可能让 Gemini 回忆路过的路牌之类，但正文没展开说具体还有哪些场景、什么时候上线、要不要联网、延迟多少。这些信息缺口挺大，现在只能把它当成一个单点功能展示，离真正能看懂周围环境的车载助手还有距离。另外，报道来自 The Verge 的 RSS 摘要，全文被截断了，细节可能还有遗漏。沃尔沃 EX60 本身也还没发布，功能落地时间完全没谱。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

17:56

30d ago

● P1Hacker News 首页· rssEN17:56 · 05·19

谷歌搜索界面迎来重大改变

标题说用户熟悉的 Google 搜索要结束了，但正文只给了文章链接、81 个 Hacker News 点赞和 76 条评论，没透露具体改了产品哪块、用了什么 AI 机制、什么时候上线。信息缺口很大，目前只能确认这事在社区讨论热度不低。

#Google#TechCrunch#Hacker News#Commentary

精选理由

标题有钩子，但正文没有给出任何可验证的新事实——没有具体产品改动、AI 机制或发布时间，只有 Hacker News 的元数据。HKR-H 和 HKR-R 通过，但 HKR-K 不通过，因此重要性上限被卡在 40 以下，最终评 38 分，归入 excluded。

一句话点评

谷歌把用了25年的搜索框改成了AI对话入口，以后搜东西可能直接掉进AI生成的互动页面里，蓝色链接没了。这对靠搜索流量吃饭的网站是致命一击。

锐评

谷歌在I/O大会上宣布的这次改版，核心是把搜索从“返回一堆链接”变成“直接给你一个AI生成的答案页”。新搜索框能处理更长的对话式提问，还会在后台派“信息代理人”去帮你搜集资料，甚至允许用户自己搭建个性化小应用。TechCrunch的报道点出了最要命的地方：这种交互方式会进一步截流，用户留在谷歌页面里就把事办了，不再需要点进第三方网站。不过，文章没给出任何数据来支撑这个“重大改变”到底覆盖多少用户、什么时候全量上线，也没提AI回答的准确率或出错率。谷歌过去在搜索里塞AI预览时就闹过不少事实性错误，这次升级成更复杂的互动体验，出错的风险只会更高。另外，出版商和内容创作者会少掉多少流量，谷歌打算怎么补偿或者有没有补偿机制，正文完全没提。这些信息缺口让“搜索已死”的判断得先打个折——方向是明确的，但落地效果和副作用还看不清。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

17:54

30d ago

● P1The Verge · AI· rssEN17:54 · 05·19

Google I/O 2026 发布 Gemini 3.5 Flash 与多项产品更新

Google 在 I/O 2026 上发布了新模型 Gemini 3.5 Flash，今天起它就是 Gemini 应用和搜索里 AI Mode 的默认模型了。更强的 Gemini 3.5 Pro 下个月才来。文章只提了这俩模型、搜索、Gmail 和智能眼镜 Project Aura 有更新，但没把 13 个发布全列出来，想看完整清单得去 The Ver...

#Multimodal#Google#Sundar Pichai#Gemini

精选理由

这条消息有 I/O 大会的流量加持，Gemini 3.5 Flash 默认上线的动作也够快，对关注 Google 生态的人来说是个明确的信号。但正文只说了默认切换和 Pro 的时间点，13 项完整清单、跑分、定价这些关键信息都没给，所以重要性先打个折，放在 featured 里而不是直接上首页。

一句话点评

Gemini 3.5 Flash 直接上线，推理快了 4 倍，但运行成本比上代贵了 5.5 倍，省钱这事得看具体任务。

锐评

Google I/O 这次把 Gemini 3.5 Flash 直接推上线，没搞分批等待，这点挺实在。模型主打代理和写代码场景，上下文窗口 100 万 token，一次最多能吐 6.5 万 token，还加了四个思考档位，能记住上一轮的思考过程。官方说它比自家 3.1 Pro 强，在终端操作、前端代码等测试上分数更高，推理速度比同类前沿模型快 4 倍。但第三方测试机构 Artificial Analysis 的数据得看仔细：它的智能指数评分 55，比上代 3 Flash 高了 9 分，可运行成本也贵了 5.5 倍，甚至比 3.1 Pro 还贵 75%。输出速度确实快，每秒超 280 个 token，价格是每百万输入/输出 token 收 1.5 和 9 美元。所以“快”是真的，“便宜”得打个问号，除非你的任务对延迟极度敏感。另外，现场演示的 Omni 视频生成和 Spark 后台代理看着热闹，但正文没给出具体的延迟数据、失败率或第三方评测，目前只能当方向性展示。3.5 Pro 下个月才来，现在下结论还早。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

17:51

30d ago

FEATUREDTechCrunch AI· rssEN17:51 · 05·19

Google 把街景塞进 Genie 世界模型，现在能直接生成可交互的街道模拟

Google DeepMind 把 Street View 街景数据接入了自家的世界模型 Project Genie，让它能根据真实街道照片生成可交互的 3D 场景。你可以像玩游戏一样在模拟街道里走动，还能调天气、看极端气候下的样子。官方说这会用在机器人训练、游戏和旅游场景里，但正文没披露模型参数、上线时间，也没给任何评测结果，所以实际效果和成本都还是...

#Robotics#Multimodal#Google DeepMind#Google

精选理由

谷歌 DeepMind 把 Street View 塞进 Project Genie，等于让街景从静态照片变成能走进去互动的模拟环境。我会先打个折：正文完全没披露模型大小、推理延迟、上线计划，也没给任何定量评测，所以现在只能当一次技术演示看。但它的钩子很实在——机器人训练可以直接用真实街景做仿真，游戏生成也能拿到现成的地图素材，再加上谷歌手里独一份的街景数据，这个方向本身值得关注。

一句话点评

Google 把街景塞进世界模型，能生成可走动的 3D 街道，还能调天气。但正文没给任何实测数据，效果和成本都还是未知数。

锐评

Google DeepMind 让 Project Genie 吃进了 Street View 的街景数据，现在你给一张真实街道照片，它能生成一段可以走动、可以调天气的 3D 场景。听起来像把谷歌地球变成了一个可交互的沙盒，对机器人训练和游戏 demo 确实有想象空间。但这条新闻目前只能当个预告看。正文没披露模型参数、推理延迟、生成一公里街道要烧多少算力，也没给任何量化评测——比如生成场景和真实街道的几何误差有多大，物体会不会凭空出现又消失。这些信息缺口意味着我们还无法判断它离“能用”有多远。另外，街景数据本身有采集时间差，用它训练出来的世界模型能不能反映当下的路况、施工、临时障碍，正文也没提。如果只是生成一个“看起来像”的静态世界，那和游戏引擎的区别在哪，这点也需要后续技术细节才能判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:49

30d ago

● P1Hacker News 首页· rssEN17:49 · 05·19

Google 发布 Gemini 3.5 模型系列，具备前沿智能与执行能力

Google 在 I/O 大会上推出了 Gemini 3.5 系列模型，定位是“前沿智能加行动能力”。官方博客只给了一句介绍，正文没披露参数量、上下文窗口、定价和具体发布时间。Hacker News 上目前只有 19 个赞和 1 条评论，讨论热度不高。我会先打个折：这更像一个预告，实际能干什么、成本多高都还是未知数。

#Agent#Google#Gemini#Product update

精选理由

Google 官方放出 Gemini 3.5 标题，定位是“带行动能力的前沿智能”，但正文除了 URL、19 分和 1 条评论外什么都没披露。我会先打个折：重要性给 86 分、进 featured，是因为 Google 旗舰模型换代本身就是行业信号，哪怕现在信息几乎为零。H 和 R 都成立——标题自带发布悬念，而且这种级别的更新一定会影响竞争对手和下游工具链。K 不成立，因为参数、价格、上下文长度、具体怎么“行动”全都没写，没法当知识用。这点先别太激动，等后续有技术细节再重新评估。

一句话点评

谷歌发了 Gemini 3.5 Flash，输出速度号称是 GPT-5.5 的 4 倍，但价格也涨了，先别急着喊真香。

锐评

这次 Gemini 3.5 系列最大的变化不是跑分，而是谷歌把宝押在了“让模型干活”上。Flash 版本输出速度达到每秒 289 个 token，是 Claude Opus 4.7 和 GPT-5.5 高推理模式的 4 倍。速度快意味着在让模型进业务流程干活（也就是所谓的 agent workflow）时，等待时间更短，体验会流畅不少。谷歌内部用 Antigravity 工具做了个实验，12 小时启动 93 个子智能体，生成了 26 亿个 token，从零搭出一个能跑的操作系统核心，这个案例很直观地展示了模型在复杂任务里的调度能力。不过，有信源提到 Flash 的价格“显著上涨”，具体涨了多少、跟竞品比性价比如何，正文没给数字。速度快但更贵，对高频调用场景来说，成本账得重新算。另外，基准测试只说“优于 3.1 Pro”，没放具体跑分对比，实际能力提升幅度还得看后续第三方评测。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

100

SCORE

H1·K0·R1

17:48

30d ago

FEATUREDThe Verge · AI· rssEN17:48 · 05·19

Google 想用 CodeMender 跟 Anthropic 的 Claude Mythos 抢安全赛道

Google 在 I/O 上把去年 10 月亮相的代码安全工具 CodeMender 的 API 开放给一批专家测试，定位是“能自己发现漏洞并修好”的 AI agent。DeepMind CTO 说目标是帮全球代码库做安全加固。文章拿它跟 Anthropic 突然发布的 Claude Mythos Preview 对比，但正文没披露 CodeMende...

#Agent#Code#Safety#Google

精选理由

HKR 三项都踩中了，但正文只确认了封闭内测和标记修复机制，开放时间、价格、评测结果全都没披露，所以先放在 featured 这一档。

一句话点评

Google 把去年亮相的代码安全工具 CodeMender 开放给专家测 API，定位是能自己找漏洞并修好。但正文没给定价、跑分和发布时间，跟 Anthropic 的 Claude Mythos 对比也缺细节，先当个信号看。

锐评

Google 在 I/O 上把 CodeMender 的 API 推给一批专家测试，这工具去年 10 月就露过脸，现在才算真正往外放。DeepMind CTO 说目标是帮全球代码库做安全加固，听着像要跟 Anthropic 突然发布的 Claude Mythos Preview 打擂台。但文章是 RSS 片段，关键信息全缺：没写 API 怎么收费、延迟多少、在哪些漏洞类型上验证过效果，也没交代 Mythos 到底强在哪、Google 拿什么对标。我会先打个折：这更像一次 PR 节奏的跟进，而不是产品成熟到能比的信号。代码安全 agent 要真能自动修漏洞，得在真实仓库里跑出低误报、高召回，还得让开发者敢把 merge 权限交出去。目前这些数字一个都没看到。还缺的是：CodeMender 的实测 benchmark、跟 Mythos 的 head-to-head 对比、以及 Google 自己的安全团队用不用它。这些不出来，说“帮全球代码库加固”就还停在口号上。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:46

30d ago

● P1Hacker News 首页· rssEN17:46 · 05·19

谷歌发布 Gemini Omni 多模态生成模型

Google DeepMind 放出了一个叫 Gemini Omni 的模型页面，副标题是“从任何东西创造任何东西”，听起来很全能。但正文里除了导航栏和品牌介绍，没有任何关于能力、参数、价格或发布日期的信息。Hacker News 上目前有 51 个点赞和 12 条评论，大家基本也是在等更多消息。目前能确定的只有这个页面存在，其他全是未知数。

#Google DeepMind#Gemini#Product update

精选理由

H 和 R 勉强过关：一个新名字足够让人点进去，也跟行业竞争相关。K 不通过：没有能力、定价、时间或可复现的细节，所以这条归入 all 层级。

一句话点评

谷歌发了Gemini Omni，一个能处理文字、图片、音频、视频并直接生成视频的多模态模型，但正文没给任何技术细节和实测数据，先当个预告看。

锐评

谷歌在I/O大会上把Gemini Omni定位成“全能模型”，主打从任意输入生成任意输出，现场演示了用一句话修改视频里的角色和背景。这个能力听起来很直接，但文章完全没提生成视频的分辨率、时长、延迟这些关键指标，也没说模型规模有多大、推理成本高不高。目前放出的第一个版本叫Gemini Omni Flash，已经在Gemini App和YouTube Shorts里能用，但API还没开，外部开发者没法自己测。哈萨比斯说这是Gemini家族最全面的版本，可“全面”到底体现在哪，文章只给了概念，没给对比。想判断它是不是真比现有视频生成方案强，得等第三方跑分和实际体验出来再说。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

100

SCORE

H1·K0·R1

17:45

30d ago

● P1TechCrunch AI· rssEN17:45 · 05·19

Google 在 I/O 2026 发布 Gemini Spark 个人 AI 代理助手

Google 在 I/O 大会上掏出了 Gemini Spark，一个基于 Gemini 模型和 Antigravity 智能体框架（让模型进业务流程干活）搭起来的个人助手，主打 24 小时在线。它最大的卖点是直接连你的 Gmail，能读邮件、替你处理任务。不过文章没细说它能具体操作 Gmail 里的哪些事，也没提价格和什么时候能用上。这点先别太激动，...

#Agent#Tools#Google#Gemini

精选理由

Google 在 I/O 上扔了个新东西：Gemini Spark，一个号称全天候在线、能直接进你 Gmail 干活的助手。我会先打个折——正文没写定价、没写具体开放范围，也没提安全护栏做到什么程度，所以别急着把它当成已经落地的产品。但信息量是够的：它基于 Gemini 模型，跑在 Antigravity 智能体框架上，等于把模型塞进业务流程里当常驻工人，而不是一问一答的工具。标题里“24/7”和“Gmail 接入”这两个点，直接拉高了从业者对隐私和权限控制的疑问，也让它和 OpenAI 的助手路线形成对标。整体看，产品更新本身够硬，但缺落地细节，...

一句话点评

Google 把 Gmail 变成 AI 助手的训练场，这招比做模型更狠——它直接拿到了你最全的个人上下文。

锐评

Google 在 I/O 2026 发布的 Gemini Spark，本质上是一个能全天候自主干活的个人 AI 助手，底层用了 Gemini 模型和 Antigravity 的代理框架。它最核心的卖点不是模型多强，而是直接接入了 Gmail。这意味着它能读你的邮件、日历，用你已有的个人数据来安排日程或处理杂事，不需要你从头教它。 TechCrunch 的报道点出了 Google 的隐蔽优势：别人还在拼模型跑分，Google 手里已经有几十亿用户的邮件数据。但文章没给出 Spark 具体能自主执行哪些任务、错误率多少、隐私边界怎么划。这些才是决定它到底是“高级邮件过滤器”还是真正能替你干活的代理的关键。目前信息都来自发布会演示，没有第三方实测。我会先打个折：接入 Gmail 是强场景，但“全天候自主”听着像愿景，实际能稳定跑通多少业务流程，还得等上线后看翻车率。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

17:45

30d ago

FEATUREDAI HOT 精选· aihot-apiZH17:45 · 05·19

Google I/O 2026：Gemini 开始自己动手干活了

Sundar Pichai 在 I/O 大会上宣布 Gemini 进入“自主代理”阶段，能自动处理邮件、安排日历和生成报告。但整篇博客没提模型参数、具体上线时间，也没说收费方式。我会先打个折——这更像一个产品方向预告，离真正稳定可用还有距离。

#Agent#Tools#Google#Gemini

精选理由

这条消息我会先打个折：Google 画了个自主代理的饼，能自动处理邮件、日历和报告，听着挺省人力，但正文没披露模型参数、上线时间或价格，所以别太激动。对从业者来说，办公 agent 的落地节奏和成本才是关键，现在只能当方向信号看。

一句话点评

Google 宣布 Gemini 进入“自主代理”阶段，能自动处理邮件和日历，但博客没提模型参数、上线时间和收费方式，更像一个产品方向预告。

锐评

Sundar Pichai 在 I/O 2026 上把 Gemini 的下一步押在“自主代理”上，说它能自动处理邮件、安排日历和生成报告。听起来挺省事，但整篇博客没给出任何硬指标——模型参数、具体上线时间、收费方式都没提。这更像一个产品方向预告，离真正稳定可用还有距离。我会先打个折。让模型自动操作你的邮箱和日历，权限和可靠性是绕不开的坎，博客里没交代怎么解决误操作或安全问题。另外，演示场景和真实工作流的复杂度差很远，没有第三方测试或用户数据支撑，很难判断实际成功率。还缺的东西不少：一是技术细节，比如用了什么模型、延迟和准确率怎么样；二是落地节奏，什么时候推、哪些地区先用、免费还是付费；三是安全边界，代理能做什么、不能做什么，出错了谁负责。这些信息没补上之前，先当概念发布看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:45

30d ago

FEATUREDAI HOT 精选· aihot-apiZH17:45 · 05·19

Google I/O 2026 发布 AI Ultra 订阅服务及功能更新

Google 在 I/O 2026 大会上更新了 AI 订阅体系，新增一档每月 100 美元的 AI Ultra 计划。官方博客没有详细列出 Ultra 包含哪些独占能力，只说它面向重度 AI 用户。已有的 AI Plus 和 Pro 订阅也获得新功能和权益，但正文同样没展开具体是什么。我会先打个折：这篇公告更像一个预告，关键的产品细节和与现有 Goo...

#Google#Product update

精选理由

Google 在 I/O 2026 把 AI 订阅拉到了 100 美元一档，叫 AI Ultra。我会先打个折：正文没披露 Ultra 具体比 Pro 多了什么能力，也没说模型规格、上下文窗口或调用次数上限，所以这个价格到底值不值还不好判断。对从业者来说，新分层意味着以后选 Google AI 服务要多算一笔账，尤其是小团队或创业公司，100 美元月费可能直接劝退。这点先别太激动，等具体权益出来再看。

一句话点评

Google 在 I/O 大会上宣布了每月 100 美元的 AI Ultra 订阅，但正文没具体说这 100 美元能买到什么独占功能，更像一个预告。

锐评

这篇公告最大的问题是信息量太少。Google 在 I/O 2026 上把 AI 订阅体系拉到了每月 100 美元的新档位，叫 AI Ultra，面向重度用户。但官方博客只提了名字和价格，没列出 Ultra 到底比现有的 Plus 和 Pro 多了哪些能力。已有的 Plus 和 Pro 订阅也获得了新功能和权益，同样没展开。我会先打个折：这更像一个预告，而不是产品发布。100 美元一个月的定价在消费级 AI 订阅里算很高了，但值不值，完全取决于它给的是什么——是更高的调用次数上限、更快的响应速度，还是独占的模型能力？正文没披露这些，就没法判断。还缺的关键信息包括：Ultra 计划的具体权益清单、与 Pro 的差异对比、以及上线时间。如果只是把现有功能打包提价，那这个定价就虚高了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:45

30d ago

FEATUREDThe Verge · AI· rssEN17:45 · 05·19

Google I/O 推出 AI 购物通用购物车，让 Gemini 帮你跨店下单

Google 在 I/O 大会上发布了一个“通用购物车”，用户在搜索或跟 Gemini 聊天时就能把不同零售商的商品加进去，最后通过 Google 统一结账。这个购物车还会追踪价格、提示补货、推荐折扣，并提醒你选的商品可能有什么问题。未来会接入 YouTube 和 Gmail，但正文没披露定价、具体上线时间和首批覆盖哪些零售商。

#Agent#Tools#Google#Gemini

精选理由

Google 在 I/O 上放了个挺大胆的购物功能：你在 Search 或 Gemini 里看到想买的东西，AI 直接帮你加进购物车，最后通过 Google 结账。正文说未来还会接入 YouTube 和 Gmail，等于把购物触点铺到更多地方。我会先打个折——目前只说了发布，没给上线时间、覆盖商家和退款纠纷怎么处理，这些才是决定它能不能用的关键。但方向很明确，Google 想把 AI 从“帮你搜”推到“帮你花”，信任门槛比普通搜索高得多。

一句话点评

Google 想让你把钱包交给 AI，在聊天和搜索时直接跨店加购、统一结账。但正文没披露首批覆盖哪些零售商、抽成比例和上线时间，先别急着把信用卡绑上去。

锐评

Google 在 I/O 上推的这个“通用购物车”，核心是把购物决策塞进搜索和 Gemini 对话里。你搜东西或跟模型聊天时，能把不同零售商的商品加进同一个购物车，最后在 Google 这边统一付钱。它还会帮你盯价格、提醒补货、推荐折扣，甚至提示你选的商品可能有什么坑。未来计划接入 YouTube 和 Gmail，想象空间是有的。但这条新闻来自 The Verge 的 RSS 片段，关键信息全是缺口。正文没写这个购物车首批接入了哪些零售商，也没提 Google 对交易抽多少成。上线时间、覆盖地区同样没披露。没有这些，就没法判断它到底是真能跨店比价下单，还是只把几个合作方的商品聚合到一个界面里。对从业者来说，这更像一个信号：Google 在把 agent 往消费场景里塞，让模型直接参与花钱的动作。但落地效果要看商家覆盖度和结算体验，这两点现在都还是空白。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:45

30d ago

FEATUREDTechCrunch AI· rssEN17:45 · 05·19

Google 在 I/O 2026 发布 Antigravity 2.0，更新了桌面应用和命令行工具

Google 在 I/O 大会上推出了编程助手 Antigravity 的 2.0 版本，主要更新了桌面应用、命令行工具和一个用来搭自定义流程的 SDK。同时，他们新加了一个每月 100 美元的 AI Ultra 套餐，使用额度是 AI Pro 套餐的 5 倍。不过，这篇报道没具体说桌面应用和命令行工具到底更新了哪些功能，也没提 SDK 能接入哪些外部系统。

#Agent#Code#Tools#Google

精选理由

HKR 三项都踩中了，但正文没写桌面应用和 CLI 具体能干什么，功能细节是空的，所以分数压一压，不上 78。Google I/O 的发布节点加上 100 美元套餐和 5 倍额度，够上 featured。

一句话点评

Google 把编程助手 Antigravity 升到 2.0，加了桌面版和命令行工具，还推了个每月 100 美元的 AI Ultra 套餐，额度是 Pro 的 5 倍。但报道没写桌面版和命令行具体更新了什么，这点先别太激动。

锐评

Antigravity 2.0 这次更新，核心是让开发者能在桌面端和命令行里直接用这个编程助手，还加了个 SDK 用来搭自定义流程，相当于让模型进到更具体的开发工作流里干活。同时新出的 AI Ultra 套餐每月 100 美元，额度是 AI Pro 的 5 倍，瞄准的是重度用户。但整篇报道的信息缺口很明显：桌面应用和命令行工具到底更新了哪些功能，正文没披露；SDK 能接入哪些外部系统、支持什么协议，也没提。没有这些细节，很难判断 2.0 比上一代到底强在哪，还是只是换了个版本号。另外，100 美元的定价在编程助手市场里不算低，但报道没给出 Pro 套餐的具体额度数字，所以“5 倍”这个说法没法换算成实际能用多少次调用、处理多少行代码。想评估性价比，还得等 Google 公布更细的用量上限。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:45

30d ago

FEATUREDTechCrunch AI· rssEN17:45 · 05·19

Google Workspace 推出语音指令功能，支持 Docs、Keep 和邮件搜索

Google 在 I/O 大会上给 Workspace 加了个语音指令功能，你对着 Docs 说话就能生成草稿，比如从 Drive 调简历、从邮件里拉活动信息，还能加段搞笑段子。Keep 和 Gmail 也支持语音记笔记和搜邮件。Google 说语音可以一次说长句子、同时干好几件事，中途改主意也能当场改。CEO 还画了个饼：以后能用语音全程创建和编辑文...

#Audio#Tools#Google#Product update

精选理由

这是 Google Workspace 一次中小型功能更新。HKR-K 靠 Docs 草稿、Keep 笔记和邮件搜索三个语音动作通过，但上线范围和价格都没披露，HKR-H 和 HKR-R 都偏弱。

一句话点评

Google 给 Docs 和 Keep 加了语音写稿功能，能一句话调 Drive 简历、抓邮件信息，但实际识别准确率和打断纠错能力还没谱。

锐评

Google 在 I/O 大会上给 Workspace 套件加了语音指令，覆盖 Docs、Keep 和 Gmail 里的邮件搜索。核心卖点不是简单的语音转文字，而是你可以用长句子一次性下达多个任务：比如让 Docs 从 Drive 里调出你的简历，再从某封邮件里抓取活动信息，最后还要求加几句幽默段子。这比过去打字、分步骤来回修改要省事，尤其适合需要快速搭出初稿的场景。不过，目前公开的只有演示视频，没有第三方实测数据。语音识别在安静环境下表现好，但到了有背景噪音、口音重或者中英夹杂的真实办公场景，准确率会打多少折扣，正文没提。另外，这种“一句话包含多个指令”的交互，对模型理解上下文和意图切换的要求很高，一旦中间某个指令出错，用户是重说整句还是局部修改，体验差别会很大，这点也没看到具体方案。整体看，方向是让 AI 从“打字聊天”变成“说话干活”，但离真正可靠的日常使用，还缺一份脱离演示环境的实测报告。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

17:45

30d ago

FEATUREDTechCrunch AI· rssEN17:45 · 05·19

Google 发布 Android CLI 1.0，让 Claude Code、OpenAI Codex 这类 AI 编程工具也能直接命令行开发安卓应用

Google 在 I/O 大会上把 Android CLI 推到了 1.0 稳定版。这东西是个命令行工具，主要作用是让各种 AI 编程助手（比如 Claude Code、OpenAI Codex，或者 Google 自家的 Antigravity）能直接通过命令行来构建安卓应用，不用非得打开 Android Studio 的图形界面。它内置了一个“an...

#Agent#Code#Tools#Google

精选理由

我会先打个折：正文没给版本号、发布时间，也没性能数据，所以只能当个信号看。但 Google 加 Android 加 agentic coding 这个组合，本身就够上 featured 线。它不是在秀技术指标，而是在开一扇门——让 agent 从命令行直接插手 Android 构建，这对移动端开发者的工作方式冲击不小。

一句话点评

Google 把安卓开发工具搬进了命令行，让 Claude Code 这类 AI 编程助手能直接帮你搭 App，不用再开 Android Studio。但正文没提稳定版具体修了哪些坑，也没给性能对比。

锐评

Google 在 I/O 大会上把 Android CLI 推到了 1.0 稳定版，核心就一件事：让 AI 编程助手（比如 Claude Code、OpenAI Codex 或 Google 自家的 Antigravity）能通过命令行直接构建安卓应用，不用非得打开 Android Studio 的图形界面。这相当于给“让模型进业务流程干活”的 agent 工作流扫掉了一个环境障碍——以前 AI 要操作安卓工程，得在 IDE 里绕来绕去，现在可以直接在终端里下指令。不过，这篇报道的信息量其实挺薄。它只说了工具已发布、支持哪些平台，但没给出任何实测数据：用 CLI 比用 IDE 到底快多少？构建成功率有没有变化？对复杂项目（比如多模块、依赖 Kotlin 符号处理的工程）兼容性如何？这些全都没提。另外，1.0 稳定版意味着之前有预览版，但正文没交代预览阶段踩过哪些坑、这次修了什么，所以“稳定”二字暂时只能按字面理解。对 AI 从业者来说，这条消息的价值在于确认了一个趋势：大厂开始主动把开发工具链改造成 AI 友好的形态，而不是让 AI 去适应老工具。但要不要立刻切到 CLI 工作流，还得等社区跑出更多真实项目的反馈，尤其是非玩具级应用的构建稳定性和错误恢复能力。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:45

30d ago

FEATUREDThe Verge · AI· rssEN17:45 · 05·19

Gmail 要能语音对话了：对着收件箱直接问，它帮你翻邮件找答案

Google 给 Gmail 加了一个叫 Gmail Live 的语音功能，点搜索栏图标就能直接开口问收件箱里的内容。发布会上员工现场演示，问了孩子学校的活动和自己去底特律的行程，Gmail 直接从邮件里抓出了学校展示活动的日期地点和行程信息。正文没披露这个功能什么时候上线、支持哪些语言，也没说离线能不能用。

#Agent#Audio#Tools#Google

精选理由

我会先打个折：正文只给了两个演示例子，没写什么时候上线、要不要付费、背后用的什么模型。所以判断停在 featured 低段。但这件事本身挺直观——Gmail 搜索栏加了个语音入口，你对着它问“底特律的酒店订单”或者“孩子学校活动日期”，它直接回话，不用翻邮件。对每天被邮件淹没的人来说，省事是真的。这点先别太激动，等正式推送再看实际识别率和隐私处理。

一句话点评

Gmail 能直接开口问收件箱了，现场演示从邮件里抓行程和学校活动挺顺，但上线时间、语言和离线能力都没说。

锐评

Google 给 Gmail 加了个语音入口，点搜索栏图标就能用嘴翻邮件，本质是把 Gemini Live 塞进了收件箱。发布会上员工问了自己孩子的学校活动和底特律行程，系统直接从邮件里捞出展示活动的日期地点和行程信息，交互看起来是对话式的，不是传统关键词搜索。这条新闻的价值在于它把 AI 语音助手从“聊大天”拉回了具体的数据场景——你自己的邮件。但正文没披露任何落地细节：什么时候能用、支持哪些语言、离线行不行、隐私怎么处理，全都没提。我会先打个折，因为现场演示用的是员工自己的收件箱，数据熟悉度和权限都是最优情况，换成一个杂乱收件箱的普通用户，准确率会怎样还不好说。还缺两样东西：一是多轮追问的容错表现，比如问错了能不能纠正；二是对附件、图片里信息的理解能力，正文只提了文字邮件。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:42

30d ago

FEATUREDAI HOT 精选· aihot-apiZH17:42 · 05·19

Google AI Ultra 套餐降价，新增 100 美元档位

Google 把顶配 AI Ultra 套餐从每月 250 美元降到 200 美元，同时加了一个每月 100 美元的新档位。新档位把 Gemini 应用的使用上限提到 Pro 套餐的 5 倍，主要面向编程和创作场景，还附带新功能抢先体验、20TB 存储和 YouTube Premium。正文没说明 5 倍限额具体对应多少调用次数，也没提新功能抢先体验的...

#Code#Tools#Google#Gemini

精选理由

这是订阅价格和配额打包调整，不是模型或能力发布，但官方来源、价格数字都实在，对用 Google 生态干活的人有直接影响。降价幅度和新增档位让信息够硬，放在 featured 没问题。

一句话点评

Google 把顶配 AI 套餐从 250 降到 200 美元，还加了个 100 美元档位，但正文没写清楚 5 倍限额到底是多少次调用，这点先别太激动。

锐评

Google 这次调价动作挺直接：顶配 AI Ultra 套餐从每月 250 美元砍到 200 美元，同时塞进来一个 100 美元的新档位。新档位主打“Pro 套餐 5 倍的 Gemini 应用使用上限”，瞄准编程和创作场景，还打包了 20TB 存储、YouTube Premium 和新功能抢先体验。但这条消息最大的信息缺口就是“5 倍”到底对应多少调用次数。没这个数字，很难判断 100 美元是划算还是噱头。另外“新功能抢先体验”也没展开，不知道是提前几天用还是能碰还没公开的模型。我会先打个折：降价是实打实的，但新档位的性价比得等官方把限额量化了再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:37

30d ago

FEATUREDr/LocalLLaMA· rssEN17:37 · 05·19

KV 缓存量化实测：TurboQuant 被高估，q5 值得多看两眼，对称 q8 可能白占显存

Anbeeld 用一张 RTX 3090 跑 Qwen 3.6 27B，在 64k 和 128k 上下文长度下测了 KV 缓存量化。先说结论：q4_0 在尾部 token 上的 KLD 比 q5_0 差了 32%，精度掉得明显；turbo4 比普通 q4_0 还慢 17%，显存却没省下多少，有点名不副实。q5_0 在精度和压缩率之间平衡得不错，但正文没...

#Inference-opt#Benchmarking#Anbeeld#Qwen

精选理由

我会先打个折：这篇测试只跑了一张 RTX 3090 和一个模型，结论不能直接套到其他卡或模型上。但它的好处是给了具体数字，比如 q4_0 在长上下文时尾部偏差比 q5_0 高 32%，turbo4 反而比 q4_0 慢 17%，对称 q8 可能白占显存。这些发现对玩本地推理的人有参考价值，不是泛泛而谈的评测。正文没披露更多硬件或复现细节，所以先别太激动，但作为社区一手数据，值得推给关注推理优化的人看一眼。

一句话点评

q4_0 在长上下文尾部精度掉得厉害，turbo4 比普通 q4 还慢 17%，省显存效果也一般，别被名字唬了。

锐评

Anbeeld 用一张 RTX 3090 跑 Qwen 3.6 27B，在 64k 和 128k 上下文下测了 KV 缓存量化，结论挺直接：q4_0 在尾部 token 上的 KLD 比 q5_0 差了 32%，精度掉得明显，长文本场景下不太靠得住。turbo4 更尴尬，比普通 q4_0 还慢 17%，显存却没省下多少，名字里的“turbo”有点名不副实。q5_0 在精度和压缩率之间平衡得不错，但正文没给出具体的显存占用对比，这点比较可惜。另外对称 q8 被作者认为可能是在浪费显存，不过也没展开说具体浪费了多少、在什么场景下不值得。整体来看，这个测试只在一张卡、一个模型上跑，结论能不能推广到其他模型和框架还不好说，我会先打个折。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:35

30d ago

● P1AI HOT 精选· aihot-apiZH17:35 · 05·19

谷歌发布 Antigravity 2.0，用 93 个并行子智能体 12 小时搭出一个操作系统

谷歌在 I/O 大会上放出了 Antigravity 2.0 平台，已经对全球用户开放。现场演示里，他们让智能体从零构建了一个能跑起来的操作系统，只用了 12 小时。具体做法是同时跑 93 个子智能体，总共调了超过 1.5 万次模型、处理了 26 亿个 token，最后算下来 API 成本不到 1000 美元。平台本身集成了新的智能体系统和自然语音交互...

#Agent#Audio#Inference-opt#Google

精选理由

谷歌在 I/O 上放了个 Antigravity 2.0 的演示，让智能体用 12 小时、93 个并行子智能体、1.5 万次模型调用和 26 亿 token 搭出一个能跑的操作系统，API 成本不到 1000 美元。我会先打个折：这是发布会演示，不是可复现的公开测试，正文没披露可用性、定价和复现条件，所以别直接当成采购依据。但数字本身挺实在，12 小时和不到 1000 美元这两个数，对想用智能体做复杂工程的人是个参考锚点。标题够抓人，信息量也足，从业者会想点进去看细节，整体值得推。

一句话点评

12小时、93个智能体、不到1000美元拼出一个操作系统，数字很炸，但演示不等于产品化，先打七折看。

锐评

谷歌在 I/O 上拿 Antigravity 2.0 做了一场压力测试：让 93 个子智能体同时干活，12 小时内从零搭出一个能跑的操作系统。总共调了 1.5 万次模型，吞了 26 亿个 token，API 账单不到 1000 美元。这个成本确实低，相当于雇一个工程师干两周的活只花了几百块电费。不过正文没披露这个操作系统到底能干什么、代码质量怎么样、有没有人工中途接手。演示场景和真实开发之间差着无数个 corner case，12 小时跑通一个 demo 和做出能维护的系统是两码事。另外，93 个智能体并行调度本身就有工程复杂度，正文也没说失败率、重试次数和 token 浪费比例。我会把这条当成谷歌在秀多智能体协同的调度能力和 Gemini 3.5 Flash 的推理速度（号称快了 12 倍），但离“AI 自己写操作系统”还远。想看的是这套东西在真实业务里跑一次，而不是在舞台上跑一次。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:30

30d ago

FEATUREDr/LocalLLaMA· rssEN17:30 · 05·19

开源项目 Codegraph 声称能把 Claude、Cursor 等编程助手的工具调用次数砍掉 94%

Codegraph 的做法是提前给代码建好一张知识图谱，把符号关系、调用链和代码结构都索引好。在 VS Code 的测试里，工具调用从 52 次降到了 3 次，运行时间从 1 分 37 秒缩短到 17 秒。不过正文没披露具体测试的代码规模和任务复杂度，这个 94% 的降幅能不能在别的项目里复现还不好说。

#Agent#Code#Tools#Codegraph

精选理由

HKR 三条都过了，但证据目前只有 Reddit 帖子和公开仓库的自测结果，没有独立复现或第三方验证。94% 的降幅和 52→3 的调用次数足够上 featured，但还不到 p1 的确定性。我会先打个折：数字好看，但别太激动，等有人复现再说。

一句话点评

工具调用从52次降到3次，跑完只要17秒，但没交代代码规模和任务难度，这个94%的降幅先别太激动。

锐评

Codegraph 的思路是把代码库提前建成一张知识图谱，把函数调用关系、符号位置这些结构信息都索引好，模型干活时不用反复翻文件、猜路径，直接查图就行。在 VS Code 的测试里，工具调用从 52 次压到 3 次，运行时间从 1 分 37 秒缩到 17 秒，省掉的调用次数确实可观，对按 token 或调用次数收费的 API 来说，成本能打下来不少。不过正文没披露测试用的代码规模有多大、任务到底多复杂，也没说对比的基线模型版本和配置。94% 这个数字是在特定场景下跑出来的，换到大型项目或跨文件重构任务上能不能复现，现在没法判断。另外，建知识图谱本身要花多少时间、占多少存储，这些开销也没提。还缺的是多语言支持情况、图谱更新策略，以及跟其他代码索引方案（比如基于 AST 或向量检索的）的横向对比。如果后续能补上这些，才能看清它到底是通用省钱方案，还是只在特定条件下好用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:22

30d ago

FEATUREDAI HOT 精选· aihot-apiZH17:22 · 05·19

谷歌发布 Gemini Omni Flash 多模态模型

谷歌在 I/O 上发布了 Gemini Omni Flash，现在 Gemini 和 Google Flow 里就能用。Pro 版只说了“即将推出”，没给参数、价格和具体上线时间，想等 Pro 的还得再观望。

#Multimodal#Google#Gemini#Google Flow

精选理由

谷歌发了 Gemini Omni Flash，已经在 Gemini 和 Google Flow 里能用了，Pro 版也放了个预告。但正文没写模型参数、价格和 Pro 版到底哪天上线，信息缺口挺大。我会先打个折，把它放在普通产品更新那一档，因为 Flash 上线是实锤，Pro 预告也算新消息，但缺关键细节，没法给更高分。

一句话点评

谷歌发了新多模态模型，但正文是空的，只能从标题判断是 Flash 系列更新，具体能力、价格、实测数据全没给。

锐评

这条消息目前只有标题，正文没提供任何细节，所以能说的很有限。从标题看，谷歌在 I/O 大会上推出了 Gemini Omni Flash，同时提到 Pro 版也快来了。Flash 系列一贯的定位是轻量、快、便宜，适合需要低延迟和高并发的场景，比如实时对话、视频流分析这类多模态任务。但关键信息全缺：模型参数量、支持哪些模态输入输出、延迟和成本对比前代降了多少、基准测试成绩，这些正文都没披露。Pro 版的时间线和规格也是空白。如果你在选模型做产品集成，这条新闻目前只能当个预告看，没法做技术评估。建议等官方技术报告或第三方实测出来再下判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:14

30d ago

FEATUREDAI HOT 精选· aihot-apiZH17:14 · 05·19

谷歌 I/O 大会公布数据：每月处理 Token 量超 3200 万亿，一年翻了 7 倍

谷歌 CEO 皮查伊在 2026 年 I/O 大会上甩出了一组数据：今年 5 月，谷歌平台每月处理的 Token 量超过 3200 万亿，比去年同期涨了 7 倍。这个数字说明谷歌 AI 服务的调用规模在急剧膨胀。同时，Gemini App 的月活用户超过了 9 亿，同比翻了一番多，每日请求量也涨了 7 倍多。另外，Nano Banana 这个模型已经累...

#Multimodal#Vision#Google#Gemini

精选理由

谷歌 I/O 这次放的是用量规模，不是新模型或重大能力发布。7 倍增长、9 亿月活和 3200 万亿 Token/月让 HKR 三项都过关，但因为没有产品级大更新，分数就落在 78–84 这个区间。我会先打个折：这些是平台方自己报的数字，外部没法独立验证，不过作为规模参考仍然有分量。

一句话点评

谷歌AI调用量一年涨7倍，月处理超3200万亿Token，但没拆开哪些是搜索、哪些是API，数字水分不好判断。

锐评

皮查伊在I/O大会上甩出的这组数字，主要想证明谷歌AI服务用的人确实变多了。月处理Token量超过3200万亿，同比涨了7倍；Gemini App月活超9亿，翻了一倍多。Nano Banana模型累计生成了500亿张图片，说明多模态生成的需求不小。不过，这些数字都来自谷歌自己的发布会，没有第三方验证。Token量涨7倍，但没说明有多少来自免费产品、多少来自付费API调用。如果大量Token是搜索或YouTube里的AI摘要产生的，那商业转化率可能没那么好看。Gemini App的9亿月活，也没说跟安卓预装或默认入口的捆绑程度。还缺几个关键信息：付费客户数、API收入增速、以及这些Token背后的推理成本变化。如果成本没同步降下来，量越大反而越烧钱。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:50

30d ago

FEATUREDr/LocalLLaMA· rssEN16:50 · 05·19

6GB 显卡跑本地会议纪要的下限测试：Qwen3.5 0.8B 用 57 秒出结果，Granite 4 350M 快但会瞎编

一位用户在 RTX 3060 笔记本（6GB 显存）上拿 VoiceFlow 1.6.0 测了两款小模型，看谁能在本地把一段 4 分钟的会议转成纪要。Qwen3.5 0.8B 在 16K 上下文窗口下花了 57 秒完成总结，结果可用。Granite 4 350M 速度很快，0.6 到 2.8 秒就出稿，但会凭空捏造内容，比如编出币安和《星际迷航》的情节...

#Audio#Inference-opt#Tools#Qwen

精选理由

一个 Reddit 用户拿笔记本 3060 6GB 跑 VoiceFlow 1.6.0 做会议总结，Qwen3.5 0.8B 用 57 秒处理 4 分钟录音，Granite 4 350M 虽然快到 0.6-2.8 秒但会凭空编造内容。我会先打个折，这是单人单卡的一次性测试，不是系统评测，但 6GB 这个门槛和幻觉案例对想本地跑会议总结的人有直接参考价值，所以给 73 分 featured。

一句话点评

6GB 显存跑会议纪要，Qwen3.5 0.8B 57 秒出结果能用，Granite 4 350M 快到离谱但会编造币安和星际迷航情节。

锐评

这条测试很实在，直接给出了本地跑会议纪要的底线配置。一台 RTX 3060 笔记本，6GB 显存，用 VoiceFlow 1.6.0 处理 4 分钟会议音频，Qwen3.5 0.8B 在 16K 上下文窗口下花了 57 秒完成总结，结果可用。这个速度意味着你开完会去接杯水，回来纪要已经好了，对个人用户来说完全能接受。 Granite 4 350M 的表现就有点黑色幽默了。速度快得惊人，0.6 到 2.8 秒就出稿，但会凭空捏造内容，比如编出币安和《星际迷航》的情节。这提醒我们，小模型在极端压缩后，幻觉问题可能比大模型更隐蔽也更危险——它说得太快太流畅，你反而容易信。正文没披露测试用的具体 prompt、温度参数，也没说 Qwen 的总结质量到底怎么评判的，只说“可用”。另外，VoiceFlow 本身的转写准确率也没提，如果语音识别那步就错了，后面总结再快也没意义。这点先别太激动，等有人复现了再看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:07

30d ago

FEATUREDr/LocalLLaMA· rssEN16:07 · 05·19

Cursor 和 Claude Code 没变笨，是它们的 agent 循环在盲目翻文件，把上下文窗口撑爆了

有 Reddit 用户扒了 API 日志，发现 Cursor 和 Claude Code 的 agent 干活时，会在上万行的代码库里反复用 grep 搜大约 40 个文件，有时为了改 5 行代码就把整个 2000 行的文件塞进上下文。更夸张的是，在真正开始写代码前，光工具定义和操作日志就先吃掉大约 3 万个 token。帖子认为工具本身没降智，是这种...

#Agent#Code#Tools#Cursor

精选理由

这篇 Reddit 帖子没走“模型降智”的老路，而是从 API 日志里挖出一个更扎心的解释：agent 在工作时自己把上下文窗口塞满了。我会先打个折——这只是单帖爆料，没附原始日志，也没第三方复现，所以不能当定论。但它的价值在于把模糊的“变慢变蠢”翻译成了可排查的结构性问题：仓库一大，递归检索就失控，工具描述和日志占掉大量 token，留给真正写代码的空间反而不多。对正在用这类工具的从业者来说，这比猜模型更新管用，因为它指向了可以动手优化的地方，比如裁剪工具定义、限制检索深度。正文没披露具体复现步骤，这点先别太激动，但作为一线信号已经够格上 fea...

一句话点评

Cursor 和 Claude Code 没变笨，是 agent 干活方式太浪费上下文——改 5 行代码先吃掉 3 万 token 的工具定义和日志，这账算不过来。

锐评

这条帖子扒了 API 日志，发现 Cursor 和 Claude Code 的 agent 在代码库里干活时，会反复用 grep 搜大约 40 个文件，有时候为了改 5 行代码，就把整个 2000 行的文件塞进上下文窗口。更夸张的是，在真正开始写代码之前，光工具定义和操作日志就先吃掉大约 3 万个 token。帖子认为工具本身没降智，是这种 agent 循环结构性地在浪费上下文，导致模型能用来思考的空间被挤占。这个判断有数据支撑，但要注意来源是 Reddit 用户自己扒的日志，不是官方披露，样本量和测试环境都不清楚。帖子正文被 Reddit 的网络安全机制挡住了，我们只能看到摘要，没法核实具体是怎么抓的日志、测了哪些项目、对比了什么基线。对从业者来说，这条信息值得留意的地方在于：如果你觉得 coding agent 越用越笨，问题可能不在模型本身，而在 agent 的调度逻辑。改小功能前，先看看它是不是在无脑塞文件。但这点先别太激动，我们缺的是官方工具链的 token 消耗基准和不同 agent 策略的横向对比，光靠一条被屏蔽的帖子还下不了定论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:02

30d ago

FEATUREDAI HOT 精选· aihot-apiZH16:02 · 05·19

NVIDIA 开源 LongLive 2.0，用 4-bit 量化把长视频生成跑进实时

NVIDIA 把 LongLive 2.0 整套训练和推理代码都放出来了，主打 FP4 量化加并行加速，在 50 亿参数的模型上能跑到每秒 45.7 帧，比很多短视频方案还快。它支持真实视频训练、蒸馏、多镜头生成、序列并行、KV 缓存优化和异步解码部署，专门解决以前长视频生成要么慢到没法用、要么只能做几秒片段的毛病。正文没披露具体显存占用和最长能生成多...

#Multimodal#Vision#Inference-opt#NVIDIA

精选理由

NVIDIA 研究员把 LongLive 2.0 完整开源了，不是只放个模型权重，而是给了训练加推理的全套工具。核心是把视频生成模型压到 4-bit 精度，在 50 亿参数规模下能跑到每秒 45.7 帧，这个速度意味着单卡就能玩长视频生成，不用堆机器。我会先打个折：论文里没看到跟 8-bit 或全精度方案的画质对比，所以省显存是实锤，画质掉多少还不清楚。但作为第一个把 4-bit 量化铺到长视频训练推理全流程的开源项目，对想低成本跑视频生成的人来说，值得立刻翻代码。

一句话点评

NVIDIA把长视频生成的训练推理代码全开源了，用4-bit量化在50亿参数模型上跑到每秒45.7帧，比很多短视频方案还快。但正文没写最长能生成几分钟、显存吃多少，这点先别太激动。

锐评

NVIDIA这次放出的LongLive 2.0，是把长视频生成的整套流水线都开源了，从训练到部署全包。核心卖点是FP4量化——你可以理解成把模型压缩到原来四分之一精度，再配合并行加速，在50亿参数的模型上能跑到每秒45.7帧。这个速度什么概念？很多短视频生成方案也就二三十帧，它直接翻倍，而且是在长视频场景下跑的。框架里塞了不少实用组件：支持用真实视频训练而不是纯合成数据、能做多镜头切换、序列并行让多卡跑长序列不卡脖子、KV缓存优化省显存、异步解码让推理和输出流水线化。这些组合拳打下来，确实在解决长视频生成"慢到没法用"的老毛病。但正文有几个关键信息没交代：最长能生成多少分钟的视频？显存占用到底多少？45.7帧是在什么分辨率下测的？这些数字不补上，"超长视频"的"超长"就还是个模糊概念。另外FP4量化虽然省资源，画质损失有多大也没提，这对实际落地是硬指标。整体看是个扎实的工程开源，但别急着对标商用产品，先看社区跑出来的实测效果再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:33

30d ago

● P1AI HOT 精选· aihot-apiZH15:33 · 05·19

Karpathy 去了 Anthropic，没提具体做什么

Andrej Karpathy 发推说自己加入了 Anthropic。他之前管过特斯拉 Autopilot 的 AI，也是 OpenAI 的联合创始人。正文没披露他在 Anthropic 的具体职位、负责哪个方向，也没说带不带团队。光看这条消息，只能确认人才往 AI 安全那边又挪了一步，但实际影响有多大，现在判断还太早。

#Alignment#Safety#Andrej Karpathy#Anthropic

精选理由

我会先打个折：正文没披露他在 Anthropic 的具体职位和负责方向，所以重要性停在人事震动层面，还没到战略级。卡帕西的履历摆在那，加入 Anthropic 确实让安全对齐这条线更有看头，但缺了角色细节，先别太激动。

一句话点评

Karpathy 去了 Anthropic，但正文没写他具体干啥、带不带团队，光看这条推只能确认人才往安全方向又挪了一步，实际影响先别急着下结论。

锐评

Karpathy 加入 Anthropic 这条消息，目前能确认的只有他本人发推说了这件事。他之前在特斯拉管 Autopilot 的 AI，也是 OpenAI 的联合创始人，履历确实硬。但正文没披露他在 Anthropic 的具体职位、负责哪个方向、带不带团队，也没说他是去做研究还是管工程。光凭一条推文，只能说顶尖人才往 AI 安全这边又流动了一次，对 Anthropic 的研发实力有多大加成，现在判断还太早。我会先打个折：人去了是真的，但能带来什么变化，得看他接下来实际做什么。另外，Anthropic 最近在安全和对齐上本来就有声量，Karpathy 的加入更像是强化已有方向，而不是突然转向。还缺的信息是：他具体加入哪个团队、有没有公开发布的研究计划、以及 Anthropic 内部对他角色的定位。这些没出来之前，别把这条当成行业格局变了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:27

30d ago

FEATUREDAI HOT 精选· aihot-apiZH15:27 · 05·19

OpenRouter 让模型能自己上网搜资料了，不用人告诉它什么时候搜、搜什么

OpenRouter 平台上的工具调用模型现在可以自主决定要不要联网搜索、搜什么关键词、搜几次，还会自动抓取网页内容。平台新接入了 @p0 作为搜索供应商。正文没披露搜索次数上限和成本控制细节，实际用起来会不会搜过头还得看后续反馈。

#Agent#Tools#OpenRouter#@p0

精选理由

OpenRouter 现在让能调工具的模型自己决定要不要上网搜、搜什么关键词、搜几次，还顺带抓取网页内容，搜索提供商是 @p0。这事有意思的点在于搜索不再是用户先下指令，而是模型在推理过程中主动触发，等于把信息获取的决策权交了出去。不过目前只有一条推文，没给定价、调用上限、失败处理或实际效果对比，所以我会先打个折——想法不错，但落地细节还看不清。

一句话点评

OpenRouter 把搜索开关交给了模型自己，方便，但也把成本、来源质量和注入风险一起放进了运行时。

锐评

这条更新一句话：OpenRouter 上的模型现在能自己决定什么时候搜、搜什么、搜几次、要不要抓网页。对开发者来说省了搭 agent 管线的功夫，但对生产环境，等于把花钱的阀门和吃进什么数据的决定权交给了模型行为。平台新接了 @p0 做搜索供应商，但定价、频率上限、来源排序、页面清洗规则正文都没给。OpenAI 和 Perplexity 把搜索包在自己的产品壳里，OpenRouter 是把检索能力下放到了一个模型市场。真正难的不是模型能不能搜，而是一旦搜出坏循环、毒页面、低质来源冒充新鲜上下文，这账算谁的。这点先别太激动，等跑一阵看实际翻车率。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:07

30d ago

● P1Hacker News 首页· rssEN15:07 · 05·19

Andrej Karpathy 加入 Anthropic

Karpathy 自己在 X 上发了这个消息，但正文没披露他具体担任什么职位、进哪个团队、什么时候入职。目前只有一条推文链接和 Hacker News 上的讨论，46 个赞、3 条评论，信息量很少。

#Andrej Karpathy#Anthropic#Personnel

精选理由

Karpathy 去 Anthropic 这件事本身是个信号，说明顶尖研究员在 OpenAI、特斯拉之后选了 Claude 这条线。但正文除了一个 X 链接和 HN 上 46 分、3 条评论，什么都没展开——没职位、没团队、没时间，连他负责什么方向都只能靠猜。我会先打个折：热度够，但信息太薄，重要性给到 82 是合理的，别因为名字就往上拔。

一句话点评

Karpathy 去了 Anthropic 做预训练，不是挂名，是直接进组干活。这条新闻的看点不是“又一个大佬跳槽”，而是他选了一家把安全当产品核心的公司，去搞最烧钱、最底层的模型训练。

锐评

Andrej Karpathy 加入 Anthropic 的预训练团队，这事值得关注，但别急着解读成“OpenAI 不行了”。他之前在 OpenAI 是创始成员，在特斯拉管过自动驾驶的 AI，去年又自己折腾了一段时间教育内容，现在选择回到大模型研发一线，而且直接进预训练组——这是决定模型底色的环节，负责用海量算力把基础能力灌进模型。Anthropic 的发言人确认他已经在 Nick Joseph 手下开始工作，不是顾问或虚职。 TechCrunch 的报道提到，预训练是构建前沿模型最贵、最吃算力的阶段之一。Karpathy 自己在 X 上说，他觉得未来几年大语言模型的前沿研究会特别关键，所以想回来做研发。这句话本身没毛病，但正文没披露他具体负责哪个方向、带多少人、合同签了多久。另外，马斯克在 X 上点了个赞，但没有任何实质评论，这点先别太激动。还缺什么：Anthropic 没说他会不会碰安全对齐那部分，也没提他的加入是否意味着 Claude 下一代的训练规模会再上一个台阶。如果后续有技术路线或资源分配的细节，才能判断这次人事变动对产品节奏的实际影响。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

100

SCORE

H1·K0·R1

14:47

30d ago

FEATURED彭博科技· rssEN14:47 · 05·19

大学生在毕业典礼上反对推崇AI的演讲

彭博社报道，美国大学校园正在成为反AI情绪的爆发点，学生担心AI威胁教育和未来就业。正文没披露抗议规模、具体学校、发生日期，也没说毕业典礼上喝倒彩的细节——信息缺口明显，先别急着下结论说这是一场大规模运动。

#Bloomberg#Commentary

精选理由

HKR-H和HKR-R靠的是代际反AI的尖锐角度和教育/就业焦虑的共鸣。HKR-K不通过，因为摘要和正文都没给出抗议规模、学校名单或毕业典礼嘘声的细节，信息不足以支撑高可信度，所以放在all层级。

一句话点评

今年毕业季，多所美国大学的学生在典礼上直接嘘了演讲嘉宾的AI说教，场面挺尴尬。

锐评

这事说白了就是代际认知撞车了。台上嘉宾还在把AI当未来蓝图讲，台下学生已经亲身经历了AI带来的作业抄袭争议、就业焦虑和内容泡沫，他们用嘘声投票，拒绝被说教。NBC的报道只给了视频片段，没披露具体是哪些学校、哪位演讲者被嘘，也没采访学生到底反感哪句话。这点信息缺口挺大，我们没法判断是演讲内容太水，还是学生单纯对“AI万能论”应激。不过彭博同期报道标题直接写“大学生不想要你的AI”，至少说明这不是孤立事件。对从业者来说，这个信号比任何用户调研都直白：年轻用户对AI的抵触情绪已经从线上吐槽升级到线下公开表达，产品推广时再拿“拥抱未来”那套话术，可能先被目标用户怼回来。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

13:27

30d ago

FEATUREDAI HOT 精选· aihot-apiZH13:27 · 05·19

Membrane 用一个通用技能让 AI 代理能调 10 万多个 API，不用再为每个服务单独写集成

Membrane 做了一个通用“技能”，Claude Code、ChatGPT、Cursor 装上后，一条指令就能调用超过 10 万个 API，从 Stripe 支付到 NASA 火星车数据都覆盖。以前给每个外部服务单独写集成逻辑的麻烦省掉了，开发门槛降了不少。正文没披露这个技能具体怎么做到安全鉴权和错误处理，这点先别太激动。另外他们在搞社区挑战，鼓励...

#Agent#Tools#Membrane#Claude Code

精选理由

我会先打个折：目前只有社交平台上的摘要，没看到定价、鉴权模型、安全边界，也没有实际跑通的案例，所以只能算中等体量的产品更新。亮点在于它把“一个技能接所有 API”这个想法做成了可用的东西，对正在折腾 agent 工具调用的开发者来说，省事这个卖点够直接。但正文没披露延迟、失败重试和权限隔离这些细节，这点先别太激动。

一句话点评

Membrane 做了个通用技能，让 Claude Code 等 AI 代理一条指令就能调用超 10 万个 API，省掉了给每个服务单独写集成的麻烦。但正文没提安全鉴权和错误处理怎么做，这点先别太激动。

锐评

Membrane 这个方案解决了一个真实痛点：以前想让 AI 代理对接 Stripe 付款、NASA 火星车数据这些外部服务，得一个一个写集成代码，又慢又容易出错。现在他们用一个通用技能，让 Claude Code、ChatGPT、Cursor 等主流代理直接调用超过 10 万个 API，开发门槛确实降了不少。但正文完全没披露最关键的两件事：一是安全鉴权怎么处理，代理拿着你的 API 密钥去调支付接口，权限控制和审计日志在哪；二是错误处理机制，万一调用的第三方服务挂了或者返回异常数据，代理是重试、降级还是直接崩掉。这些不搞清楚，生产环境没人敢用。另外他们搞社区挑战鼓励用户提交小众 API 来扩充生态，思路是对的，但生态质量取决于审核和标准化程度，不是堆数量。建议等他们放出技术细节和实际案例再评估。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:23

30d ago

FEATUREDHacker News 首页· rssEN12:23 · 05·19

Forge 给开源小模型加了五层护栏，把智能体任务准确率从 53% 拉到 99%

Forge 是一个 Python 框架，专门给自部署的大模型做工具调用和多步骤智能体流程。它给 Ministral 8B 这个开源小模型套了五层护栏，在 18 个多步骤智能体场景里把任务成功率从 53% 直接提到 99.3%。作者说这背后有篇被 ACM CAIS ’26 录用的论文撑腰，覆盖了 97 种模型和后端组合，每个场景跑了 50 次。不过正文没...

#Agent#Tools#Inference-opt#Antoine Zambelli

精选理由

我会先打个折：这是单篇 Show HN 和 GitHub 仓库的展示，还没看到第三方复现或更严苛的对抗测试，所以别直接当生产保证。但它的价值很实在——用 5 层护栏把 Ministral 8B 在代理任务上的表现从不及格拉到接近满分，覆盖了 97 种配置，对想在自己服务器上跑小模型做工具调用的团队来说，省钱的想象空间很大。正文没披露护栏本身会引入多少额外延迟和计算开销，这点先别太激动。

一句话点评

一个开源小模型套上五层护栏，在多步骤任务里成功率从 53% 跳到 99.3%，但正文没披露这 18 个场景到底多难、多贴近真实业务。

锐评

Forge 给 Ministral 8B 这个开源小模型加了五层护栏，专门管工具调用和多步骤流程，在 18 个智能体场景里把成功率从 53% 拉到 99.3%。作者说背后有篇被 ACM CAIS ’26 录用的论文，覆盖了 97 种模型和后端组合，每个场景跑了 50 次，样本量不算小。但我会先打个折。正文没具体说这 18 个场景是什么，是订机票这种多步骤，还是简单的查天气加发邮件。如果场景偏简单，99.3% 这个数字就没那么惊艳。另外，五层护栏具体怎么设计、每层解决什么问题，正文也没展开，光看 README 很难判断这套方案能不能迁移到其他模型或业务里。还缺两个关键信息：加了护栏后推理延迟和成本涨了多少，以及有没有在更复杂的真实业务环境里测过。小模型省钱是好事，但如果护栏本身很重，性价比就得重新算。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:35

30d ago

FEATUREDAI HOT 精选· aihot-apiZH11:35 · 05·19

微软前高管开撕老东家：Copilot 付费用户实际使用率不到 3%，AI 投入产出严重倒挂

微软前 Windows AI 合作总监韦洛索跳出来说，微软又错过了一波浪潮。他列了几个扎心数字：2023 到 2025 年，微软靠和 OpenAI 的合作赚了约 300 亿美元，但搭进去的成本高达 1000 亿美元。更惨的是 Copilot，虽然到处预装，付费用户里真正在用的不到 3%。他还提到，微软在必应搜索上砸了重金做 AI 化，市场份额纹丝不动；...

#Agent#Tools#Microsoft#OpenAI

精选理由

这条料来自微软前高管，不是官方口径，所以我会先打个折来看。但他甩出的数字很具体：300 亿营收对 1000 亿成本，Copilot 付费使用率不到 3%。如果属实，说明微软这波 AI 投入目前回本压力巨大，Copilot 叫好不叫座的问题比外界想的严重。正文没披露这些数字的统计口径和时间范围，这点先别太激动。

一句话点评

前高管跳出来唱衰老东家，Copilot 付费用户里真正在用的不到 3%，这比单纯说亏钱更扎心。

锐评

这条消息最值得看的是数字背后的落差。微软前高管韦洛索给了几个具体数据：2023 到 2025 年，跟 OpenAI 合作赚了约 300 亿美元，但搭进去的成本高达 1000 亿美元。更惨的是 Copilot，到处预装、企业客户数号称超 2000 万家，但付费用户里真正在用的不到 3%。另一家独立调研也说，能用 Copilot 的微软 365 用户里只有 3.3% 掏了钱。这说明铺量不等于有人用，装机量跟活跃度是两码事。不过得打个折。韦洛索刚从微软跳到谷歌又跳到 Meta，现在出来批评前东家，立场上不是中立第三方。他说的“必应 AI 化没抢到份额”“GitHub 可用性跌破 90%”这些点，正文没给出具体数据来源，只能当他个人判断。微软那边回应也很官方，只说“事实本身就是答案”，没正面反驳数字。还缺几块关键信息：Copilot 这 3% 的使用率是怎么定义的，是月活还是日活？企业版和个人版有没有分开算？另外，1000 亿美元成本里多少是一次性基建投入、多少是日常运营，正文也没拆。这些缺口不补上，很难判断微软这盘棋到底是真亏还是战略性亏损。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:01

30d ago

FEATUREDr/LocalLLaMA· rssEN11:01 · 05·19

Sapient 发布 HRM-Text 1B：40B token 预训练，成本约 1000 美元，数学和阅读理解分数超过 Llama3.2 3B

Sapient Intelligence 开源了一个 10 亿参数的小模型 HRM-Text 1B，用 16 张 GPU 跑了 1.9 天，喂了 400 亿个 token，总花费大概 1000 美元。他们自己测的榜单显示，这个 1B 模型在 MATH 数学题上拿了 56.2 分，在 DROP 阅读理解上拿了 82.2 分，两项都压过了 Meta 的 L...

#Reasoning#Benchmarking#Sapient Intelligence#Llama

精选理由

我会先打个折：独立评测还没做完，MATH 56.2 和 DROP 82.2 都是自报分数，别急着全信。但 1000 美元预训练一个 1B 模型这件事本身就有信息量——它说明小团队也能用很少的算力做出能打的模型，对预算有限的开发者是个实在信号。正文没披露数据配比和消融实验，所以没法判断这 40B tokens 的质量到底多高。分数先按 78 给，等第三方跑完基准再考虑往上调。

一句话点评

一个1B模型用1000美元训练就敢说数学和阅读压过Llama3.2 3B，但成绩全是自测，没第三方验证，先打七折看。

锐评

Sapient Intelligence 开源了 HRM-Text 1B，一个10亿参数的小模型。他们用16张GPU跑了1.9天，喂了400亿个token，总花费大概1000美元。这个成本确实低，说明小模型从头训的门槛在往下走。他们自己测的榜单显示，这个1B模型在MATH数学题上拿了56.2分，在DROP阅读理解上拿了82.2分，两项都压过了Meta的Llama3.2 3B。但这里有个关键问题：成绩全是自报的，正文没提任何独立评测或第三方复现结果。没有Open LLM Leaderboard这类公开榜单的分数，也没说跟同期的Qwen2.5 1.5B比怎么样。另外，正文没披露训练数据的具体构成，不知道这400亿token里有多少是数学和推理相关的语料。如果数据针对性很强，那在MATH和DROP上表现好就不意外，但泛化能力要打个问号。想用的人最好等社区跑一遍标准评测再看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:50

30d ago

FEATUREDAI HOT 精选· aihot-apiZH10:50 · 05·19

现代汽车计划在自家工厂部署 2.5 万台波士顿动力 Atlas 人形机器人

现代汽车集团在摩根大通的投资者会上说，要在现代和起亚的制造工厂里用上超过 2.5 万台 Atlas 人形机器人，目标到 2028 年实现年产 3 万台。执行器（相当于机器人的关节和肌肉）会在美国工厂生产，规划年产能超过 30 万个。不过正文没披露具体什么时候开始铺、铺到哪些工厂，也没说采购成本。

#Robotics#Hyundai Motor Group#Boston Dynamics#Product update

精选理由

这条消息就一句话：现代汽车要搞 2.5 万台 Atlas。数字够大，所以能上推荐位。但我会先打个折，因为正文没披露部署时间、场景和采购条件，等于只给了一个量级，没有落地信息。如果是真的，这个采购规模挺省钱也够吓人，但这点先别太激动，等具体方案出来再看。

一句话点评

现代汽车要在自家工厂铺2.5万台Atlas机器人，但没给时间表和具体工厂，先当个远期目标看。

锐评

现代汽车集团在投资者会上放了个卫星：计划在现代和起亚的工厂里部署超过2.5万台波士顿动力的Atlas人形机器人，目标到2028年实现年产3万台。核心部件执行器（相当于机器人的关节和肌肉）会在美国生产，规划年产能超过30万个。这个数字看着很大，但正文没披露任何落地时间表、具体部署哪些工厂，也没提采购成本。所以目前更像是一个产能规划，而不是马上要执行的订单。2.5万台是什么概念？如果真能铺下去，这会是目前全球最大规模的人形机器人商业部署，但前提是Atlas得先证明自己能在真实产线上稳定干活，而不是只会在视频里搬冰箱。还缺几个关键信息：单台成本、投资回报周期、以及工会那边会不会有阻力。毕竟现代汽车工会之前就警告过，未经批准不得在生产车间部署人形机器人。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:45

30d ago

● P1OpenAI 博客· rssEN10:45 · 05·19

OpenAI 为生成图像添加数字身份证和隐形水印双重防伪

OpenAI 更新了内容溯源方案，主要做了三件事。第一，他们正式通过了 C2PA 标准认证，以后用 DALL·E、Sora 等工具生成的图片都会自带一份加密的“数字身份证”，记录是谁做的、怎么改的，平台可以直接读取。第二，和 Google DeepMind 合作，在 ChatGPT、Codex 和 API 生成的图片里加入 SynthID 隐形水印。这...

#Safety#Tools#OpenAI#Product update

精选理由

OpenAI 这次更新把内容来源标识这件事往前推了一步，但正文只给了三个机制的名字，没展开讲落地范围、时间表或实际采用数据。我会先打个折：HKR-K 靠三项具名机制过关，HKR-R 靠深度伪造和信任问题过关，HKR-H 偏弱，所以卡在 featured 门槛上。

一句话点评

OpenAI 给自家生图加了双重防伪：一层数字签名，一层谷歌的隐形水印，还放出了公开检测工具。但水印防不了截图，签名也可能被平台洗掉，别当它是万能验真机。

锐评

OpenAI 这次把内容溯源做成了双保险。第一层是 C2PA 数字签名，相当于给图片嵌了张防篡改的电子身份证，记录谁生成的、怎么编辑的。这层信息量大，但脆弱，上传下载或转格式就可能丢失。第二层是谷歌 DeepMind 的 SynthID 隐形水印，直接改像素，更扛造，截图也能留痕，但能携带的信息比签名少。两者互补，比单用一层靠谱。目前覆盖范围是 ChatGPT、Codex 和 API 生成的图片。OpenAI 还上线了一个公开验证工具，上传图片就能查有没有这两层标记。不过正文没提音频和视频什么时候上水印，也没给检测准确率数据。水印能告诉你“这是 AI 画的”，但防不了有人截图后裁掉水印区域，或者用其他工具二次处理。这点先别太激动，它解决的是溯源，不是防伪。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

10:36

30d ago

FEATUREDAI HOT 精选· aihot-apiZH10:36 · 05·19

用 Claude Code 两分钟生成一个项目计划页，比 Notion 快了近 20 倍

作者给 Claude Code 下了一段精确的提示词，两分钟就吐出一个单文件 HTML 页面，暗色主题、时间线、可折叠表格全都有，没有外部依赖，拿来就能用。他以前在 Notion 里搭同样的模板要花 30 到 40 分钟，效率差了近 20 倍。核心是把视觉、内容结构和交互细节一次性写进提示词里，让模型直接交付成品。正文没披露具体提示词全文，也没说生成后...

#Code#Tools#Claude#Commentary

精选理由

HKR 三项全中：有具体的 Claude Code 实操钩子，有 2 分钟 vs 30-40 分钟的硬数字对比，对一线干活的人直接有用。范围虽小，但信息密度够，放在 featured 没问题。

一句话点评

用 Claude Code 两分钟吐出一个带暗色主题、时间线和折叠表格的单文件 HTML，比在 Notion 里搭模板快了近 20 倍。但正文没给提示词全文，复现效果要打个问号。

锐评

这条分享的价值在于把“AI 写代码”拉到了一个很具体的日常场景：做项目计划页。作者说他以前在 Notion 里搭同样的模板要花 30 到 40 分钟，现在用 Claude Code 两分钟搞定，效率差近 20 倍。这个数字挺直观，说明 AI 生成前端页面在“一次性交付完整交互页面”这件事上确实能省时间，尤其是单文件 HTML 这种零依赖、拿来就能用的格式，很适合快速出原型或内部工具页。但这条信息缺的东西也不少。正文没披露提示词全文，只说“把视觉、内容结构和交互细节一次性写进去”。这恰恰是核心门槛——提示词写得好不好，直接决定生成质量。如果提示词本身就要琢磨十几分钟，那“两分钟生成”的账就得重新算。另外也没说生成后需不需要手动调样式或修 bug，只说“拿来就能用”，这个说法我会先打个折。还有一点：Notion 模板和单文件 HTML 的使用场景不完全一样，前者方便团队协作和持续编辑，后者更适合静态展示或独立交付。效率对比成立，但别直接等同于“HTML 替代 Notion”。整体看，这条分享是个不错的思路启发，但缺提示词细节和实际使用反馈，想复现的人得自己试几轮。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:08

30d ago

FEATUREDAI HOT 精选· aihot-apiZH08:08 · 05·19

地平线开源了 4 亿参数的机器人控制模型 HoloMotion-1，能跳舞、搬箱子，端侧跑到 300 帧

地平线机器人实验室把一个人形机器人全身控制模型 HoloMotion-1 开源了，参数规模 4 亿，他们管它叫“机器人小脑”。这个模型用了 MoE 稀疏激活和 KV-cache 推理，把单步推理开销压下来，在端侧能跑到约 300FPS，比常见的 50Hz 控制频率高出一大截。训练数据来源比较杂，包括互联网视频、光学动捕、VR 遥操作和惯性动捕，经过统一...

#Robotics#Inference-opt#Horizon Robotics#Open source

精选理由

HoloMotion-1 是一个开源机器人控制模型，4 亿参数能在端侧跑到约 300FPS，对做具身智能的团队来说是个可复现的参考。不过目前只看到动作生成能力，正文没披露在真实机器人上的成功率或延迟数据，实际部署效果还得等后续验证。整体偏技术发布，影响力集中在机器人圈子，放在 featured 档位合适。

一句话点评

地平线开源了一个4亿参数的机器人运动控制模型，端侧能跑到300帧，比常规50Hz快很多，但真机演示和长期稳定性还没看到。

锐评

地平线这次把HoloMotion-1完整开源了，代码、模型、技术报告都给了，这点值得肯定。4亿参数放在机器人控制里算很大了，他们用MoE稀疏激活和KV-cache把单步推理开销压下来，端侧能跑到约300FPS，比常见的50Hz控制频率高出不少，意味着动作响应可以更细腻。训练数据来源比较杂，互联网视频、光学动捕、VR遥操作、惯性动捕都用上了，统一处理后喂给模型。从展示的动作看，跳舞、爬行、搬箱子这些确实覆盖了全身控制的几个难点，而且声称是零样本迁移，没针对每个动作单独调参。不过正文没披露真机测试的成功率、连续运行时长，也没提摔倒或动作失败时的恢复机制。300FPS是推理速度，不代表动作质量一定好。另外，4亿参数在端侧芯片上到底占多少算力和功耗，也没给具体数字。这些信息缺口让“小脑”这个说法还停留在实验室阶段，离实际部署有多远不好判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:57

30d ago

● P1AI HOT 精选· aihot-apiZH07:57 · 05·19

Claude 推出自托管沙箱与 MCP 隧道功能

Claude 在伦敦线下活动上发了两个新功能，都跟 Claude Managed Agents 有关。自托管沙箱进入公测，意思是代理可以在你自己的安全边界里运行，默认就用你设好的安全策略，不用再额外配一套。MCP 隧道是研究预览版，正文没展开讲具体怎么用，但从名字看应该是给 MCP 服务打通一条安全通道。这两个功能合在一起，解决的是同一个问题：让模型进...

#Agent#Tools#Safety#Claude

精选理由

这是 Claude 官方在代理基础设施上的一次实在更新，不是画饼。自托管沙箱让代理跑在用户自己的环境里，不用把数据全交给云端，安全团队更容易点头；MCP 隧道则解决了内外网工具打通的问题，代理能直接调用内部服务。两个功能都还在公测或预览阶段，正文没给出大规模压测数据，稳定性先打个折。但方向很明确：让代理进企业流程干活，同时把控制权留在用户手里。

一句话点评

Claude 的托管智能体现在可以把代码执行环境放在你自己的服务器上，并通过加密隧道连接公司内部工具，数据不用再经过 Anthropic。

锐评

Anthropic 给 Claude 的托管智能体加了两项安全功能：自托管沙箱和 MCP 隧道。简单说，以前智能体干活时的代码执行环境在 Anthropic 那边，现在你可以把沙箱部署在自己的云服务器上，执行过程完全在你眼皮底下。MCP 隧道则是一条加密通道，让智能体安全访问你公司内部的私有工具和数据源，不用把敏感服务暴露到公网。这对有合规要求的团队是个实打实的利好——数据不出门，审计链路也完整。但公告没提自托管沙箱的额外资源开销和延迟影响，也没给出 MCP 隧道的并发上限或吞吐量指标。如果你的内部服务响应慢，智能体的整体表现肯定会打折扣。另外，部署和运维这套东西需要一定的工程能力，不是开个开关就能用。实际省不省心，还得看后续的文档和用户反馈。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:39

30d ago

● P1AI HOT 精选· aihot-apiZH07:39 · 05·19

月之暗面 Kimi 新融资拉来国资和央企，半年估值翻四倍

Kimi 正在进行一笔 20 亿美元（约 136 亿人民币）的融资，已接近收尾。新股东名单里出现了国智投、北京人工智能基金等国资机构，以及中国移动这样的央企。今年 1 月和 2 月，Kimi 已经密集完成了三轮融资，分别拿了 5 亿、7 亿和 7 亿美元。加上最新这笔，不到半年融资总额超过 39 亿美元，估值比去年 11 月的约 43 亿美元翻了四倍多...

#Code#Moonshot AI#Kimi#China Mobile

精选理由

Kimi 这轮融资还没完全 close，所以先不打满分。但国智投和中国移动出现在股东名单里，加上半年估值从不到 10 亿跳到 40 亿左右，说明国资在加速给头部模型公司兜底。我会先打个折：正文没披露具体估值计算方式和交割时间，这点先别太激动。

一句话点评

Kimi 半年融了 39 亿美元，估值翻四倍，新股东里出现了国资和央企。钱是到位了，但商业化能不能跑通，正文没提。

锐评

这条融资消息最值得看的是股东结构变化。国智投、北京人工智能基金和中国移动进场，说明 Kimi 在资本层面已经不只是 VC 故事，开始有国家队背书。不到半年密集完成四轮融资，总额超过 39 亿美元，估值从去年 11 月的约 43 亿美元涨到现在的体量，速度确实快。但正文只讲了融资数字和股东名单，没披露这 20 亿美元新钱的具体用途，也没提公司收入、付费用户留存或模型 API 调用量这些能验证商业化的指标。之前有报道说 1-2 月付费订单增长猛，但那是两个月前的数据了。另外，K2.6 模型刚开源，集成到 Cursor 算是产品落地的一步，可实际用户反馈和付费转化还没看到。我会先打个折：估值翻四倍更多反映的是资本对头部大模型公司的押注意愿，不直接等于业务健康度。还缺的信息是 Kimi 自己的营收规模、毛利率和客户留存率，这些才是判断它值不值这个价的关键。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:31

30d ago

FEATUREDLatent Space· rssEN07:31 · 05·19

想进顶尖 AI 实验室做预训练？先学会写一个比官方库还快的 GPU 内核

Vlad Feinberg 写了一篇求职笔记，把进前沿实验室的门槛讲得很直白：核心能力是底层性能调优，也就是能动手改内核（kernel），让模型训练真的跑得动。他给了一道具体的面试题——先推导 Chinchilla 缩放定律，并比较它在稠密模型和 MoE（混合专家）架构下的区别；然后用 JAX 从零实现，最后写一个 Pallas 内核，要求在专家维度 ...

#Code#Inference-opt#Agent#Latent Space

精选理由

这篇文章把“进前沿实验室做预训练”拆成了可操作的技能清单：手写 JAX 内核、自己推一遍 Chinchilla 定律、用 Pallas 给 MoE 的 up/down 投影做融合。我会先打个折——正文没披露这些建议是 Vlad Feinberg 的个人经验还是 Google 的普遍要求，也没说这些技能在面试里占多大权重。但光是这份清单本身，对想往预训练方向走的人就有参考价值，尤其是把“懂缩放定律”从一句空话落到“自己推导过”这个动作上。

一句话点评

Vlad Feinberg 这篇求职笔记把进前沿实验室的门槛讲得很直白：核心能力是底层性能调优，能动手改内核让模型训练真的跑得动。

锐评

这篇笔记最实在的地方，是直接给了一道面试题：先推导 Chinchilla 缩放定律，比较它在稠密模型和 MoE（混合专家）架构下的区别，然后用 JAX 从零实现，最后写一个 Pallas 内核，要求在专家维度 F 大于隐藏维度 D 时，通过融合上下投影来跑赢 jax.lax.ragged_dot。这基本把前沿实验室预训练岗的硬技能要求摊开了——不是调参，是写底层算子。作者 Vlad Feinberg 的背景偏 Google/TPU 生态，所以例子全押在 JAX 和 Pallas 上，对用 PyTorch 或 CUDA 的人参考价值要打个折。另外他提到 DSL（领域特定语言）做内核开发是个趋势，但正文没展开具体对比，也没给出 Pallas 内核的实际加速数据，只说“找一个能测出前向加速的场景并解释原因”。这点先别太激动，因为没有基准数字，很难判断这个优化在实际训练中到底省多少。还缺两块关键信息：一是这类岗位的面试通过率或实际招聘人数，二是除了内核优化，团队协作和系统设计在面试中占多大比重。如果只盯着这道题练，可能忽略了实验室对工程落地和沟通能力的要求。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:28

30d ago

FEATUREDAI 群聊日报· atomZH07:28 · 05·19

AI21裁员六成停卖模型，GPT-5.4被假共识带偏后准确率从100%暴跌到23%

AI21 Labs裁员60%并停止独立销售模型，文章判断纯卖模型访问权限这条路已经走不通了——token价格两年跌了100倍，过去16个月里有六家独立模型公司以几乎相同的方式被大厂吸收。Meta内部文件也曝出要裁10%约8000人，同时强征7000人转AI岗。滑铁卢大学一篇论文测出GPT-5.4在注入虚假同伴共识后，准确率从100%掉到23%，模型内部...

#Reasoning#Alignment#Benchmarking#AI21 Labs

精选理由

我会先打个折：来源是群聊日报，不是官方公告或论文，所以细节可能不全。但两条信息都直接给数字——AI21 砍掉六成人、不再卖模型，说明这家实验室在收缩；GPT-5.4 被注入虚假同伴共识后准确率从全对掉到只剩两成多，暴露了模型在群体压力下的脆弱。这两件事放在一起，既有行业动态又有安全风险，对从业者来说值得扫一眼。

一句话点评

AI21裁员六成停卖模型，token两年跌价百倍，纯卖模型访问权限这条路确实走不通了。滑铁卢大学测出GPT-5.4被假共识带偏后准确率从100%暴跌到23%，这点先别太激动，得看论文具体怎么注入的。

锐评

今天群聊日报最值得关注的是独立模型公司的生存逻辑被证伪。AI21 Labs从180人砍到70人，停止独立卖模型，这已经是16个月里第六家以“反向收购”方式被大厂吸收的公司。文章给出的数据很直接：GPT-4级别的token价格两年跌了100倍，同一个开源模型有21家推理服务商在抢生意。还能活下来的要么有地缘背书，要么嵌入了云厂商的分销渠道，要么像Cohere那样扎进垂直行业把ARR从1亿做到2.4亿。这个判断跟前几天“Agent Runtime成为新主战场”的叙事连起来了——模型本身在贬值，编排层才值钱。滑铁卢大学那篇论文值得单独说。GPT-5.4在注入虚假同伴共识后准确率从100%掉到23%，群里实战派直接说debate架构“除了浪费token没啥用”。但正文没披露实验的具体设置，比如虚假共识是怎么注入的、对照组怎么设的，所以这个23%的跌幅有多大参考价值还不好说。Meta裁员10%并强征7000人转AI岗的消息被群友证实了，鸭哥大号说“明晚熬夜就知道自己还在不在”，这种一线视角比新闻稿实在得多。整体看下来，日报缺的是对论文方法和Meta内部文件原文的引用，所有判断都来自群友转述和文章作者的分析，一手信源不够硬。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:08

30d ago

FEATURED量子位 · 公众号· rssZH06:08 · 05·19

Odyssey 放出 Agora-1 世界模型，能四个人同时在线打 FPS，比李飞飞团队还快一步

Odyssey 发布了一个叫 Agora-1 的世界模型，主打实时生成可玩的 FPS 场景，最多支持四个真人或 AI 玩家在同一张图里对战。它把物理模拟和画面渲染拆开跑，训练数据用的是《黄金眼》游戏内部状态，不是单纯看视频学样子。正文没披露具体延迟和硬件成本，所以实际跑起来卡不卡、贵不贵还不清楚。我会先打个折：多人联机听着很酷，但没看到公开可测的版本，...

#Agent#Multimodal#Inference-opt#Odyssey

精选理由

我会先打个折：Odyssey不是顶级基础模型厂商，所以分数压在78-84这个区间。但Agora-1确实把世界模型从单人看风景推到了4人联机打枪，仿真和渲染分开跑这个架构选择也值得留意。正文没披露延迟数据和画面一致性表现，这点先别太激动。训练数据用了GoldenEye的内部状态，说明他们走的是用游戏引擎内部信息喂模型的路子，不是纯视频学习，这跟其他家路线不一样。

一句话点评

Odyssey 放出 Agora-1，一个能实时生成 FPS 场景、支持四人联机对战的世界模型，但没给延迟和硬件成本，实际能不能跑顺还得观望。

锐评

这条新闻最值得关注的点是：Agora-1 不是单纯看视频学画面，而是直接拿《黄金眼》游戏内部状态数据训练，把物理模拟和画面渲染拆成两件事跑。这比之前那些“看片猜下一帧”的世界模型靠谱一些，至少它知道子弹打出去该往哪飞。多人联机听着很酷，但正文没披露具体延迟和硬件成本，所以实际跑起来卡不卡、贵不贵还不清楚。我会先打个折：没公开可测版本，也没第三方验证，现在只能当技术 demo 看。还缺两个关键信息：一是在什么显卡上跑的，帧率多少；二是生成场景的物理一致性到底怎么样，会不会出现穿墙或瞬移。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:08

30d ago

FEATURED量子位 · 公众号· rssZH06:08 · 05·19

京东和中科院信工所连发三篇论文，提出让大模型“自己教自己”的强化学习路线

这篇推文本身因为环境异常没加载出正文，我只能根据标题和外部信息给你还原一下。京东和中科院信工所联合发了三篇论文，核心思路叫 Self-Taught RLVR，也就是让模型在强化学习里自己生成训练信号、自己教自己，省掉人工标注或外部奖励模型。其中一篇叫 RLSD 的工作，在 Qwen3-VL-8B-Instruct 上只训了 200 步，就在 8 个基准...

#Reasoning#Fine-tuning#Benchmarking#JD

精选理由

我会先打个折：这不是哪个大厂发了新模型，而是京东和中科院信工所连着放了三篇论文，把 Self-Taught RLVR 这条路线从不同角度拆了一遍。亮点在 RLSD，它让模型自己生成推理步骤、自己打分、自己迭代，200 步就超过 GRPO 跑 400 步，等于训练量砍半还能赢，对算力吃紧的团队是个好消息。不过正文没披露复现需要多少卡、数据怎么配，这点先别太激动。整体属于有干货、有对比、但热度还没起来的阶段，放 featured 低位合适。

一句话点评

京东和中科院信工所连发三篇论文，让模型自己出题自己练，省掉人工标注。但正文没加载出来，具体效果先打个折。

锐评

这篇推文因为环境异常没加载出正文，我只能根据标题和摘要信息来谈。核心思路是 Self-Taught RLVR，也就是让模型在强化学习里自己生成训练信号，不用外部奖励模型或人工标注。其中一篇叫 RLSD 的工作，在 Qwen3-VL-8B-Instruct 上只训了 200 步，就在 8 个基准上超过了训 400 步的 GRPO。这个数字说明两点：一是训练步数少、成本可能更低，二是自己教自己的效果至少在这组实验里没掉链子。但要注意，摘要没提这 8 个基准具体是什么，也没说 RLSD 在其他模型或更大规模上的表现。另外两篇 NPO 和 CoPD 的细节也完全缺失。所以现在能判断的是思路有吸引力，但验证范围有限。如果后续能补上更多模型、更多任务的对比，以及训练稳定性的分析，这个方向才更有说服力。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:08

30d ago

FEATURED量子位 · 公众号· rssZH06:08 · 05·19

摩尔线程发布国产全栈具身智能仿真平台，机器狗“小飞”全程在自家 GPU 上完成训练

摩尔线程推出了 MT Lambda 仿真平台，把物理引擎、渲染和 AI 模型训练整合到一起，用自家的 GPU 跑通了从模拟到真机的完整流程。现场演示的机器狗“小飞”在仿真里学会走路后，直接迁移到实物上就能跑。不过正文因为需要验证码没能完整抓取，具体的技术参数、训练时长和成功率数据都没披露，这点先别太激动。

#Robotics#Multimodal#Inference-opt#Moore Threads

精选理由

我会先打个折：性能、定价、开放方式和第三方验证正文都没给，所以重要性只能停在 featured 低位。但这条消息本身信息量够——摩尔线程拿出的是一个国产 GPU 驱动的具身仿真方案，不是纯软件缝合，而且用机器狗“小飞”做了 100% 仿真训练到真机迁移的 demo，说明链路至少跑通了。对国内做机器人、做仿真的人来说，这相当于多了一个可能绕开 NVIDIA 生态的选项，哪怕现在还很早期，也值得标记一下。

一句话点评

摩尔线程用自家GPU搭了个仿真平台，让机器狗在虚拟世界里学会走路后直接搬到真机上跑。但正文因验证码没抓全，关键数据全缺，先别太激动。

锐评

这条新闻的核心看点在于国产GPU开始进入具身智能的完整工具链，不再只是做渲染或推理加速。摩尔线程的MT Lambda平台把物理引擎、渲染和模型训练整合到一起，现场演示的机器狗“小飞”在纯仿真环境里训练出的走路策略，能直接迁移到实物上，说明Sim-to-Real这条通路在国产硬件上至少跑通了demo。但信息缺口很大。正文因为需要验证码没能完整抓取，具体用了什么模型架构、训练用了多少GPU小时、仿真到真机的成功率是多少、延迟多大，这些衡量平台实用性的关键数字全都没披露。没有这些，就没法判断它是真能替代现有NVIDIA+Isaac Sim的方案，还是只停留在发布会演示阶段。另外，平台是否对外开放、支持哪些机器人形态、物理引擎是自己写的还是基于现有开源项目改的，这些也都没提。对从业者来说，最关心的其实是生态和迁移成本——如果只能跑摩尔线程自己的卡，而且适配新机器人要重写大量代码，那实际价值会大打折扣。建议等有完整技术文档或第三方评测后再下判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:07

30d ago

FEATURED纽约时报中文网· rssZH05:07 · 05·19

中国AI短剧每分钟成本200元，演员开始接不到戏了

一些中国公司现在不用摄像机、剧组和真人演员，就能以每分钟约30美元（200元人民币）的成本批量生产AI短剧。DataEye数据显示，仅今年3月就有近5万部AI短剧上传到抖音，几乎赶上该平台2025年全年总量。字节跳动2月发布的Seedance 2.0等工具让这类内容快速普及，但演员群体已经感受到冲击：32岁的横店演员李焦尔说近几个月角色“彻底消失了”，...

#Multimodal#Vision#DataEye#ByteDance

精选理由

这篇不是产品发布或模型更新，但把 AI 短剧的成本和产量数字摆出来了：每分钟 30 美元，3 月抖音上传量接近去年全年。我会先打个折，因为正文没披露这些短剧的实际播放量和用户留存，光有上传量说明不了市场接受度。但选题本身把技术狂欢和失业焦虑绑在一起，对从业者来说比单纯讲模型能力更有嚼头。

一句话点评

AI短剧成本每分钟200元，一个月上传量顶去年一年，但演员工作机会直接归零。数字很猛，代价也很具体。

锐评

这条新闻最值得看的是两个数字的对比：每分钟30美元的成本，和单月近5万部的上传量。成本低到这种程度，平台内容池被快速灌满几乎是必然的，但这也意味着大部分AI短剧可能根本没人看，只是生产端的自嗨。文章里演员和导演的采访很实在，不是空谈焦虑，而是具体到微信群安静了、角色消失了、不得不裁掉真人团队。这比任何宏观报告都更能说明冲击的速度。不过，正文没披露这近5万部AI短剧的平均播放量和收入数据，也没说真人短剧的同期产量变化。没有这两个数，就很难判断AI到底是抢了真人的蛋糕，还是单纯在做一块没人吃的增量蛋糕。另外，关于肖像权争议和平台下架剧集的案例，说明法律和审核还远远没跟上生产速度。这点先别太激动，监管一收紧，现在很多粗放玩法可能很快就行不通了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:36

30d ago

FEATURED新智元 · 公众号· rssZH04:36 · 05·19

AI 创业公司一年收入冲到 800 亿美元，Anthropic 反超 OpenAI，两家吃掉近九成

The Information 统计了 34 家头部 AI 创业公司的年化收入，加起来约 800 亿美元。OpenAI 和 Anthropic 两家就占了 89%，其中 Anthropic 到 2026 年 4 月年化收入已超过 300 亿，反超 OpenAI 对外报的 250 亿。不过原文因为微信环境验证拦截，正文没披露具体统计口径和收入确认方式，这...

#Code#Agent#Anthropic#OpenAI

精选理由

这条消息的钩子很清晰——Anthropic 收入反超 OpenAI，同时两家垄断近九成份额，比单纯说“行业总盘子大”更有信息量。The Information 给出的 800 亿年化收入和 89% 集中度是新的具体数字，不是泛泛的趋势判断。对 AI 从业者来说，收入集中度比融资额更能反映商业落地现状，所以值得推。不过这是二手财务报道，不是模型或产品发布，重要性定在 82 合理。

一句话点评

Anthropic 年化收入冲到 300 亿美元反超 OpenAI，但原文被微信验证墙挡了，统计口径和收入确认方式都没披露，这个数字先打个折看。

锐评

这条消息最值得关注的点是座次变了：Anthropic 到 2026 年 4 月年化收入超过 300 亿美元，把 OpenAI 对外报的 250 亿甩在后面。两家加起来吞掉了 34 家头部 AI 创业公司约 800 亿美元总年化收入的 89%，头部集中度极高。不过得泼点冷水。原文因为微信环境验证拦截，正文根本没披露 The Information 的具体统计口径——年化收入是按最近一个月乘以 12 算的，还是按实际合同金额算的？有没有把一次性授权费、算力转售流水也算进去？这些都不清楚。另外 OpenAI 报的 250 亿是不是同一时间截点、同一口径，也没法核对。还缺一个关键信息：利润。收入冲得再猛，如果烧钱速度更快，这个反超的意义就要打折。建议等 The Information 原文或公司财报出来再下判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:36

30d ago

FEATURED新智元 · 公众号· rssZH04:36 · 05·19

港中大和浙大团队认为，现在 AI Agent 的“记忆”只是备忘录，不是真记忆

这篇文章的正文被微信环境验证挡住了，具体实验细节看不到。从标题和现有摘要看，港中大和浙大的研究者戳破了一个常见说法：主流 AI Agent 的记忆模块，本质上是把过往信息存起来、用的时候再检索出来，相当于一个备忘录，而不是真正具备推理能力的记忆。他们指出，处理需要组合多个步骤的任务时，这种检索式记忆需要的案例数会按 k² 增长，成本很高。另外在一个叫 ...

#Agent#RAG#Memory#CUHK

精选理由

我会先打个折：这篇不是模型发布，而是研究信号，但信号很强。标题把“记忆”的谎言直接戳破，正文用 Ω(k²) 和 90% 攻击成功率两个数字把问题量化得很清楚，不是空谈风险。对做 Agent 和外挂资料库的人，这三个点——记忆退化、检索投毒、案例爆炸——都是实打实的工程隐患，所以 H、K、R 全中。

一句话点评

港中大和浙大团队指出，主流AI Agent的“记忆”只是检索式备忘录，处理多步骤任务时所需案例数会按k²增长，成本飙升。

锐评

这篇研究戳破了一个行业里常被包装过度的概念：现在AI Agent所谓的“记忆”，本质就是个外挂资料库，用的时候把存过的信息捞出来，而不是真的在推理。港中大和浙大的研究者算了一笔账，当任务需要组合多个步骤时，这种检索式记忆需要的案例数会按k²增长，成本一下就上去了。他们还做了一个叫PoisonedRAG的攻击测试，只用了5条恶意文本，攻击成功率就达到90%。这说明这种“记忆”不仅笨重，还很脆弱，容易被污染。不过得先打个折，这篇文章的正文被微信环境验证挡住了，具体实验设置、模型规模、任务类型这些关键细节都看不到。k²增长是在什么条件下测出来的、90%成功率是在哪个数据集上跑的，正文没披露。如果后续能看到完整论文，才能判断这个结论的适用范围有多大。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

30d ago

FEATUREDFT · 科技· rssEN04:00 · 05·19

FT 披露：Google DeepMind 创始人也投了竞争对手 Anthropic

这条消息来自 FT 的一篇付费文章，正文被付费墙挡住了，只留了个标题。标题说 Google DeepMind 的创始人投资了死对头 Anthropic。具体投了多少钱、在哪一轮进的、什么时候发生的，正文没披露，RSS 摘要里也只提到这位诺奖得主的门生们正在融几十亿。所以目前只能确认有这么一笔投资存在，细节一概不知。

#Google DeepMind#Anthropic#Funding

精选理由

我会先打个折，因为正文只说了“门生在融资数十亿美元”，没给出具体的投资金额、轮次和时间，信息量其实有限。但 H 分给在“创始人投对手”这个冲突点上，天然有传播力；K 分是因为 FT 的披露本身算一个新事实，只是关键细节全缺；R 分则来自 AI 圈对实验室竞争和利益冲突的敏感度，从业者会愿意聊两句。整体看，消息有钩子但缺硬数据，放在 featured 档比较合适。

一句话点评

FT 标题说 DeepMind 创始人投了对手 Anthropic，但正文被付费墙挡死，投了多少、哪一轮、什么时候一概不知，先当个瓜看。

锐评

这条消息目前只有一个标题和 RSS 摘要，正文完全被付费墙挡住，能确认的事实非常有限。标题说 Google DeepMind 的创始人投资了 Anthropic，摘要补充了一句这位诺奖得主的门生们正在融几十亿。但具体是谁投的、投了多少钱、在哪一轮进的、是个人行为还是通过基金，正文都没披露。这种信息缺口下，这笔投资的意义没法判断。可能是大佬用脚投票看好 Anthropic 的技术路线，也可能只是财务投资。考虑到 DeepMind 和 Anthropic 在 AI 安全、模型能力上的竞争关系，如果是创始人个人出资，利益冲突的边界值得关注，但正文没给任何细节，这点只能存疑。建议等 FT 解锁全文或 Anthropic 下一轮融资文件公开后再下判断。目前这条新闻的价值仅限于“有这么一件事发生了”。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

30d ago

FEATURED机器之心 · 公众号· rssZH04:00 · 05·19

从卖 token 到背 KPI：AI 公司开始按结果收费了

这篇文章讲的是 AI 商业模式的一个转向：不再按调用次数或月费收钱，而是直接对业务结果负责。Sierra 今年 5 月拿了 9.5 亿美元，估值超过 150 亿，做的就是客服场景的“结果即服务”——你只为它成功解决的客诉买单。灵犀（Lingxi）则说自己在 2025 年已经实现规模化盈利和正向现金流，同样走按效果付费的路子。不过正文因为微信环境验证没加...

#Agent#Fine-tuning#Memory#Sierra

精选理由

这篇文章抓了一个很具体的商业信号：AI公司开始不按token或订阅收钱，而是按业务结果收费。Sierra的融资规模和零犀的盈利时间点让这个模式有了可验证的案例，不是空谈。我会先打个折，正文没披露具体分成比例或客户续约率，但“让AI背KPI”这个角度本身对从业者判断产品定价和交付压力有帮助，所以给了featured。

一句话点评

AI公司开始不卖token改卖结果了，Sierra拿了9.5亿美金，灵犀说自己2025年已经赚钱了。但正文被微信验证墙挡了，具体怎么算钱、效果怎么定义都没看到。

锐评

这条新闻的核心信号是：AI商业模式在从“按量收费”转向“按结果收费”。Sierra融了9.5亿美元、估值超150亿，做的是客服场景的结果即服务，你只为它成功解决的客诉买单。灵犀也说自己在2025年实现了规模化盈利和正向现金流，走同样的路子。这比卖token的生意难做，因为风险从客户转到了AI公司自己身上——模型没搞定问题，就不产生收入。但正文因为微信环境验证没加载出来，关键信息全是缺口：Sierra的“成功解决”怎么定义，是客户说“谢谢”就算，还是问题真的被处理完了？灵犀的盈利是靠什么业务撑起来的，客单价和成本结构完全没披露。估值150亿美金听着吓人，但没看到收入规模、续费率这些硬指标，我会先打个折。还缺一个对比：按结果收费到底比传统客服外包便宜多少，或者比纯卖API的AI公司毛利差多少。没有这些数字，只能说方向有意思，但账算不算得过来还看不清楚。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

30d ago

FEATURED机器之心 · 公众号· rssZH04:00 · 05·19

Sebastian Raschka 梳理了 Gemma 4 到 DeepSeek V4 的架构变化，重点在省显存和长上下文

这篇文章是机器之心翻译的 Sebastian Raschka 博客，盘点了几款新模型的架构改动，核心都在想办法降低长上下文的显存开销。Gemma 4 的 E2B 方案在 128K 上下文、bfloat16 精度下，KV 缓存能省大约 2.7GB，这个数字挺实在的。另外还提到了 Laguna XS.2 和 ZAYA1-8B，但正文因为微信环境验证拦截，具...

#Inference-opt#Memory#Code#Jiqizhixin

精选理由

这是一篇编译的架构趋势梳理，不是一手发布，但信息密度不错。我会先打个折，不往 breaking 级别推。HKR 三档都站得住：标题有明确的模型名钩子，正文有可引用的 KV Cache 节省数字，话题本身也直接关系到推理成本和部署预算。整体放在 featured 中段比较合适，既不过度拔高，也不低估它对从业者的参考价值。

一句话点评

Sebastian Raschka 的博客盘点了几款新模型的架构改动，核心都在省长上下文的显存。Gemma 4 的 E2B 方案在 128K 上下文下 KV 缓存能省约 2.7GB，这个数字挺实在。

锐评

这篇机器之心翻译的博客，核心价值在于把近期几个模型在长上下文推理上的省钱方案串了起来。Gemma 4 的 E2B 方案是亮点，在 128K 上下文、bfloat16 精度下，KV 缓存能省大约 2.7GB，这个数字直接说明了显存压力能降多少，不是那种“大幅降低”的空话。另外还提到了 Laguna XS.2 和 ZAYA1-8B，但正文因为微信环境验证拦截，具体技术细节和对比数据没披露，这点比较可惜。我会先打个折：这篇是二手翻译加盘点，不是一手论文，所有判断都基于 Raschka 的解读。如果你真要在项目里用这些方案，建议直接翻原论文看精度损失和实际推理延迟，博客里没给这些。另外，这些优化主要针对长上下文场景，短文本推理的收益可能没那么明显，别看到“省 2.7GB”就无脑上。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:01

30d ago

FEATUREDAI HOT 精选· aihot-apiZH03:01 · 05·19

Qwen3.7预览版上线竞技场，阿里视觉排名冲到第五

阿里云在 X 上官宣 Qwen3.7-Plus-Preview 已经挂上竞技场，同时提到自家在视觉榜单上排到第五。帖子没给具体跑分、参评模型数量，也没说 Qwen3.7 系列什么时候正式发，只说“迫不及待要发布”。我会先打个折：排名第五听着不错，但不知道跟谁比、怎么比，这点先别太激动。

#Vision#Multimodal#Benchmarking#Alibaba

精选理由

Qwen3.7-Plus-Preview 上了 Arena 并拿到视觉第五，我会先打个折——正文没披露具体分数、同期参评模型有多少、也没说什么时候正式发布。排名能说明模型在视觉任务上有竞争力，但信息缺口不小，分数暂时放在 featured 低位。

一句话点评

阿里在 X 上官宣 Qwen3.7-Plus-Preview 上了竞技场，视觉排第五。但没给跑分、没列对手、没提发布时间，这条更像预告片，先别急着当真。

锐评

阿里云这条官宣信息量很薄，核心就两件事：Qwen3.7-Plus-Preview 已经挂上竞技场，以及阿里在视觉榜单上排到第五。帖子没披露具体跑分、参评模型数量、评测维度，也没说 Qwen3.7 系列什么时候正式发布，只用了“迫不及待”这种情绪化表达。排名第五听着不错，但不知道跟谁比、怎么比——是跟开源模型比还是跟闭源模型比，是综合视觉能力还是某个子任务，这些关键信息全缺。竞技场排名本身波动大，单次第五说明不了太多，得看稳定性和后续更新。另外，预览版和正式版之间通常还有差距，现在下判断太早。我会先打个折：这条更像预热，真正值得关注的是正式发布时有没有配套的技术报告、基准测试和开放权重。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:18

31d ago

● P1FT · 科技· rssEN02:18 · 05·19

Google 与 Blackstone 携手创建 AI 云公司并自研芯片

FT 这篇报道的正文被安全验证页挡住了，只从现有摘要能看出：一家黑石投资的 AI 云厂商拿到了 50 亿美元投资，计划明年上线 500 兆瓦的数据中心容量。标题里提到 Google 在推芯片，但正文没披露用的是 TPU 还是自研 Arm 芯片、以什么形式合作——是租算力、联合部署还是单纯采购。这点先别太激动，等看到全文再判断。

#Inference-opt#Google#Blackstone#Funding

精选理由

我会先打个折：Google 芯片到底怎么合作、分多少钱，正文没披露，这点先别太激动。但 Blackstone 支持的 AI 云集团拿到 50 亿美元投资，明年要上 500MW 数据中心容量，规模不小。对 AI 从业者来说，这背后是算力成本压力和找 NVIDIA 替代方案的现实需求，所以值得放进 featured。

一句话点评

Google 拉上黑石搞了个新 AI 云公司，起步就砸 50 亿美元，还打算用自己的芯片，摆明了要绕开英伟达。

锐评

Google 和黑石要合伙成立一家独立的 AI 云公司，专门卖搭载 Google 自研 TPU 芯片的算力服务。这事的核心逻辑是：Google 不想只当芯片的消费者，它想把自己设计的 TPU 变成一种可以对外出租的“基础设施”，直接跟英伟达的 GPU 云抢生意。起步资金 50 亿美元，目标是在 2027 年把数据中心规模干到 500 兆瓦，这个数字说明他们不是小打小闹，是奔着大规模商用去的。不过，目前的消息主要来自《华尔街日报》的爆料，Google 和黑石官方都还没正式官宣，所以具体的股权结构、公司名字、运营团队都还是未知数。另外，TPU 虽然在某些 AI 任务上效率很高，但开发者生态跟英伟达的 CUDA 比还差得远，客户愿不愿意为了成本优势切换平台，是最大的不确定性。如果后续有具体的客户签约名单和 TPU 性能对比数据，这个故事的含金量会更高。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:02

31d ago

FEATUREDFT · 科技· rssEN02:02 · 05·19

渣打银行因加大 AI 应用将裁员近 8000 人

渣打银行宣布要裁掉将近 8000 个岗位，理由是 AI 用得越来越多。CEO Bill Winters 为这家聚焦亚洲的银行搞了新战略，但报道正文被付费墙挡住了，具体裁哪些部门、哪些地区、什么时候开始裁，这些关键信息都没披露。

#Standard Chartered#Bill Winters#Personnel

精选理由

FT 信源和近 8000 人的数字本身够上 featured 门槛。H 来自银行把裁员归因于 AI 的叙事钩子，K 来自裁员规模，R 来自岗位安全压力。但岗位、地区和时间表全部缺失，信息缺口明显，所以停在 76 分。

一句话点评

渣打银行宣布要裁近8000人，理由是AI用得越来越多。但报道正文被付费墙挡了，裁哪些部门、在哪些地区、分几年裁完，一概没写。这个数字先别急着当真。

锐评

渣打银行CEO Bill Winters把裁员和AI挂钩，听起来像是一个战略转向的信号，但FT这篇报道的正文完全在付费墙后面，我们只能看到标题和摘要。近8000个岗位不是小数目，如果属实，说明银行在后台、合规或客服这类重复性高的岗位上，可能已经跑通了用模型替代人的流程。不过，关键信息全是缺口：没写裁员集中在哪些地区（渣打业务重心在亚洲，但亚洲和欧美的劳动法差异很大），没写时间表（是一年内裁完还是分三五年），也没写省下的钱打算怎么再投入。这些直接决定了这轮裁员是AI真能干活了，还是借AI名头做常规成本优化。另外，银行用AI不是新鲜事，但大规模裁员的落地案例还很少。如果后续有具体部门和时间表出来，才值得认真看。现在这个标题，更像一个还没填上细节的预告。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:32

31d ago

FEATUREDAI HOT 精选· aihot-apiZH01:32 · 05·19

奥德赛实验室放出 Agora-1，一个能让多人和 AI 在同一画面里实时互动的世界模型

奥德赛实验室（Odyssey Labs）发了一个叫 Agora-1 的实时多 agent 世界模型，拿《黄金眼》死亡竞赛做了个演示：多个真人和 AI agent 在同一个模拟场景里跑动、射击、互相影响。现在放出了可玩的研究预览版，你可以直接上手试。正文把它说成是“首个实时多 agent 世界模型”，但没公布模型架构、参数量、延迟数据，也没说训练用了多少...

#Agent#Odyssey Labs#Agora-1#GoldenEye

精选理由

Agora-1 把多 agent 世界模型和真人同屏互动打包成一个可玩的预览，HKR 三项都踩中了。正文没写架构细节、延迟、成本和基准测试，所以分数压在 78–84 这个区间。

一句话点评

说是首个实时多agent世界模型，但没公布架构、参数量、延迟，也没说训练数据，先当个酷炫demo看。

锐评

奥德赛实验室放出了Agora-1，用《黄金眼》死亡竞赛做了个演示：多个真人和AI agent在同一个场景里跑动、射击、互相影响。现在有可玩的研究预览版，你可以直接上手试。这条消息最值得关注的点是“多agent实时同屏互动”，不是之前那种单人看AI生成视频的模式，而是多人共享一个会动态变化的模拟世界。但正文没披露任何技术细节。模型架构、参数量、推理延迟、训练数据来源、是否依赖游戏引擎辅助生成，这些全都没说。没有这些数字，就没法判断它到底是端到端的世界模型，还是套了层AI皮的规则引擎。演示场景是《黄金眼》死亡竞赛，场景相对封闭、规则明确，泛化到开放世界或非游戏场景的能力完全未知。我会先打个折：这更像一个研究原型，离“重塑游戏、模拟、教育”还差着好几步。想验证的话，得看它能不能跑非射击类场景、agent行为是否真的由模型驱动而非脚本、以及多人在线时的延迟和一致性表现。这些信息目前都缺。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

31d ago

FEATUREDComputing Life · Share · 鸭哥调研· rssZH00:00 · 05·19

代码都开源了，AI 巨头为什么还要花几亿美金去买这些公司

Anthropic 半年内连买四家公司：Bun、Vercept、Coefficient Bio 和 Stainless，OpenAI 则拿下了 Astral 和 Promptfoo。这些被收购的产品几乎全是开源的，MIT 或 Apache 2.0 许可证，理论上谁都能免费 fork 一份自己维护。但文章指出，fork 只能拿到代码，拿不到原团队对复杂内...

#Tools#Anthropic#OpenAI#Astral

精选理由

我会先打个折：正文没披露价格和条款，所以没法判断这几亿花得值不值。但文章抓的点很准——开源不等于免费获取控制权，大厂买的是维护者、路线图和社区信任，这些 fork 一份代码拿不到。对从业者来说，这比单纯报收购名单更有信息量，只是缺硬数字支撑，所以放在 featured 偏低的位置。

一句话点评

开源代码能 fork，但原团队的脑子、路线图决策权和阻止竞对截胡的能力 fork 不了，这就是几亿账单的正当性。

锐评

这篇文章把 Anthropic 和 OpenAI 近期的收购串成了一条清晰的逻辑线：买的不只是代码，是隐性知识、供应链安全和路线图控制权。Bun、Stainless、Astral 三个案例反复验证同一个判断——MIT 许可证给了你 fork 的自由，但没给你原团队对每一行代码的理解，也没法阻止竞对把上游买走。Stainless 的收购尤其狠，它同时服务 Anthropic 和它的所有主要竞对，收购后托管产品关闭，OpenAI 和 Google 直接失去了自动 SDK 同步能力。Forbes 管这叫“基础设施阻断”，但文章点出了更关键的一层：竞对截胡的风险只有在收购发生时才会暴露，fork 根本防不住。文章没披露具体交易条款和各家自研替代方案的成本对比，也没说这些被收购团队后续的独立性如何。Bun 的 100 万行 Rust 重写四天合并听起来很猛，但实际稳定性和性能提升还需要时间验证。另外，a16z 和 Sequoia 同时出现在买卖双方背后，资本在主动促成整合，这点值得多想一层——这些工具公司本来有没有独立生存的可能，文章没展开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-05-19

更多

频道

后台