热点聚合 · 2026-06-17

▸ 26 signals · updated 3m ago

live · 238 today·policy v2

AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选Sumi：从头训练的 7B 开源均匀扩散语言模型78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选Sumi：从头训练的 7B 开源均匀扩散语言模型78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选Sumi：从头训练的 7B 开源均匀扩散语言模型78·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

126 212 320 419 542 632 749 826 923 1017 1136 1248 1337 1454 1539 1630 1719 1849 1976 2045 2148 2249 2313 2415 2520 2637 2744 2848 2935 3022 3114

2026年6月

一二三四五六日

147 258 348 447 545 619 715 852 945 1031 1128 1221 1313 1415 1524 1635 1726 1823 192021222324252627282930

2026-06-17 · 星期三2026年6月17日

22:30

1d ago

持续报道 · 1dFEATURED彭博科技· rssEN22:30 · 06·17

微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子

微软通过 Azure 云把 OpenAI 的模型卖给中国公司，绕开了 OpenAI 自己对中国市场的封锁。过去一年这条线的收入涨得很快，但彭博没披露具体金额，所以基数可能不大。已知的客户包括字节跳动、小米和蔚来。增长是真的，但出口管制随时可能收紧，这笔生意的风险还在。

#Microsoft#OpenAI#ByteDance

精选理由

彭博独家，微软用 Azure 把 OpenAI 模型卖给中国公司，字节、小米、蔚来都实锤在用了。收入增长是真的，但没披露金额，所以我会先打个折——基数可能不大，别急着喊“大生意”。标题自带冲突，信息有实锤也有缺口，适合放 featured。

一句话点评

微软靠卖 OpenAI 模型在中国赚到了钱，客户包括字节和小米，但彭博没给具体收入数字，基数可能很小，而且出口管制这把刀随时会落下来。

锐评

微软通过 Azure 云把 OpenAI 的模型卖给中国公司，绕开了 OpenAI 自己对中国市场的封锁。过去一年这条线的收入增长很快，字节跳动、小米和蔚来都是客户。这相当于微软在 OpenAI 无法直接进入的市场里当起了经销商，赚的是转售和云服务的钱。但这条新闻最大的信息缺口是钱。彭博只说了“增长很快”，没披露具体金额。如果基数很小，翻几倍也不代表什么。另外，美国对华芯片和 AI 出口管制一直在收紧，微软这笔生意随时可能被叫停。正文也没提这些中国客户用 OpenAI 模型具体做什么业务，是内部提效还是对外产品，这决定了需求的稳定性。如果是真的跑通了规模化收费，说明中国公司对海外头部模型的需求比想象中硬。但先别太激动，等看到具体营收数字和管制政策走向再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:31

1d ago

持续报道 · 2d● P1Hacker News 首页· rssEN21:31 · 06·17

OpenAI 2025年财务披露：收入130亿美元但运营亏损209亿

一份据称是 OpenAI 经审计的财务文件被记者 Ed Zitron 拿到并公开。文件显示，OpenAI 2025 年收入 130.7 亿美元，比 2024 年的 37 亿涨了不少，但研发开支就烧掉 191.8 亿，其中 105.9 亿直接付给了微软。加上 75 亿的交付成本和 57.3 亿的销售市场费用，全年运营亏损达到 209.2 亿。净亏损数字看...

#OpenAI#Microsoft#Ed Zitron

精选理由

泄露的审计文件把 OpenAI 的真实家底摊开了：2025 年收入 130.7 亿，但运营亏损 209.2 亿，研发开支里 105.9 亿进了微软口袋。这是行业等了很久的财务透明时刻，戏剧性、信息量和讨论度全拉满。重要性给 88 没问题，tier 选 featured 也合理，因为这不是分析师猜测，是据称审计过的数字。

一句话点评

OpenAI去年亏了385亿美元，收入涨了但烧钱更快，主要都砸在算力上了。

锐评

这份泄露的审计文件把OpenAI的家底摊开了：2025年收入130.7亿美元，但总成本高达340亿，净亏385亿。钱主要烧在研发上，花了191.8亿，其中光付给微软的算力和训练费就超过106亿。收入涨了近四倍，亏损却扩大了近八倍，说明模型越做越大，成本增速远超赚钱速度。文件还提到，2025年OpenAI从非营利转营利实体，导致账面多出415.5亿的“公允价值变动”损失，这是会计处理带来的数字，不是现金真的流出。剔除这部分和少数股东权益后，归到公司头上的净亏是385亿。年底公司账上还有约500亿资产，近一半是现金，短期不会断粮。不过，正文没披露用户量、付费转化率和客单价，也没说这340亿花出去换来了多少模型能力提升。光看亏损数字很吓人，但如果没有收入质量和增长天花板的判断，很难说这是烧钱换未来，还是单纯的成本失控。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

21:13

1d ago

FEATUREDAI HOT 精选· aihot-apiZH21:13 · 06·17

Google 提出三种架构模式，让 A2UI 的声明式原生渲染和 MCP Apps 的 iframe 自定义界面能搭配干活

Google 开发者博客分享了三种把 A2UI 和 MCP Apps 结合起来的架构思路。核心逻辑是：标准组件用 A2UI 的 JSON 描述，交给宿主应用原生渲染，避免视觉割裂和性能损耗；只有复杂自定义逻辑才放进 iframe。模式一让 MCP 服务器直接返回 A2UI 的 JSON 数据，完全绕过 iframe，文章用一个食谱应用演示了两个面板都靠...

#Google#A2UI#MCP Apps

精选理由

Google 官方博客发了一篇 A2UI 和 MCP Apps 的集成指南，给出了三种架构模式，对做 agent 产品的人直接有用。H 和 K 都打中了——方案有实操性，边界清晰；R 没中，因为这不是身份类内容，传播面会窄一些。单源博客，重要性给 72、放 featured 是合理的。

一句话点评

Google 把 A2UI 和 MCP Apps 的三种混用模式公开了，核心就一句：标准界面用 JSON 描述让宿主原生渲染，复杂自定义才塞进 iframe，省性能也避免视觉割裂。

锐评

这篇博客讲的是怎么把两种让 AI 生成界面的方案拼在一起用。A2UI 走的是声明式路线，发一段 JSON 描述界面结构，宿主应用用自己的原生组件渲染出来，好处是性能好、风格统一、安全性也更高。MCP Apps 则是在 iframe 里跑自定义网页，灵活但容易造成视觉割裂和性能损耗。文章给了三种架构模式，但正文只详细展开了第一种：让 MCP 服务器直接返回 A2UI 的 JSON 数据，完全绕过 iframe。他们用食谱应用做了演示，两个面板都由 A2UI 渲染，数据从 MCP 服务器拉取。另外两种模式只提了名字，没给细节和代码，这点比较遗憾。团队说在考虑做一个 MCP 扩展来降低接入门槛，目前在 GitHub 上收集反馈。如果这个扩展真落地，对想给 AI 应用加动态界面又不想被 iframe 拖累的开发者会挺实用。但现阶段信息不全，后两种模式到底怎么跑、有什么坑，正文没披露，先别急着全盘照搬。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

21:00

1d ago

FEATUREDHacker News 首页· rssEN21:00 · 06·17

OpenRouter 让 11 个大模型打了 30 场吃鸡赛，Grok 4.1 Fast 赢了 43%，成本只有 Claude 的 1/27

OpenRouter 的 Jacky Liang 把 11 个模型扔进一个 2D 吃鸡游戏里打了 30 局。Grok 4.1 Fast 赢了 13 局，每赢一局成本 0.97 美元；Claude Sonnet 4.6 赢了 5 局，每赢一局要 26.78 美元，差了 27 倍。GPT 5.4 杀了 38 个人头，全场最高，但只赢了 2 局——杀得多不等...

#Agent#Reasoning#OpenRouter#Anthropic

精选理由

OpenRouter 官方博客，作者 Jacky Liang 自己跑了 30 局并公开了完整数据和回放。Grok 4.1 Fast 的成本优势很扎眼，Claude Sonnet 4.6 贵但表现稳定，GPT 5.4 人头最多却赢不了——三个发现都有具体数字支撑，可复现、可验证。对正在选模型搭 agent 的人来说，这种实战对比比跑分表有用。

一句话点评

Grok 4.1 Fast 在 30 局 2D 吃鸡里赢了 13 局，每赢一局成本 0.97 美元；Claude Sonnet 4.6 赢一局要 26.78 美元，贵了 27 倍。GPT 5.4 人头最多但只赢 2 局，杀得多不等于活得久。

锐评

OpenRouter 的 Jacky Liang 把 11 个模型扔进一个 2D 吃鸡游戏打了 30 局，让它们每回合自己推理、调用工具、更新记忆，不是只生成控制代码。结果最亮眼的是成本差：Grok 4.1 Fast 赢下 13 局，每局成本不到 1 美元；Claude Sonnet 4.6 赢了 5 局，每局成本却要 26.78 美元，差了 27 倍。GPT 5.4 拿了全场最高的 38 个人头，但只赢了 2 局，说明在这个环境里，攻击性强不等于生存策略好。另外，GPT 5.4-mini、DeepSeek 4 Flash 和 Kimi K2.6 三个模型加起来花了 57 美元，一局没赢。这个实验有意思的地方在于它测的不是刷榜能力，而是模型在持续决策、资源管理和风险评估上的综合表现。Claude Sonnet 4.6 在游戏里频繁尝试结盟、暴露位置，这种“社交倾向”在真实业务场景里可能是优点，但在吃鸡规则下就是送人头。不过正文没给出完整的排行榜和所有模型的行为差异细节，30 局的样本量也不算大，所以成本对比虽然扎眼，但别直接当成选模型的唯一依据。还缺的是：不同随机种子下的稳定性、模型在更复杂任务里的表现是否和这个结果一致。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:22

1d ago

FEATUREDHacker News 首页· rssEN19:22 · 06·17

Anthropic 派黑客 Nicholas Carlini 给美国政府演示怎么攻破自家模型，好让监管放心

WSJ 报道，Anthropic 让安全研究员 Nicholas Carlini 去给美国政府官员现场演示越狱和模型攻击，想证明他们能管住 AI 的安全风险。Carlini 之前在 Google Brain，专门研究对抗样本和模型攻击。报道没说他具体展示了哪些攻击手法，也没提政府那边看完是什么反应。

#Anthropic#Nicholas Carlini#US government

精选理由

WSJ 独家，讲 Anthropic 让安全研究员 Nicholas Carlini 去给美国政府现场演示越狱和模型攻击，想用这种方式证明自己能管住安全风险。我会先打个折：报道没说他到底演示了什么攻击，也没写政府那边看完是更放心还是更紧张，所以信息量其实有限。但选题本身有张力——派黑客去安抚监管，这个叙事角度在当下的 AI 安全讨论里挺少见，从业者会愿意点开看一眼。

一句话点评

Anthropic 派安全研究员去给政府演示怎么攻破自家模型，想证明自己能管住安全，但报道没说他到底展示了什么，政府看完也没表态。

锐评

这条消息的核心动作很直接：Anthropic 让 Nicholas Carlini 去给美国政府官员现场演示越狱和模型攻击。Carlini 之前在 Google Brain 专门研究对抗样本，属于业内顶尖的攻击者视角。派他去，相当于对政府说“你看，最懂怎么搞破坏的人在我们这儿，所以我们知道怎么防”。但 WSJ 这篇报道目前只有 RSS 摘要，正文没披露他具体展示了哪些攻击手法，也没提政府官员看完演示后的反应或后续动作。这就让整件事的实质效果打了个问号——演示本身不等于安全承诺，政府是否买账、有没有提出新的监管要求，这些关键信息都缺失。对从业者来说，这条值得关注的点在于：头部 AI 公司开始用“以攻促防”的方式做政府关系，而不是只交白皮书。但别急着下结论，等看到具体攻击案例和政府反馈再说。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:17

1d ago

FEATUREDAI HOT 精选· aihot-apiZH19:17 · 06·17

Anthropic 推出 Claude Design 设计工具，支持跨项目品牌一致和画布编辑

Anthropic 在 Claude 里塞了个叫 Claude Design 的设计功能。它主要干三件事：跨项目自动保持品牌视觉一致，不用来回对色卡和字体；支持在画布上直接编辑，不用导出到别的软件；还能跟 Claude Code 同步，但正文没解释同步具体是怎么实现的、支持哪些第三方工具，也没说什么时候正式上线。如果是真的，对需要频繁出设计稿又不想在工...

#Code#Anthropic#Claude

精选理由

Anthropic 把设计功能直接塞进 Claude，跨项目品牌统一和画布编辑这两个点打的是真实工作流里的痛点，不是纯 demo。但正文对 Code 同步的实现方式、第三方工具支持和上线时间只字未提，信息缺口让这条消息停在值得关注但还不能全信的级别。

一句话点评

Anthropic 给 Claude Design 加了品牌一致性功能，能跨项目复用设计规范，还和 Claude Code 打通了。但官方博客没给出实际案例和对比数据，效果先打七折。

锐评

Claude Design 这次更新主要解决两个痛点：一是跨项目保持品牌视觉统一，相当于你设定一套设计规范后，不同项目都能自动套用，不用每次都手动调；二是新增画布编辑，并且能和 Claude Code 协同——设计师在画布上改，开发那边代码能同步更新。从官方博客看，这更像一次功能补齐而非颠覆性升级。正文没披露具体支持哪些设计系统格式、画布编辑的精度如何、与 Claude Code 同步的延迟是多少。也没给出企业客户的实际使用数据，比如品牌一致性节省了多少返工时间。对团队来说，如果已经在用 Claude 全家桶，这个整合确实能减少设计到代码的摩擦。但如果你用的是 Figma 这类成熟工具，Claude Design 的差异化在哪，博客没说清楚。建议等第三方评测或实际上手后再判断是否值得切过去。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:01

1d ago

持续报道 · 1dFEATUREDTechCrunch AI· rssEN19:01 · 06·17

各国想要美国 AI，但不想让美国能随时关掉它

G7 峰会上，马克龙和莫迪直接对美国 AI 公司老板和特朗普挑明了担忧：美国模型确实强，但如果美国哪天突然切断访问，依赖这些模型的国家关键基础设施就会瘫痪。这个恐惧不是凭空来的——最近 Anthropic 一次宕机就让欧洲用户完全用不了 Claude。马克龙在午餐会上说得很直白，没有哪个国家敢把命脉接在一个美国能单方面拉闸的模型上。文章没给出具体政策方...

#Emmanuel Macron#Narendra Modi#Anthropic

精选理由

马克龙和莫迪在 G7 上直接对美国 AI 公司老板和特朗普挑明了这个担忧，不是空穴来风，而是有 Anthropic 宕机事件做引子。文章把“模型强但开关在别人手里”这个恐惧讲得很清楚，对从业者来说是个真实的供应链风险提醒。缺点也很明显：只描述了现象，没给出任何政策或技术上的解法，读完知道问题严重，但不知道下一步该怎么办。

一句话点评

G7 峰会上马克龙和莫迪直接对美国 AI 公司老板挑明了：模型是好，但美国能单方面拉闸，没人敢把命脉接在这种模型上。这个恐惧不是凭空来的——最近 Anthropic 一次宕机就让欧洲用户完全用不了 Claude。

锐评

这条新闻抓到了一个很现实的矛盾：美国 AI 模型性能最强，但依赖它等于把主权交出去。马克龙在午餐会上对 Anthropic 的老板和特朗普说得很直白，没有哪个国家敢把关键基础设施接在一个美国能随时切断的模型上。这个担忧被最近 Anthropic 宕机事件坐实了——欧洲用户直接无法访问 Claude，连个缓冲都没有。文章没给出具体政策方案，也没披露各国打算怎么应对，比如是不是要强制本地部署、推开源模型替代，或者要求美国公司签服务保障协议。这些才是接下来值得盯的落地动作。另外，特朗普在现场怎么回应的也没写，这直接关系到美国会不会在出口管制或服务条款上让步。对从业者来说，这条信号很明确：如果你的产品要卖给海外政府或关键行业客户，只提供云端 API 访问会越来越难通过合规审查。本地部署、混合架构、甚至开源方案的需求会加速。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:00

1d ago

持续报道 · 1dFEATUREDTechCrunch AI· rssEN18:00 · 06·17

NEA合伙人谈企业AI投资回报与个人代理前景

今年初硅谷还在疯“Tokenmaxxing”——CEO 们让员工把 AI 用到极限，结果账单很快来了：Uber 几个月就烧完了全年 AI 预算，有公司砍掉了部分部门的 Claude 授权，Meta 也关掉了内部用量排行榜。NEA 合伙人 Tiffany Luck 在播客里聊的就是这股从狂热到算账的转向。她说企业现在不再绑定单一模型供应商，而是混搭着用；...

#NEA#Tiffany Luck#Uber

精选理由

这篇抓住了硅谷从“先用再说”到“看账单再决定”的转向，例子具体、信号清晰，H 和 K 都站得住。但播客形式决定了它偏观察、少操作细节，R 偏弱，整体放在 72 分合理，离必读还差一口气。

一句话点评

企业砸钱让员工狂用AI，结果Uber几个月烧光全年预算，现在VC开始认真问：钱花得值不值。

锐评

NEA合伙人Tiffany Luck在播客里聊了一个很实在的问题：企业AI的账到底怎么算。今年初硅谷流行“tokenmaxxing”，就是让员工把AI用到极致，但很快账单就来了——Uber几个月花完全年AI预算，有公司开始砍Claude的授权，Meta也关掉了内部用量排行榜。这说明企业从“先用起来再说”进入了“算清楚回报”的阶段。 Luck提到一个有意思的现象：企业现在不绑死一家模型厂商，而是混着用，哪家便宜好用切哪家。她还看好“派驻工程师”模式，让懂业务的人直接进客户现场落地AI，像特洛伊木马一样把产品带进去。对于个人AI代理，她认为消费端会出现“魔法时刻”，但正文没给出具体时间表或案例。整篇是播客摘要，缺少具体数字支撑——比如Uber到底花了多少、砍授权省了多少、企业ROI怎么量化都没展开。这些缺口让判断只能停在趋势层面，没法验证她说的“价值在每一层都在产生”到底有多厚。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

17:20

1d ago

持续报道 · 1dFEATUREDThe Verge · AI· rssEN17:20 · 06·17

皮尤民调：三分之二美国人认为 AI 发展速度过快

皮尤研究中心最新调查显示，美国人对 AI 的担忧在上升——三分之二的受访者认为 AI 发展速度过快。同时，聊天机器人的使用率也在涨，但用户一边用一边不放心。正文没披露样本量、调查时间和人口统计细分，所以这个比例能代表多大范围的人群还不好说。

#Pew Research Center#The Verge

精选理由

皮尤研究中心有机构信誉，但正文只披露了一个百分比，没有样本量、调查日期或人口统计细分——信息太薄，不值得重点推荐。HKR 全部偏弱：标题有钩子但正文没展开；K 缺少方法论细节；R 有话题共鸣但被信息缺口拖累。

一句话点评

皮尤最新民调：63%美国人觉得AI跑太快了，但用ChatGPT的人反而翻了一倍，嘴上说不要身体很诚实。

锐评

皮尤研究中心6月17日发布的这份民调，最扎眼的数据是63%的美国人认为AI发展速度过快，比去年又高了几个点。但同一份报告里，ChatGPT的使用率从去年到今年直接翻了一番。这说明公众的焦虑和实际行为是割裂的：一边担心失控，一边自己先用上了。报道没给出样本量和误差范围，这点得打个折。另外，民调只问了“快不快”，没追问具体怕什么——是怕丢工作、怕假信息泛滥，还是单纯对技术陌生。这些缺口让“三分之二”这个数字听起来很唬人，但实际能指导政策的价值有限。如果是真的，这组数据对AI公司是个信号：用户增长不一定等于信任增长。产品铺得越快，公众的警惕性可能越高，后续监管压力只会更大。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

17:11

1d ago

持续报道 · 1d● P1FT · 科技· rssEN17:11 · 06·17

Anthropic CEO在G7呼吁建立统一的全球AI监管框架

Anthropic 的 CEO 在 G7 会议上呼吁各国不要各自为政搞 AI 监管。他的理由是：规则不统一会拖慢安全研究，企业也得应付一堆互相打架的标准。正文没披露他具体提了什么统一方案，也没说点名批评了哪个国家的政策。

#Anthropic#G7#Policy

精选理由

Anthropic CEO在G7会议上呼吁各国别搞分裂式AI监管——话题有共鸣，但全文付费墙，零具体细节。太薄，不值得上推荐位。

一句话点评

两家头部AI公司CEO在G7会上提议建排华联盟，正文被Reddit屏蔽，具体提案细节没看到。

锐评

这条消息本身值得关注，但信息缺口很大。Anthropic和DeepMind的CEO在G7会议上提议建一个美国主导的AI联盟，明确要把中国排除在外。这基本是把AI竞争从商业层面直接拉到地缘政治层面，等于公开要求G7国家在AI基础设施、人才、标准上搞一个“朋友圈”，不带中国玩。但具体怎么操作，正文没披露。Reddit原帖被网络策略拦截，我们只看到标题和一张图，没有提案原文，也没有会议纪要。所以不知道这个联盟是管芯片出口、模型开源、还是人才流动，也不知道G7其他国家的反应。如果是真的，这比单家公司禁售影响更大，等于在制度层面划阵营。但先别太激动，CEO提议和实际落地差很远，G7内部利益也不一致。后续得看有没有官方声明或会议记录流出来，才能判断这是真动作还是表态。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

16:14

1d ago

FEATUREDHacker News 首页· rssEN16:14 · 06·17

Adam 开源了 CADAM，一个用自然语言直接生成可编辑 CAD 模型的网页工具

YC W25 的创业公司 Adam 把他们的文字生成 CAD 工具 CADAM 开源了，仓库已经拿到 4.1k 星和 543 个 fork。简单说，你打字描述想要什么零件或结构，它就在网页里给你生成一个能编辑的三维模型，把学 CAD 软件的门槛从“啃操作手册”降到了“说人话”。不过 README 里没写底层用的是什么模型、支持导出哪些 CAD 格式，也...

#Adam (YC W25)#CADAM

精选理由

YC W25、开源、4.1k 星——文字转 CAD 这个切入点挺新鲜。但 README 缺了模型细节和导出格式，知识密度上不去，刚好卡在 featured 门槛上。

一句话点评

YC 孵化的 Adam 把文字生成 CAD 开源了，4.1k 星说明大家确实想绕开操作手册直接说人话建模，但正文没披露模型和精度，先当早期方向看。

锐评

Adam 是 YC W25 的项目，这次开源的是 CADAM，一个在网页里用自然语言生成可编辑三维模型的工具。仓库已经拿到 4.1k 星和 543 个 fork，热度不低，说明“打字出模型”这个方向确实戳中了很多人的痛点——传统 CAD 软件学习曲线太陡，能把门槛降到描述需求就能出图，对非专业用户吸引力很大。但 README 里关键信息缺得比较多：没写底层用的是什么模型、支持导出哪些 CAD 格式，也没有精度或可用性方面的基准测试。这意味着你现在很难判断它生成的模型到底能不能直接进生产流程，还是只适合快速出个概念草图。另外，开源仓库本身没提训练数据来源和模型规模，如果是靠大模型 API 做推理，那实际使用成本和延迟也得打个问号。整体看，这是一个方向清晰但验证还薄的开源工具。值得关注的是它把“说人话建模”这条路跑通了 demo，但离“能用的 CAD 替代品”还差模型细节、格式兼容性和精度数据这三块拼图。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

16:08

1d ago

FEATUREDAI HOT 精选· aihot-apiZH16:08 · 06·17

谷歌发布 ARD 开放规范，让 AI 智能体跨公司找工具、验身份

谷歌和一批行业伙伴搞了个叫 ARD（Agentic Resource Discovery）的开放规范，专门解决一个实际问题：当你的 AI 智能体需要调用外部工具、技能或别的智能体时，怎么知道该找谁、信得过、连得上。现在各家平台都有自己的小本本，跨公司就抓瞎了。ARD 的思路是，每家公司在自家域名下挂一个公开的“能力目录”，然后由搜索引擎一样的“注册中心...

#Google#Google Cloud#Gemini Enterprise Agent Platform

精选理由

谷歌推的是一个 agent 互操作规范，有具体机制，不是空谈概念。但这是规范发布，不是产品上线，离真正普及还远，所以分数压在 78。正文没列出具体合作伙伴名字，生态支持力度还不明朗，这点先别太激动。

一句话点评

谷歌推了个叫ARD的开放规范，让AI智能体跨公司找工具时能先验明正身再直连，但正文没给定价和正式上线时间。

锐评

这条新闻的核心是谷歌想给AI智能体建一套“跨公司黄页”。现在各家平台都有自己的工具目录，但出了自家地盘就抓瞎。ARD的思路很直接：每家公司在自家域名下挂一个公开的“能力目录”，然后由类似搜索引擎的注册中心去爬取、索引，智能体用自然语言一搜就能找到可用的工具或别的智能体，拿到信任凭证后再点对点直连。这个设计把身份验证绑在域名所有权上，比另搞一套证书体系轻量。谷歌云已经在Gemini企业智能体平台里内置了Agent Registry，支持命名空间和出口策略，说明不是纯纸上谈兵。但文章没披露这套注册中心是谷歌自己运营还是允许第三方建，也没说爬取频率、目录格式的强制程度，以及最关键的成本——企业挂目录免费，但注册中心的查询调用怎么收费完全没提。对从业者来说，如果ARD真能推成行业共识，跨组织的智能体协作会省掉大量手工对接的脏活。但这点先别太激动，规范刚发布，合作伙伴名单里没看到几家大云厂商之外的重量级玩家，生态冷启动是个硬坎。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:29

1d ago

FEATUREDHacker News 首页· rssEN15:29 · 06·17

Greptile 推出 TREX：一个会真跑代码的 AI 审查员

Greptile 给代码审查加了一层执行能力，不只是看代码改动，而是把代码跑起来、截图、抓运行时 bug。TREX 不是独立产品，而是主审查员手下的子代理，共享上下文、并行干活，不用重复扫代码库。他们踩过坑：独立代理生成的测试跟用户需求不沾边，合并成一个代理又因为要管启动服务、截图、跑测试这些事导致上下文过载。现在的方案是让主审查代理当调度员，针对每个...

#Greptile#Shlok Mehrotra

精选理由

Greptile 给 AI 代码审查加了个执行层，不是光看代码改动，而是真跑代码、截图、抓运行时问题。文章把踩坑过程摊开来讲——独立代理写的测试跟需求脱节，合并成一个代理又因为要管启动服务、截图、跑测试这些事导致上下文过载，最后让主审查代理当调度员、子代理并行干活才跑通。架构教训实在，但受众窄，所以 H 和 K 都站得住，R 就弱一些。

一句话点评

Greptile 让 AI 审查代码时不止看 diff，还直接跑代码、截图抓运行时 bug，但正文没给准确率或误报率，效果先打七折。

锐评

Greptile 这篇讲的是他们给 AI 代码审查加了一个叫 TREX 的执行层，让审查代理不只是读代码改动，而是把代码跑起来、截图、抓运行时才会暴露的 bug，比如 UI 加载后的错位、需要特定状态触发的逻辑错误。他们踩过的坑挺实在：一开始把 TREX 做成独立代理，结果它生成的测试跟用户实际需求不沾边；后来想合并成一个代理，又因为要同时管启动服务、截图、跑测试这些事，上下文直接过载。现在的方案是让主审查代理当调度员，针对每个问题单独派一个 TREX 子代理去跑，共享上下文但并行干活，不用重复扫代码库。文章把架构演进讲清楚了，但缺了最关键的东西——没给任何量化数据。不知道 TREX 抓运行时 bug 的召回率是多少，误报率多少，也没说跑一次审查要多花多少时间和算力。如果是真的能稳定抓到静态审查漏掉的 bug，这个思路有价值；但在看到数字之前，只能当工程实践参考，不能当效果背书。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

14:20

1d ago

FEATUREDHacker News 首页· rssEN14:20 · 06·17

AI 要求更强的工程纪律，而不是更弱

Charity Majors 澄清她没让人跳过代码审查。她回顾了 AI 写代码从 2025 年初的“废料”到年底 Opus 4.5 发布后达到普通工程师水平的过程，代码生产成本几乎降为零。她强调，软件团队真正的产出是共享理解，而不是代码行数。正文没有列出她具体推荐的新纪律，但指出当代码变得像一次性耗材时，靠读代码来理解系统已经不够用了。

#Code#Charity Majors#Opus 4.5

精选理由

Charity Majors 澄清她没让大家跳过代码审查，核心论点是：当代码生产成本趋近于零，过去靠读代码来建立系统理解的老办法会失效。她把 Opus 4.5 作为一个分水岭，让论点有了时间感，但正文没列出她具体推荐的新纪律是什么，这点先别太激动。整体是对‘AI 时代工程实践该怎么变’的一次清醒喊话，不是技术方案。

一句话点评

代码审查不能扔，但只靠读代码理解系统已经不够了，因为 AI 把代码生产成本几乎打到了零。

锐评

Charity Majors 这次把话说得很清楚：她没让大家跳过代码审查。她真正想提醒的是，当 AI 写代码从 2025 年初的“废料”进化到年底 Opus 4.5 那种普通工程师水平，代码本身就不再是团队的核心产出。生产成本几乎为零，意味着代码会像一次性耗材一样泛滥，靠一行行读代码来建立共识会越来越不靠谱。她没在正文里列出具体该补哪些新纪律，这点比较可惜。但她的判断方向是对的：团队真正的产品是共享理解，不是代码行数。如果代码变得廉价，那审查、测试、文档这些环节的重心都得从“检查代码对不对”转向“确认大家想的是不是一回事”。文章缺的是实操建议，比如新的验证流程长什么样、人机协作的边界怎么划。她自己也说这只是回应质疑，不是完整方案。所以这条值得点开看判断，但别指望拿到现成 checklist。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:00

1d ago

持续报道 · 1d● P1The Verge · AI· rssEN13:00 · 06·17

Google发布六年来首款新智能音箱搭载Gemini助手

Google 会在 6 月 24 日开卖一款叫 Google Home Speaker 的新智能音箱，定价 49.99 美元。这是自 2020 年 Nest Audio 之后 Google 第一次发新的音箱产品。它运行的是 Gemini for Home，也就是说你可以跟它连续对话，不用每句都喊一遍“Hey Google”，助手能记住上下文。外观是个裹...

#Google#Gemini for Home

精选理由

Google 六年来的第一款新音箱，49.99 美元定价配上 Gemini 连续对话，产品更新是实打实的。但智能音箱现在不算热赛道，行业影响力有限，所以 H 和 K 都站得住，R 偏弱，整体停在 featured 72 分这个位置。

一句话点评

谷歌把Gemini塞进音箱，99美元定价直接对标亚马逊Echo，但正文没给任何硬件或功能细节。

锐评

谷歌这次用99.99美元的价格把Gemini模型装进了智能音箱，摆明了要和亚马逊Echo抢客厅入口。这个定价不算贵，如果真能把大模型的多轮对话和复杂指令理解跑顺，会比现在只会定闹钟、查天气的智能音箱好用一大截。但问题在于，目前所有报道都只给了标题和价格，正文完全没披露这款音箱到底用了哪个版本的Gemini、是端侧跑还是云端调、延迟多少、支持哪些语言。这些信息直接决定它是个能聊天的真升级，还是又一个套了AI壳的旧硬件。另外，谷歌之前Nest系列的产品线已经够乱了，这次是替代旧款还是另开新线，也没说清楚。如果是真的把大模型塞进百元音箱还能保持低延迟，那挺省钱也挺实用；但如果只是云端调API，那和手机上的语音助手没本质区别，没必要专门买个音箱。先别太激动，等实测出来再看。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

12:46

1d ago

FEATUREDAI HOT 精选· aihot-apiZH12:46 · 06·17

阿里云发布 HappyOyster 1.0，输入一句话就能生成可以走动、跳跃、打怪的实时交互 3D 场景

阿里云在 6 月 17 日推出了一个叫“快乐生蚝”的世界模型产品。它跟传统视频生成不一样，不是等渲染完再看，而是在生成过程中就能用键盘或指令实时控制画面里的角色移动、攻击、跳跃。目前开放了两种玩法：一种是“实时导演”，可以随时暂停改写剧情走向；另一种是“世界探索”，像玩游戏一样在生成的场景里自由移动和交互。产品从今年 4 月开始内测，现在官网能体验，但...

#Alibaba Cloud#HappyOyster

精选理由

阿里云直接放出了一个能交互的世界模型产品，不是论文也不是 demo 视频。实时控制画面这点把生成从“看”拉到了“玩”，对从业者来说是个能动手验证的新玩具。不过正文没写技术细节、成本、延迟和模型规模，实际能不能扛住生产环境的复杂度还得自己上手测。

一句话点评

阿里云把世界模型做成了能实时交互的“游戏引擎”，但正文没披露模型参数、训练数据和定价，实际效果得自己上手试。

锐评

HappyOyster 1.0 把“一句话生成世界”从视频渲染变成了实时可玩的交互场景，这跟传统文生视频是两条路。它允许你在生成过程中用键盘或指令控制角色移动、攻击，相当于把世界模型做成了一个轻量级游戏引擎。目前开放了“实时导演”和“世界探索”两种玩法，4 月开始内测，现在官网能体验，但官方没公布模型规模、训练数据来源和推理成本。从产品形态看，实时交互对延迟和一致性的要求比离线生成高得多，如果体验流畅，说明底层架构做了针对性优化。但“深度学习物理世界状态转移规律”“保持长程一致性”这些说法，在没有技术报告和第三方评测的情况下，只能当作产品宣传。还缺几块关键信息：一是模型参数量和推理所需算力，这直接决定能否大规模开放；二是收费模式，目前只提到送体验积分；三是生成场景的边界在哪，比如复杂物理交互、多人协作支不支持。这些没补上之前，把它看作一个有趣的交互原型比看作成熟产品更合适。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:18

1d ago

FEATUREDAI HOT 精选· aihot-apiZH10:18 · 06·17

AWS 开源 Strands Robots SDK：一套代码同时跑仿真和真机，数据直接存到 Hugging Face Hub

AWS 把 LeRobot 这套机器人训练工具包封装成了一个统一的智能体，叫 Strands Robots SDK，用 Apache 2.0 协议开源。默认跑 MuJoCo 物理仿真，不用买硬件就能先试；想上真机时把参数改成 mode="real" 就行，仿真和真机代码完全一样，只差这一个关键字。你操作机器人的演示数据会被录成 LeRobotDatas...

#Robotics#AWS#Hugging Face#LeRobot

精选理由

AWS 把 LeRobot 封装成一个统一智能体 SDK，一键切换仿真和真机，对机器人开发者是个趁手工具。但纯物理机器人的话题在 AI 应用层读者里热度有限，R 轴没完全打满，刚好卡在 featured 门槛上。

一句话点评

AWS 把 LeRobot 包成统一 SDK，仿真和真机只差一个参数，不用买硬件就能先跑。但正文没提真机测试的机器人型号和成功率，这点先别太激动。

锐评

AWS 这次开源了一个机器人开发 SDK，核心是把 LeRobot 这套训练工具包封装成一个统一的智能体，让开发者从仿真到真机部署的代码几乎不用改。默认跑 MuJoCo 物理仿真，不用买硬件就能先试；想上真机时把参数改成 mode="real" 就行，仿真和真机代码完全一样，只差这一个关键字。操作机器人的演示数据会被录成 LeRobotDataset，可以直接推到 Hugging Face Hub 上共享，然后用 GR00T 或 LerobotLocal 这类策略模型跑推理，再通过 Zenoh mesh 广播命令到多台机器人。这套东西对想快速上手机器人开发的团队挺友好，尤其是仿真零成本起步、代码统一这点，省掉了仿真转真机时重写代码的麻烦。示例在笔记本上就能跑，要求 Python 3.12+、Linux 或 macOS，不需要 GPU。但正文没披露真机测试的具体情况——用了哪些机器人型号、任务成功率多少、延迟表现如何，这些关键指标都缺。另外，Zenoh mesh 广播到多台机器人的同步精度和稳定性也没提。如果是真的省钱省事，那对教学和小团队验证想法很有用；但真要上产线，还得等更多真机验证数据出来再说。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

10:00

1d ago

持续报道 · 1d● P1OpenAI 博客· rssEN10:00 · 06·17

GPT-5.4在自动化实验室改进药物合成反应产率至25.2%

OpenAI 把 GPT-5.4 连到了 Molecule.one 的自动化化学平台 Maria 上，让它自己设计实验来改进一类药物合成反应。模型挑中了 Chan-Lam 偶联里最难搞的底物之一——伯磺酰胺，并提议用 TEMPO 做温和氧化剂。跑了两轮实验后，88% 的硼酸和 83% 的磺酰胺底物产率都有提升，平均产率从 16.6% 涨到 25.2%，...

#OpenAI#Molecule.one#GPT-5.4

精选理由

硬排除规则 #4：传统科学 + AI 交叉，没有 agent 或产品层面的含义。GPT-5.4 连到自动化化学平台优化药物合成——AI 只是传统研究的工具，对 AI 从业者没有直接价值。分数上限 39。

一句话点评

GPT-5.4 在自动化实验室里把一种难做的药物合成反应产率从 16.6% 提到了 25.2%，靠的是它自己翻文献后提议加 TEMPO 这个温和氧化剂。

锐评

OpenAI 把 GPT-5.4 接入了 Molecule.one 的自动化实验室 Maria，让它自己提方案、做实验、分析数据，目标是改进 Chan-Lam 偶联反应里最难搞的一类底物——伯磺酰胺。模型没让人手把手教，自己翻完文献后提议加 TEMPO 这种温和氧化剂，结果在 88% 的硼酸和 83% 的磺酰胺底物上产率都有提升，平均产率从 16.6% 涨到 25.2%，超过 30% 产率的反应比例也从 15.6% 翻到 37.5%。后续人工在常规实验台上复现，14 组里有 11 组产率更高，多数翻了一倍以上。这个数字绝对值不算高，25.2% 的平均产率在合成化学里依然偏低，但提升幅度和底物覆盖面说明方向是对的。文章也坦承这只是早期结果，而且整个流程里人类还是参与了选题把关、实验计划微调和最终验证，不是全自主。目前没披露的是：模型提议 TEMPO 的逻辑链路有多深，是碰巧撞上还是真有化学直觉；另外 10,080 次实验的总成本和耗时也没给，没法判断这种“AI 化学家”模式离日常药物研发管线有多远。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

09:12

1d ago

● P1Hacker News 首页· rssEN09:12 · 06·17

智谱开源GLM-5.2大模型，登顶开源排行榜

Z.ai 的 GLM-5.2 在 Artificial Analysis 的 Intelligence Index v4.1 上拿了 51 分，超过 MiniMax-M3 和 DeepSeek V4 Pro（都是 44 分），成了目前最强的开源权重模型。模型体量没变，还是 744B 总参数、40B 活跃参数，但科学推理和智能体任务进步明显：HLE 涨了...

#Reasoning#Agent#Code#Z.ai

精选理由

GLM-5.2 在 Artificial Analysis 的 Intelligence Index 上拿了 51 分，超过 MiniMax-M3 和 DeepSeek V4 Pro，成了最强开源权重模型。参数没变，分数涨了 11 分，科学推理和智能体任务有实打实的提升。但这是单一评测机构的单榜成绩，没有其他来源交叉验证，所以重要性给到 82 分，先打个折。

一句话点评

智谱开源GLM-5.2，编程和长任务跑分进全球前三，但部分长程基准仍落后Claude Opus 4.8一截，先别急着喊“碾压”。

锐评

GLM-5.2这次把力气花在了两个地方：一是把上下文窗口做到实打实的100万token，不是那种一到几十万就拉胯的“纸面1M”；二是让模型能扛住跨天甚至跨周的长任务，比如从零写一个多端应用并完成调试打包。在Artificial Analysis综合榜上拿了51分，和Anthropic、OpenAI并列前三，Code Arena前端开发盲测甚至排到第一。不过数字得拆开看。在考验超长周期软件工程的SWE-Marathon上，它比Opus 4.8低了13个百分点，差距不小。官方自己也说，长程任务能力介于Opus 4.7和4.8之间。所以整体定位更接近“开源最强、逼近闭源头部”，而不是全面超越。技术上有两个点值得注意：一是IndexShare方案把长上下文下的计算量压到2.9倍，推理成本控制得比较务实；二是模型发布当天就适配了华为昇腾、平头哥等一堆国产芯片，对国内开发者来说部署门槛低了不少。另外模型用MIT协议开源，商用没什么限制。目前缺的是更多第三方在真实长程任务上的横向对比，以及不同思考档位下的成本数据，这些会直接影响实际选型。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

04:55

1d ago

FEATUREDAI HOT 精选· aihot-apiZH04:55 · 06·17

OpenAI 一季度烧掉 37 亿美元，超过同期收入的一半

The Information 拿到一份 OpenAI 给股东看的文件，里面显示 2026 年第一季度现金消耗 37 亿美元，同期收入是 57 亿美元。也就是说，赚的钱有一半多直接花出去了，主要烧在算力、模型研发和抢人上。公司已经秘密提交了 IPO 申请，有消息说最早 9 月上市，估值可能冲到 1 万亿美元。这点先别太激动——上市时间和估值都只有单一信...

#OpenAI#The Information

精选理由

The Information 拿到了一份给股东看的内部文件，里面是实打实的一季度数据：收入 57 亿美元，现金消耗 37 亿。这种硬数字很少见，不是传闻。分数没给到 85 以上，是因为 IPO 时间和万亿估值都来自单一信源，而且正文没披露公司手头还有多少现金、钱具体花在算力和人力上的比例，信息有缺口。

一句话点评

OpenAI一个季度烧掉37亿美元，超过同期收入的一半，主要花在算力和抢人上。上市时间和万亿估值都只有单一信源，先别太激动。

锐评

这份给股东看的文件把账算得很直白：2026年Q1收入57亿，现金消耗37亿，赚的钱有一半多直接花出去了。The Information拿到的文件没拆成本结构，但点出了三大花钱方向——算力基础设施、模型研发、人才招募。换句话说，AI服务需求在涨，但做大模型的成本涨得更快，头部玩家都在靠持续输血撑着。文章提到OpenAI已经秘密提交IPO申请，最早9月上市，估值可能冲到1万亿美元。这两个数字目前都只有一位知情人士的说法，没有其他交叉验证。上市时间表在监管和市场环境面前变数很大，万亿估值更是需要拿出远超现在的商业化成绩来支撑。正文没披露现金流能撑多久、有没有新的融资进来，这些缺口比上市传闻更值得盯。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:39

2d ago

FEATURED彭博科技· rssEN01:39 · 06·17

快手旗下可灵 AI 正与泛大西洋投资谈融资，估值 180 亿美元，想融 20 亿美元

彭博社消息，快手做视频生成的可灵 AI 正在跟美国私募基金泛大西洋投资（General Atlantic）谈一轮融资，目标是融 20 亿美元左右，投后估值推到 180 亿美元。正文被付费墙挡住了，具体条款、还有没有其他投资人、钱打算怎么花，这些都没法确认。如果这轮真按这个估值谈成，可灵在视频生成赛道的身价会直接拉到第一梯队，但眼下只能先当个参考，别太激动。

#Kuaishou#Kling AI#General Atlantic

精选理由

彭博社爆出可灵 AI 在跟泛大西洋投资谈一轮 20 亿美元的融资，投后估值推到 180 亿。这是视频生成赛道目前公开的最大单笔融资信号，数字够大、领投方又是美国老牌 PE，所以重要性和话题性都拉满。但正文被付费墙挡住了，具体条款、还有没有其他投资人、钱打算怎么花，这些关键信息都没法确认，所以判断上得打个折，不能直接当定局。

一句话点评

快手可灵在跟美国私募泛大西洋谈一轮 20 亿美元融资，估值推到 180 亿。但正文被付费墙挡住，具体条款和钱怎么花都看不到，先当个参考。

锐评

这条消息如果属实，可灵在视频生成赛道的身价会直接冲到第一梯队。20 亿美元融资、180 亿投后估值，这两个数字说明资本对快手拆出来的这个 AI 业务给了很高的预期。但眼下能确认的信息太少——彭博的原文被付费墙挡死了，我们只抓到了标题和摘要，正文里有没有披露其他投资人、资金用途、对赌条款，一概不知。泛大西洋是美国老牌私募，投过字节、蚂蚁，这次如果真领投可灵，意味着有美元基金愿意在当前环境下继续押注中国 AI 应用层。但估值本身也要打折看：视频生成现在商业化路径还不清晰，可灵的产品成熟度和收入规模都没公开数据，180 亿是实打实的业绩撑起来的，还是赛道溢价堆出来的，正文没披露就没法判断。还缺几个关键信息：这轮是纯融资还是带老股转让、快手还保留多少股权、可灵自己的营收和付费用户数到底怎么样。这些不补上，光看估值容易高估。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:37

2d ago

FEATURED纽约时报中文网· rssZH01:37 · 06·17

AI 芯片的钱，这次中国没挣到

英伟达的 AI 芯片卖爆了，但真正跟着发财的是给它供内存的三家公司：SK 海力士、三星和美光。最先进的内存晶圆只有这三家能做，今年价格直接翻了一倍多。黄仁勋在 Computex 上跑到海力士的展台，在一片缺货的晶圆上写“请多生产一些 :)”，因为产能根本跟不上。这波热潮把三星和海力士的市值都推过了万亿美元，韩国成了美国之外第一个同时有两家万亿市值公司的...

#Nvidia#SK Hynix#Samsung

精选理由

纽约时报用内存供应链当切口——晶圆价格翻倍、两家韩国公司市值破万亿、再加一个黄仁勋的段子——把 AI 硬件瓶颈讲清楚了。这是趋势观察而不是事件新闻，放在 featured 刚好。

一句话点评

AI 这波钱主要被做内存的三家赚走了，中国被关税和禁令挡在门外，正文没提国内替代方案进展。

锐评

这篇报道的核心判断很直接：AI 芯片卖爆，但真正闷声发财的是给英伟达供高带宽内存的 SK 海力士、三星和美光。今年内存价格翻了一倍多，直接把三星和海力士的市值推过万亿美元，韩国成了美国之外第一个同时有两家万亿市值公司的国家。黄仁勋在 Computex 上跑到海力士展台，在一片缺货的晶圆上写“请多生产一些 :)”，这个细节比任何数据都更能说明产能紧张到什么程度。文章把中国缺席的原因归结为美国关税和技术限制，认为这比补贴更有效。但正文没披露中国在存储芯片上的自给率到底是多少，也没提长鑫存储等厂商在落后节点上的进展。所以“明显缺席”这个结论主要针对最先进的那一档内存，不能直接等同于整个存储市场。另一个值得注意的点是地缘风险。供应链高度集中在台湾和韩国这两个地方，文章自己点出了这个矛盾：美国设计的芯片，制造命脉却压在两个地缘热点上。正文没展开讨论如果台海或朝鲜半岛出事，替代产能需要多久才能接上，这是整篇报道最大的信息缺口。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

2d ago

持续报道 · 1dFEATUREDAI HOT 精选· aihot-apiZH00:00 · 06·17

Sumi：从头训练的 7B 开源均匀扩散语言模型

Sumi 是第一个从零开始、用 1.5 万亿 token 预训练出来的 7B 参数均匀扩散语言模型。均匀扩散的意思是，模型在生成文本时每一步都可以修改任意位置的词，不像传统模型只能从左往右写，理论上更灵活。团队把模型权重、训练检查点和完整配方全公开了，包括用了哪些公开数据集、怎么混合的。在知识、推理和代码评测上，Sumi 跟同等训练量的自回归模型打得有...

#Reasoning#Code#Mengyu Ye#Keito Kudo

精选理由

Sumi是第一个从零预训练出来的7B均匀扩散语言模型，用了1.5万亿token，生成时能在任意位置改词，不像自回归模型只能从左往右写。团队把权重、训练检查点和完整配方都公开了，在知识、推理和代码评测上跟同等训练量的自回归模型打得有来有回。这点先别太激动——正文没披露推理速度和实际部署成本，扩散模型在落地时往往比自回归慢不少。不过敢在主流路线之外砸资源从头训一个7B模型，还把家底全亮出来，本身就值得关注。

一句话点评

第一个从头训练的7B均匀扩散语言模型开源了，权重和配方全给。它在知识、推理、代码上能打平同量级自回归模型，但常识题偏弱，团队自己说可能是教材类数据喂多了。

锐评

Sumi 这次放出来的东西挺实在：一个用 1.5 万亿 token 从零开始预训练的 7B 均匀扩散语言模型，权重、训练检查点、完整配方全公开。均匀扩散的意思是，模型生成文本时每一步都能回头改任意位置的词，不像现在主流的自回归模型只能从左往右写，理论上更灵活。在此之前，自回归和掩码扩散都有大尺寸的开源模型供社区研究，唯独均匀扩散这块是空白，Sumi 算是把坑填上了。看成绩单，它在知识、推理和代码评测上跟同等训练量的自回归模型打得有来有回，但一到常识推理就明显掉队。团队自己分析，很可能是训练数据里教材、学术内容占比太高，生活化语料不够。这点先别太激动——论文没给出具体的推理速度对比，也没说生成时的延迟和成本比自回归模型高多少，这些在实际落地时才是关键。现在还缺什么？一是没看到它在多轮对话、指令遵循这类实际应用场景下的表现；二是均匀扩散的生成可控性到底比自回归强在哪，论文只给了基准分，没做深入的案例拆解。不过作为一个干净的参考基线，Sumi 的开源对想研究扩散模型缩放规律和生成机制的人来说，是个不错的起点。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

00:00

2d ago

持续报道 · 1dFEATUREDOpenAI 博客· rssEN00:00 · 06·17

OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实科研任务的基准

OpenAI 放出了一个叫 LifeSciBench 的基准，750 道题全由有生物技术或制药行业经验的博士科学家出题和审题。它不考知识点背诵，考的是模型能不能干真实的科研活儿：比如解读互相矛盾的实验证据、设计实验方案、评估药物从实验室到临床的风险。53% 的题需要模型去读附带的图表、序列文件等材料，平均每道题要经过 4 步推理。评分也不只看最终答案对...

#Benchmarking#OpenAI#Benchmark

精选理由

OpenAI放出了一个由博士科学家出题的基准，750道题考的是实验设计、矛盾证据解读和转化风险评估，比现有基准更接近真实科研工作。分数没给更高是因为目前只有预印本，正文没披露模型在这个基准上的具体表现数据，也没说后续会不会持续更新题目，所以先打个折。

一句话点评

OpenAI 发了个新基准 LifeSciBench，750 道题全由药企博士出题，考模型能不能干科研的脏活累活，不是背知识点。但正文没公布任何模型的跑分，所以现在只能看个设计思路。

锐评

这个基准的出发点挺实在：科研不是做选择题，而是解读互相打架的实验数据、设计实验、评估药物从实验室到临床的风险。所以题目设计上，53% 的题需要模型去读图表、序列文件这些附件，平均每道题要经过 4 步推理，评分标准平均有 25 条，不光看答案对不对，还看论证过程、细节和格式是不是科学家想要的。出题和审题的人都是生物技术或制药行业里有博士学位的从业者，审稿人之间至少 90% 同意才收题，这个门槛不低。但最大的信息缺口也很明显：OpenAI 没给任何模型的成绩。一个基准好不好用，最终要看它能不能拉开模型差距、分数和实际科研产出有没有关联。现在只有设计描述，没有数据验证，所以这个基准到底有多难、能测出什么，还得等第三方跑分或者 OpenAI 自己放结果。如果是真的能区分出模型在复杂科研任务上的能力，对药企选模型会有参考价值。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

2d ago

持续报道 · 1dFEATUREDComputing Life · Share · 鸭哥调研· rssZH00:00 · 06·17

推理模型四年史：你以为的石破天惊，其实早有暗线

推理模型不是2024年突然蹦出来的。让模型写解题步骤的思维链、用自己生成的正确推理训练自己的STaR、给中间步骤打分的过程奖励模型，这些技术从2022年起就陆续成熟了。o1真正改变的是产品化：把推理变成一种可以计费、可以调度的资源，在API里引入reasoning tokens和可调节的思考强度参数，相当于给scaling law开了第二个轴。Deep...

#Reasoning#OpenAI#DeepSeek#Anthropic

精选理由

这是一篇有信息量的长文综述，用具体论文和时间线追溯推理模型的技术源头，核心判断是o1的分水岭在于把推理产品化成可计费算力，而非发明了推理本身。HKR三项都踩中，但属于梳理整合型内容而非独家爆料，放在78分、featured层级合理。

一句话点评

别被“aha moment”的浪漫故事骗了。推理模型不是一夜学会思考的，它背后是一条走了四年的技术暗线。o1真正的贡献是把推理做成了可计费、可调度的产品资源。

锐评

这篇文章把推理模型的时间线拉回到2022年，讲得很清楚：思维链、STaR自训练、过程奖励模型这些技术早就有了，o1只是把它们组装成产品，并开创性地把“思考”变成API里一个可以拧的旋钮。最值得警惕的部分是对DeepSeek R1“顿悟时刻”的祛魅。文章引用了独立研究，指出所谓的“aha moment”在没训练过的基座模型里就已经出现，强化学习只是提高了这些行为的频率，并没有凭空创造推理能力。这点先别太激动，它意味着我们可能高估了纯RL的魔法，而低估了预训练数据里已经烘进去的推理碎片。文章还点出了一个关键的产品哲学分歧：OpenAI把推理过程藏起来，而其他几乎所有厂商都选择公开。这背后是两种安全观和商业策略的较量。不过，文章对o1藏起推理过程的真实原因，只引用了“独立解读普遍认为是为了防止蒸馏”，OpenAI自己的说法被一笔带过，这里的信息缺口值得留意。整体来看，这篇梳理的价值在于帮你区分“能力的诞生”和“能力的包装”，在行业集体狂飙的时候，这种冷静的溯源很难得。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

2d ago

持续报道 · 1dFEATUREDComputing Life · Share · 鸭哥调研· rssZH00:00 · 06·17

给 AI 办大学，其实是给它的规则系统做年审

作者把自己用了半年的 agent 规则系统“老鸭汤”翻出来审计，发现一堆祖传规则：比如一条 2026 年初为绕过 Claude Code bug 加的 workaround，bug 早修了，规则还在，新 agent 照做不误，没人知道为什么。根因是规则只加不删，发现时的上下文全丢了，结论变成迷信。解法是定期“裸跑”——派一个不带任何旧规则的 agent...

#Claude Code#Superlinear Academy

精选理由

一篇有料的一手复盘。作者审计自己跑了半年的 agent 规则系统，发现规则只加不删，当初的因果上下文全丢了，规则变成迷信。用了一个 Claude Code 的 workaround 当案例，bug 早修了，新 agent 还在照做。解法是定期裸跑——派不带旧规则的 agent 去干活，看哪些规则其实已经没用了。不是理论，是实战伤疤，对做 agent 的人有直接参考价值。

一句话点评

AI 的规则系统会像人类组织一样长出陈规陋习，这篇用自家 agent 的翻车现场讲清了为什么，以及怎么用“裸跑”来年审。

锐评

这篇文章不是讲怎么给 AI 上课，而是讲怎么防止 AI 的“工作经验”变成迷信。作者把自己用了半年的 agent 规则系统“老鸭汤”翻出来审计，发现一条 2026 年初为绕过 Claude Code bug 加的 workaround，bug 早修了，规则还在，新 agent 照做不误，没人知道为什么。根因是规则只加不删，发现时的上下文全丢了，结论变成祖传指令。解法叫“裸跑”：定期派一个不带任何旧规则的 agent 进真实环境干活。如果它顺利完成任务，说明那些旧规则已经失效，可以删了；如果它碰壁了，就用当下的环境重新生成一份新鲜的发现上下文，替换掉旧文件里那行干瘪的结论。考试、教科书修订、再教育三件事合为一体。文章没给出这套自动化年审流程的具体实现细节，也没披露审计发现的规则退化比例有多大。但核心判断是成立的：规则系统需要靠环境的真实反馈来维持，否则积累速度比人类组织快十倍。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-06-17

更多

频道

后台