全部 · 2026-06-17

▸ 62 items · updated 3m ago

2026年4月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2198 22108 2393 2472 2535 2629 2773 28109 29102 3094

2026年5月

一二三四五六日

176 260 362 473 5107 693 7132 890 970 1057 1199 12121 13135 14145 15128 1663 1764 18104 19168 20116 21121 22114 2349 2446 2570 26107 27117 28140 29113 3058 3161

2026年6月

一二三四五六日

1132 2141 3131 4112 5120 669 767 8128 9121 1077 1190 1281 1338 1431 1567 1675 1762 1848 1922021222324252627282930

2026-06-17 · 星期三2026年6月17日

22:51

1d ago

r/LocalLLaMA· rssEN22:51 · 06·17

llama.cpp 新增模型管理 API：远程下载、加载、卸载一条命令搞定

llama.cpp 现在支持通过 API 远程管理模型生命周期，包括下载、加载和卸载。这意味着你可以在本地推理服务器上远程控制模型，不用手动操作文件或重启服务。正文被 Reddit 屏蔽，没披露具体接口地址和参数细节。

#llama.cpp

精选理由

标题有钩子，但正文是个 403 屏蔽页——零可用信息。只能靠标题给个低分；tier 设 all 等具体细节出来再说。

一句话点评

llama.cpp 现在支持通过 API 远程下载、加载和卸载模型，不用手动拖文件或重启服务了。这对跑本地推理集群的人来说挺实用，尤其是频繁换模型做测试的场景。不过正文被 Reddit 屏蔽了，没披露具体接口地址和参数细节，所以目前只能看标题知道有这个功能，实际怎么用、稳定性如何都还不清楚。如果是真的，能省不少运维功夫。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

22:30

1d ago

持续报道 · 1dFEATURED彭博科技· rssEN22:30 · 06·17

微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子

微软通过 Azure 云把 OpenAI 的模型卖给中国公司，绕开了 OpenAI 自己对中国市场的封锁。过去一年这条线的收入涨得很快，但彭博没披露具体金额，所以基数可能不大。已知的客户包括字节跳动、小米和蔚来。增长是真的，但出口管制随时可能收紧，这笔生意的风险还在。

#Microsoft#OpenAI#ByteDance

精选理由

彭博独家，微软用 Azure 把 OpenAI 模型卖给中国公司，字节、小米、蔚来都实锤在用了。收入增长是真的，但没披露金额，所以我会先打个折——基数可能不大，别急着喊“大生意”。标题自带冲突，信息有实锤也有缺口，适合放 featured。

一句话点评

微软靠卖 OpenAI 模型在中国赚到了钱，客户包括字节和小米，但彭博没给具体收入数字，基数可能很小，而且出口管制这把刀随时会落下来。

锐评

微软通过 Azure 云把 OpenAI 的模型卖给中国公司，绕开了 OpenAI 自己对中国市场的封锁。过去一年这条线的收入增长很快，字节跳动、小米和蔚来都是客户。这相当于微软在 OpenAI 无法直接进入的市场里当起了经销商，赚的是转售和云服务的钱。但这条新闻最大的信息缺口是钱。彭博只说了“增长很快”，没披露具体金额。如果基数很小，翻几倍也不代表什么。另外，美国对华芯片和 AI 出口管制一直在收紧，微软这笔生意随时可能被叫停。正文也没提这些中国客户用 OpenAI 模型具体做什么业务，是内部提效还是对外产品，这决定了需求的稳定性。如果是真的跑通了规模化收费，说明中国公司对海外头部模型的需求比想象中硬。但先别太激动，等看到具体营收数字和管制政策走向再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:07

1d ago

AI HOT 精选· aihot-apiZH22:07 · 06·17

Claude Code 小版本更新到 v2.1.181

Anthropic 给 Claude Code 打了个小补丁，版本号从 v2.1.180 跳到 v2.1.181。正文没披露具体改了什么，如果你在用这个终端里的 AI 编程助手，建议直接去 GitHub Release 页面看 changelog。

#Anthropic#Claude Code#Product update

精选理由

正文零信息——一个版本号升级，没有 changelog。零来源内容触发硬性排除，重要性上限 25。

一句话点评

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

21:31

1d ago

● P1Hacker News 首页· rssEN21:31 · 06·17

OpenAI 2025年财务披露：收入130亿美元但运营亏损209亿

一份据称是 OpenAI 经审计的财务文件被记者 Ed Zitron 拿到并公开。文件显示，OpenAI 2025 年收入 130.7 亿美元，比 2024 年的 37 亿涨了不少，但研发开支就烧掉 191.8 亿，其中 105.9 亿直接付给了微软。加上 75 亿的交付成本和 57.3 亿的销售市场费用，全年运营亏损达到 209.2 亿。净亏损数字看...

#OpenAI#Microsoft#Ed Zitron

精选理由

泄露的审计文件把 OpenAI 的真实家底摊开了：2025 年收入 130.7 亿，但运营亏损 209.2 亿，研发开支里 105.9 亿进了微软口袋。这是行业等了很久的财务透明时刻，戏剧性、信息量和讨论度全拉满。重要性给 88 没问题，tier 选 featured 也合理，因为这不是分析师猜测，是据称审计过的数字。

一句话点评

OpenAI去年亏了385亿美元，收入涨了但烧钱更快，主要都砸在算力上了。

锐评

这份泄露的审计文件把OpenAI的家底摊开了：2025年收入130.7亿美元，但总成本高达340亿，净亏385亿。钱主要烧在研发上，花了191.8亿，其中光付给微软的算力和训练费就超过106亿。收入涨了近四倍，亏损却扩大了近八倍，说明模型越做越大，成本增速远超赚钱速度。文件还提到，2025年OpenAI从非营利转营利实体，导致账面多出415.5亿的“公允价值变动”损失，这是会计处理带来的数字，不是现金真的流出。剔除这部分和少数股东权益后，归到公司头上的净亏是385亿。年底公司账上还有约500亿资产，近一半是现金，短期不会断粮。不过，正文没披露用户量、付费转化率和客单价，也没说这340亿花出去换来了多少模型能力提升。光看亏损数字很吓人，但如果没有收入质量和增长天花板的判断，很难说这是烧钱换未来，还是单纯的成本失控。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

21:13

1d ago

FEATUREDAI HOT 精选· aihot-apiZH21:13 · 06·17

Google 提出三种架构模式，让 A2UI 的声明式原生渲染和 MCP Apps 的 iframe 自定义界面能搭配干活

Google 开发者博客分享了三种把 A2UI 和 MCP Apps 结合起来的架构思路。核心逻辑是：标准组件用 A2UI 的 JSON 描述，交给宿主应用原生渲染，避免视觉割裂和性能损耗；只有复杂自定义逻辑才放进 iframe。模式一让 MCP 服务器直接返回 A2UI 的 JSON 数据，完全绕过 iframe，文章用一个食谱应用演示了两个面板都靠...

#Google#A2UI#MCP Apps

精选理由

Google 官方博客发了一篇 A2UI 和 MCP Apps 的集成指南，给出了三种架构模式，对做 agent 产品的人直接有用。H 和 K 都打中了——方案有实操性，边界清晰；R 没中，因为这不是身份类内容，传播面会窄一些。单源博客，重要性给 72、放 featured 是合理的。

一句话点评

Google 把 A2UI 和 MCP Apps 的三种混用模式公开了，核心就一句：标准界面用 JSON 描述让宿主原生渲染，复杂自定义才塞进 iframe，省性能也避免视觉割裂。

锐评

这篇博客讲的是怎么把两种让 AI 生成界面的方案拼在一起用。A2UI 走的是声明式路线，发一段 JSON 描述界面结构，宿主应用用自己的原生组件渲染出来，好处是性能好、风格统一、安全性也更高。MCP Apps 则是在 iframe 里跑自定义网页，灵活但容易造成视觉割裂和性能损耗。文章给了三种架构模式，但正文只详细展开了第一种：让 MCP 服务器直接返回 A2UI 的 JSON 数据，完全绕过 iframe。他们用食谱应用做了演示，两个面板都由 A2UI 渲染，数据从 MCP 服务器拉取。另外两种模式只提了名字，没给细节和代码，这点比较遗憾。团队说在考虑做一个 MCP 扩展来降低接入门槛，目前在 GitHub 上收集反馈。如果这个扩展真落地，对想给 AI 应用加动态界面又不想被 iframe 拖累的开发者会挺实用。但现阶段信息不全，后两种模式到底怎么跑、有什么坑，正文没披露，先别急着全盘照搬。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

21:00

1d ago

FEATUREDHacker News 首页· rssEN21:00 · 06·17

OpenRouter 让 11 个大模型打了 30 场吃鸡赛，Grok 4.1 Fast 赢了 43%，成本只有 Claude 的 1/27

OpenRouter 的 Jacky Liang 把 11 个模型扔进一个 2D 吃鸡游戏里打了 30 局。Grok 4.1 Fast 赢了 13 局，每赢一局成本 0.97 美元；Claude Sonnet 4.6 赢了 5 局，每赢一局要 26.78 美元，差了 27 倍。GPT 5.4 杀了 38 个人头，全场最高，但只赢了 2 局——杀得多不等...

#Agent#Reasoning#OpenRouter#Anthropic

精选理由

OpenRouter 官方博客，作者 Jacky Liang 自己跑了 30 局并公开了完整数据和回放。Grok 4.1 Fast 的成本优势很扎眼，Claude Sonnet 4.6 贵但表现稳定，GPT 5.4 人头最多却赢不了——三个发现都有具体数字支撑，可复现、可验证。对正在选模型搭 agent 的人来说，这种实战对比比跑分表有用。

一句话点评

Grok 4.1 Fast 在 30 局 2D 吃鸡里赢了 13 局，每赢一局成本 0.97 美元；Claude Sonnet 4.6 赢一局要 26.78 美元，贵了 27 倍。GPT 5.4 人头最多但只赢 2 局，杀得多不等于活得久。

锐评

OpenRouter 的 Jacky Liang 把 11 个模型扔进一个 2D 吃鸡游戏打了 30 局，让它们每回合自己推理、调用工具、更新记忆，不是只生成控制代码。结果最亮眼的是成本差：Grok 4.1 Fast 赢下 13 局，每局成本不到 1 美元；Claude Sonnet 4.6 赢了 5 局，每局成本却要 26.78 美元，差了 27 倍。GPT 5.4 拿了全场最高的 38 个人头，但只赢了 2 局，说明在这个环境里，攻击性强不等于生存策略好。另外，GPT 5.4-mini、DeepSeek 4 Flash 和 Kimi K2.6 三个模型加起来花了 57 美元，一局没赢。这个实验有意思的地方在于它测的不是刷榜能力，而是模型在持续决策、资源管理和风险评估上的综合表现。Claude Sonnet 4.6 在游戏里频繁尝试结盟、暴露位置，这种“社交倾向”在真实业务场景里可能是优点，但在吃鸡规则下就是送人头。不过正文没给出完整的排行榜和所有模型的行为差异细节，30 局的样本量也不算大，所以成本对比虽然扎眼，但别直接当成选模型的唯一依据。还缺的是：不同随机种子下的稳定性、模型在更复杂任务里的表现是否和这个结果一致。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:44

1d ago

AI HOT 精选· aihot-apiZH20:44 · 06·17

Claude 平台上线 Workload Identity Federation，企业可以不用 API Key 了

Anthropic 把 Workload Identity Federation（WIF）在 Claude 平台正式推成通用功能。简单说，企业以后可以用云平台自己的身份令牌来调 Claude API，不用再管 API Key 的存储和轮换。这对安全运维来说省了一件事——少一个要保护的密钥。不过正文没披露具体支持哪些云厂商（AWS、Azure、GCP？）...

#Anthropic#Claude#Product update

精选理由

Anthropic 把 WIF 推成通用功能，对企业安全运维来说确实省事——少一个要保护的密钥。但这是基础设施层的改进，不是模型能力或产品体验的更新，所以大多数读者不会觉得有吸引力。正文没披露具体支持哪些云厂商，这点先别太激动。

一句话点评

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

19:50

1d ago

Hacker News 首页· rssEN19:50 · 06·17

FlicKey：免费 macOS 菜单栏工具，自动切换键盘布局并修复乱码

FlicKey 是一个免费 macOS 菜单栏小工具，能记住每个 App、每个网站甚至每个浏览器标签页的输入语言，切换窗口时自动换过去。按两下 Shift 就能把打错的乱码恢复成正确文字。只存偏好设置，不上传任何数据，不需要注册账号。正文没提是否支持 Windows 或 Linux。

#FlicKey#TalTool#macOS#Open source

精选理由

一个免费 macOS 小工具，解决双语用户切错输入法的真实痛点。H 和 R 都成立——问题普遍、演示清晰。但 K 缺失：没有基准测试、没有用户评测、没有技术细节说明怎么做到按标签页检测输入语言。属于'可以试试但等评测再下结论'的东西，所以给了 55 分，面向所有人。

一句话点评

FlicKey 是个免费 macOS 菜单栏小工具，能记住每个 App、每个网站甚至每个浏览器标签页的输入语言，切换窗口时自动换过去。按两下 Shift 就能把打错的乱码恢复成正确文字。只存偏好设置，不上传任何数据，不需要注册账号。正文没提是否支持 Windows 或 Linux。短评：多语言用户刚需，免费无追踪，但只支持 macOS，且依赖 Accessibility 权限，隐私敏感者...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:41

1d ago

AI HOT 精选· aihot-apiZH19:41 · 06·17

GitHub 开源多语言仓库级数据集，含 README、Issue 和 PR，CC0-1.0 协议

GitHub 发布了一个 CC0-1.0 开源的多语言仓库级数据集，覆盖 README、Issue 和 PR 三种内容类型。这对做代码理解或仓库级检索的团队很有用，但正文没披露具体包含多少种语言、数据集大小，也没给下载链接。

#GitHub#Open source

精选理由

标题-正文不匹配：标题承诺 Copilot 上下文处理，ai_summary 却声称是开源数据集发布。正文摘录只有导航栏，零实质内容。触发硬性排除规则 #3（旧闻重发无新角度）和 #6（零来源——无数据、无细节）。

一句话点评

GitHub 把 Copilot 的上下文处理和模型路由优化方案开源了，核心是让每个 token 更值钱。正文没给具体延迟降低或 token 节省的数字，但思路值得关注：不是一味堆长上下文，而是靠路由把简单请求丢给小模型、复杂任务才上大模型，类似给代码补全做了个智能分流。对做推理加速或成本优化的团队有参考价值，但缺实测对比，效果得自己跑一遍才清楚。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

19:28

1d ago

AI HOT 精选· aihot-apiZH19:28 · 06·17

Claude Design 画的设计稿能直接丢进 Replit 生成可运行的应用了

Anthropic 的 Claude Design 和 Replit 打通了：你在 Claude 里做的界面设计，现在可以一键发到 Replit，让它帮你搭出一个能跑的应用。官方只发了一句话的公告，没提支持哪些框架、生成质量怎么样、需要手动改多少代码。在有人放出实际构建报告之前，先当早期联动看，别对成品完整度抱太高期待。

#Anthropic#Replit#Claude Design

精选理由

方向对，但公告太薄。Anthropic 和 Replit 的整合本身有想象力，可目前只有一句话官宣，没有框架支持说明、没有质量基准、也没有真实用户的构建反馈。在有人放出上手实测之前，先当早期联动看，别对成品完整度抱太高期待。

一句话点评

Claude Design 画好的界面能直接丢给 Replit 生成可运行的应用了。官方只发了一句话公告，没提支持什么框架、生成代码质量如何、需要手动改多少。这点先别太激动——从设计稿到能用的产品中间通常隔着大量逻辑和调试，正文没披露任何实际构建报告或用户反馈。如果是真的挺省钱，但现阶段只能当早期联动看，等有人放出完整跑通案例再评估。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:22

1d ago

AI HOT 精选· aihot-apiZH19:22 · 06·17

Matt Pocock 开源 skills v1，技能描述 Token 成本砍掉 63%

Total TypeScript 作者 Matt Pocock 把一套叫 skills v1 的工具包开源了。核心变化是把技能描述拆得更省 Token，成本降了 63%。技能现在分两类：模型能自己调用的，和需要用户手动触发的。新增了三个技能：/codebase-design（做代码库设计）、/domain-modeling（做领域建模）、/grilli...

#Matt Pocock#Total TypeScript#Open source

精选理由

Matt Pocock 开源了一套 agent 技能包，核心卖点是 Token 成本降了 63%，还做了技能分类设计。对做 agent 的开发者是个不错的参考，但圈子小、偏工具优化，不是大事，给 68 分。

一句话点评

Matt Pocock 开源了 skills v1，核心是把技能描述拆得更省 Token，成本降了 63%。技能分两类：模型自己调用的和用户手动触发的，新增了代码库设计、领域建模等技能。主推文说这是把 prompt 从“念咒”变成“纪律性流程”，但正文没披露具体实现细节、基准测试或支持哪些模型，这点先别太激动。如果是真的，63% 的成本降低对频繁调用技能的场景挺省钱。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

19:22

1d ago

FEATUREDHacker News 首页· rssEN19:22 · 06·17

Anthropic 派黑客 Nicholas Carlini 给美国政府演示怎么攻破自家模型，好让监管放心

WSJ 报道，Anthropic 让安全研究员 Nicholas Carlini 去给美国政府官员现场演示越狱和模型攻击，想证明他们能管住 AI 的安全风险。Carlini 之前在 Google Brain，专门研究对抗样本和模型攻击。报道没说他具体展示了哪些攻击手法，也没提政府那边看完是什么反应。

#Anthropic#Nicholas Carlini#US government

精选理由

WSJ 独家，讲 Anthropic 让安全研究员 Nicholas Carlini 去给美国政府现场演示越狱和模型攻击，想用这种方式证明自己能管住安全风险。我会先打个折：报道没说他到底演示了什么攻击，也没写政府那边看完是更放心还是更紧张，所以信息量其实有限。但选题本身有张力——派黑客去安抚监管，这个叙事角度在当下的 AI 安全讨论里挺少见，从业者会愿意点开看一眼。

一句话点评

Anthropic 派安全研究员去给政府演示怎么攻破自家模型，想证明自己能管住安全，但报道没说他到底展示了什么，政府看完也没表态。

锐评

这条消息的核心动作很直接：Anthropic 让 Nicholas Carlini 去给美国政府官员现场演示越狱和模型攻击。Carlini 之前在 Google Brain 专门研究对抗样本，属于业内顶尖的攻击者视角。派他去，相当于对政府说“你看，最懂怎么搞破坏的人在我们这儿，所以我们知道怎么防”。但 WSJ 这篇报道目前只有 RSS 摘要，正文没披露他具体展示了哪些攻击手法，也没提政府官员看完演示后的反应或后续动作。这就让整件事的实质效果打了个问号——演示本身不等于安全承诺，政府是否买账、有没有提出新的监管要求，这些关键信息都缺失。对从业者来说，这条值得关注的点在于：头部 AI 公司开始用“以攻促防”的方式做政府关系，而不是只交白皮书。但别急着下结论，等看到具体攻击案例和政府反馈再说。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:17

1d ago

FEATUREDAI HOT 精选· aihot-apiZH19:17 · 06·17

Anthropic 推出 Claude Design 设计工具，支持跨项目品牌一致和画布编辑

Anthropic 在 Claude 里塞了个叫 Claude Design 的设计功能。它主要干三件事：跨项目自动保持品牌视觉一致，不用来回对色卡和字体；支持在画布上直接编辑，不用导出到别的软件；还能跟 Claude Code 同步，但正文没解释同步具体是怎么实现的、支持哪些第三方工具，也没说什么时候正式上线。如果是真的，对需要频繁出设计稿又不想在工...

#Code#Anthropic#Claude

精选理由

Anthropic 把设计功能直接塞进 Claude，跨项目品牌统一和画布编辑这两个点打的是真实工作流里的痛点，不是纯 demo。但正文对 Code 同步的实现方式、第三方工具支持和上线时间只字未提，信息缺口让这条消息停在值得关注但还不能全信的级别。

一句话点评

Anthropic 给 Claude Design 加了品牌一致性功能，能跨项目复用设计规范，还和 Claude Code 打通了。但官方博客没给出实际案例和对比数据，效果先打七折。

锐评

Claude Design 这次更新主要解决两个痛点：一是跨项目保持品牌视觉统一，相当于你设定一套设计规范后，不同项目都能自动套用，不用每次都手动调；二是新增画布编辑，并且能和 Claude Code 协同——设计师在画布上改，开发那边代码能同步更新。从官方博客看，这更像一次功能补齐而非颠覆性升级。正文没披露具体支持哪些设计系统格式、画布编辑的精度如何、与 Claude Code 同步的延迟是多少。也没给出企业客户的实际使用数据，比如品牌一致性节省了多少返工时间。对团队来说，如果已经在用 Claude 全家桶，这个整合确实能减少设计到代码的摩擦。但如果你用的是 Figma 这类成熟工具，Claude Design 的差异化在哪，博客没说清楚。建议等第三方评测或实际上手后再判断是否值得切过去。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:01

1d ago

持续报道 · 1dFEATUREDTechCrunch AI· rssEN19:01 · 06·17

各国想要美国 AI，但不想让美国能随时关掉它

G7 峰会上，马克龙和莫迪直接对美国 AI 公司老板和特朗普挑明了担忧：美国模型确实强，但如果美国哪天突然切断访问，依赖这些模型的国家关键基础设施就会瘫痪。这个恐惧不是凭空来的——最近 Anthropic 一次宕机就让欧洲用户完全用不了 Claude。马克龙在午餐会上说得很直白，没有哪个国家敢把命脉接在一个美国能单方面拉闸的模型上。文章没给出具体政策方...

#Emmanuel Macron#Narendra Modi#Anthropic

精选理由

马克龙和莫迪在 G7 上直接对美国 AI 公司老板和特朗普挑明了这个担忧，不是空穴来风，而是有 Anthropic 宕机事件做引子。文章把“模型强但开关在别人手里”这个恐惧讲得很清楚，对从业者来说是个真实的供应链风险提醒。缺点也很明显：只描述了现象，没给出任何政策或技术上的解法，读完知道问题严重，但不知道下一步该怎么办。

一句话点评

G7 峰会上马克龙和莫迪直接对美国 AI 公司老板挑明了：模型是好，但美国能单方面拉闸，没人敢把命脉接在这种模型上。这个恐惧不是凭空来的——最近 Anthropic 一次宕机就让欧洲用户完全用不了 Claude。

锐评

这条新闻抓到了一个很现实的矛盾：美国 AI 模型性能最强，但依赖它等于把主权交出去。马克龙在午餐会上对 Anthropic 的老板和特朗普说得很直白，没有哪个国家敢把关键基础设施接在一个美国能随时切断的模型上。这个担忧被最近 Anthropic 宕机事件坐实了——欧洲用户直接无法访问 Claude，连个缓冲都没有。文章没给出具体政策方案，也没披露各国打算怎么应对，比如是不是要强制本地部署、推开源模型替代，或者要求美国公司签服务保障协议。这些才是接下来值得盯的落地动作。另外，特朗普在现场怎么回应的也没写，这直接关系到美国会不会在出口管制或服务条款上让步。对从业者来说，这条信号很明确：如果你的产品要卖给海外政府或关键行业客户，只提供云端 API 访问会越来越难通过合规审查。本地部署、混合架构、甚至开源方案的需求会加速。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:19

1d ago

持续报道 · 1dTechCrunch AI· rssEN18:19 · 06·17

社交平台把推荐算法开关交给用户：Threads、Instagram、TikTok 让你自己训练信息流

Threads、Instagram 和 TikTok 开始让用户直接训练自己的推荐算法，不再只是点“不感兴趣”。你可以主动告诉系统想看什么，平台则借此提高用户停留时长。正文没披露这些工具具体怎么实现的——比如用户是通过点赞/屏蔽来训练，还是能直接调权重——所以技术细节还不清楚。对用户来说，信息流会更贴合个人口味；对平台来说，这是用更精准的内容换更多互动。

#Threads#Instagram#TikTok

精选理由

话题有共鸣但信息量不足。文章只报道了一个趋势——平台让用户自己训练推荐算法，但没有给出任何技术细节、实现机制或效果数据。适合作为信号类内容放在 all 层级，不值得重点推荐。

一句话点评

Threads、Instagram 和 TikTok 让用户直接训练推荐算法，不再只能点“不感兴趣”。你可以主动告诉系统想看什么，平台则借此提高停留时长。正文没披露这些工具具体怎么实现的——比如用户是通过点赞/屏蔽来训练，还是能直接调权重——所以技术细节还不清楚。对用户来说，信息流会更贴合个人口味；对平台来说，这是用更精准的内容换更多互动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

18:19

1d ago

持续报道 · 1d彭博科技· rssEN18:19 · 06·17

苹果计划2027年推出折叠iPhone和摄像头AirPods

彭博社报道苹果计划在2027年推出两款硬件：折叠屏iPhone和带摄像头的AirPods。正文被付费墙挡住，没披露任何规格、价格或具体上市时间。折叠iPhone的形态（翻盖还是平板折叠）和AirPods摄像头的用途（拍照还是AR辅助）目前都是未知数。

#Apple

精选理由

正文被付费墙完全挡住，零可提取事实。标题提的是2027年的折叠iPhone和带摄像头AirPods——远期硬件计划，跟AI核心关注点（模型、智能体、产品更新）关联弱。触发硬排除规则#6（零可读内容）。

一句话点评

苹果计划2027年推出折叠iPhone和带摄像头的AirPods。折叠屏iPhone传闻已久，这次给出了具体年份；摄像头AirPods则更意外，可能是为AI视觉功能铺路。但消息源是彭博社视频，正文被墙无法验证，具体配置、定价、是否量产均未披露。折叠屏手机市场已有三星、华为等对手，苹果入局晚但可能靠生态整合后发制人。摄像头AirPods用途不明，是拍照还是AR交互？这点先别太激动。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

18:00

1d ago

持续报道 · 1dFEATUREDTechCrunch AI· rssEN18:00 · 06·17

NEA合伙人谈企业AI投资回报与个人代理前景

今年初硅谷还在疯“Tokenmaxxing”——CEO 们让员工把 AI 用到极限，结果账单很快来了：Uber 几个月就烧完了全年 AI 预算，有公司砍掉了部分部门的 Claude 授权，Meta 也关掉了内部用量排行榜。NEA 合伙人 Tiffany Luck 在播客里聊的就是这股从狂热到算账的转向。她说企业现在不再绑定单一模型供应商，而是混搭着用；...

#NEA#Tiffany Luck#Uber

精选理由

这篇抓住了硅谷从“先用再说”到“看账单再决定”的转向，例子具体、信号清晰，H 和 K 都站得住。但播客形式决定了它偏观察、少操作细节，R 偏弱，整体放在 72 分合理，离必读还差一口气。

一句话点评

企业砸钱让员工狂用AI，结果Uber几个月烧光全年预算，现在VC开始认真问：钱花得值不值。

锐评

NEA合伙人Tiffany Luck在播客里聊了一个很实在的问题：企业AI的账到底怎么算。今年初硅谷流行“tokenmaxxing”，就是让员工把AI用到极致，但很快账单就来了——Uber几个月花完全年AI预算，有公司开始砍Claude的授权，Meta也关掉了内部用量排行榜。这说明企业从“先用起来再说”进入了“算清楚回报”的阶段。 Luck提到一个有意思的现象：企业现在不绑死一家模型厂商，而是混着用，哪家便宜好用切哪家。她还看好“派驻工程师”模式，让懂业务的人直接进客户现场落地AI，像特洛伊木马一样把产品带进去。对于个人AI代理，她认为消费端会出现“魔法时刻”，但正文没给出具体时间表或案例。整篇是播客摘要，缺少具体数字支撑——比如Uber到底花了多少、砍授权省了多少、企业ROI怎么量化都没展开。这些缺口让判断只能停在趋势层面，没法验证她说的“价值在每一层都在产生”到底有多厚。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

17:43

1d ago

持续报道 · 1dTechCrunch AI· rssEN17:43 · 06·17

世界模型公司 Odyssey 估值 14.5 亿美元，亚马逊等参投

Odyssey 完成新一轮融资，估值 14.5 亿美元，投资方包括亚马逊等。世界模型被视为大语言模型之后的下一个前沿，Odyssey 因此成为关注对象。正文未披露具体融资金额和产品细节。

#Odyssey#Amazon#Funding

精选理由

融资新闻但正文很薄——没金额、没产品细节、没技术角度。H 和 R 勉强及格，K 几乎为零。按低档给 65 分，tier all。

一句话点评

世界模型公司 Odyssey 拿到亚马逊等投资，估值 14.5 亿美元。世界模型被吹成 LLM 之后的下一个风口，但正文没披露融了多少钱、产品长什么样。估值高不等于技术落地，这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

17:22

1d ago

AI HOT 精选· aihot-apiZH17:22 · 06·17

Vercel 开源 AI 智能体框架 Eve：每个智能体就是一个文件目录

Vercel 开源了 Eve，一个 AI 智能体框架，核心设计是把每个智能体做成一个文件目录，开发者往目录里加文件就能扩展功能，不用写复杂的编排代码。这对前端和全栈开发者比较友好，降低了搭建智能体的门槛。不过正文没披露支持哪些模型，也没有性能基准测试，实际效果和生态成熟度还需要观望。

#Vercel

精选理由

目录即智能体的设计挺巧妙，降低了前端开发者的上手门槛。但文章缺少模型支持细节、基准测试和生态成熟度信号。评分 62，tier all——等更多细节出来再重新评估。

一句话点评

Vercel 开源了 Eve，把每个 AI 智能体做成一个文件目录，加文件就能加功能，不用写编排代码。对前端/全栈开发者友好，降低了搭智能体的门槛。但正文没披露支持哪些模型，也没有性能基准测试，实际效果和生态成熟度还需要观望。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

17:20

1d ago

持续报道 · 1dFEATUREDThe Verge · AI· rssEN17:20 · 06·17

皮尤民调：三分之二美国人认为 AI 发展速度过快

皮尤研究中心最新调查显示，美国人对 AI 的担忧在上升——三分之二的受访者认为 AI 发展速度过快。同时，聊天机器人的使用率也在涨，但用户一边用一边不放心。正文没披露样本量、调查时间和人口统计细分，所以这个比例能代表多大范围的人群还不好说。

#Pew Research Center#The Verge

精选理由

皮尤研究中心有机构信誉，但正文只披露了一个百分比，没有样本量、调查日期或人口统计细分——信息太薄，不值得重点推荐。HKR 全部偏弱：标题有钩子但正文没展开；K 缺少方法论细节；R 有话题共鸣但被信息缺口拖累。

一句话点评

皮尤最新民调：63%美国人觉得AI跑太快了，但用ChatGPT的人反而翻了一倍，嘴上说不要身体很诚实。

锐评

皮尤研究中心6月17日发布的这份民调，最扎眼的数据是63%的美国人认为AI发展速度过快，比去年又高了几个点。但同一份报告里，ChatGPT的使用率从去年到今年直接翻了一番。这说明公众的焦虑和实际行为是割裂的：一边担心失控，一边自己先用上了。报道没给出样本量和误差范围，这点得打个折。另外，民调只问了“快不快”，没追问具体怕什么——是怕丢工作、怕假信息泛滥，还是单纯对技术陌生。这些缺口让“三分之二”这个数字听起来很唬人，但实际能指导政策的价值有限。如果是真的，这组数据对AI公司是个信号：用户增长不一定等于信任增长。产品铺得越快，公众的警惕性可能越高，后续监管压力只会更大。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

17:11

1d ago

持续报道 · 1d● P1FT · 科技· rssEN17:11 · 06·17

Anthropic CEO在G7呼吁建立统一的全球AI监管框架

Anthropic 的 CEO 在 G7 会议上呼吁各国不要各自为政搞 AI 监管。他的理由是：规则不统一会拖慢安全研究，企业也得应付一堆互相打架的标准。正文没披露他具体提了什么统一方案，也没说点名批评了哪个国家的政策。

#Anthropic#G7#Policy

精选理由

Anthropic CEO在G7会议上呼吁各国别搞分裂式AI监管——话题有共鸣，但全文付费墙，零具体细节。太薄，不值得上推荐位。

一句话点评

两家头部AI公司CEO在G7会上提议建排华联盟，正文被Reddit屏蔽，具体提案细节没看到。

锐评

这条消息本身值得关注，但信息缺口很大。Anthropic和DeepMind的CEO在G7会议上提议建一个美国主导的AI联盟，明确要把中国排除在外。这基本是把AI竞争从商业层面直接拉到地缘政治层面，等于公开要求G7国家在AI基础设施、人才、标准上搞一个“朋友圈”，不带中国玩。但具体怎么操作，正文没披露。Reddit原帖被网络策略拦截，我们只看到标题和一张图，没有提案原文，也没有会议纪要。所以不知道这个联盟是管芯片出口、模型开源、还是人才流动，也不知道G7其他国家的反应。如果是真的，这比单家公司禁售影响更大，等于在制度层面划阵营。但先别太激动，CEO提议和实际落地差很远，G7内部利益也不一致。后续得看有没有官方声明或会议记录流出来，才能判断这是真动作还是表态。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

17:07

1d ago

持续报道 · 1dHacker News 首页· rssEN17:07 · 06·17

美国民调：仅16%民众认为AI对社会有正面影响

一项新研究显示，只有16%的美国人相信AI会对社会产生正面影响，比例比去年更低。文章没有披露调查机构、样本量或误差范围，所以这个数字的可靠性要打个问号。不过趋势本身值得留意：公众对AI的信任在下降，而不是上升。

精选理由

标题抓眼球，但正文没交代调查机构、样本量和误差范围，16%这个数字可靠性存疑。公众信任下降的趋势值得留意，但文章缺乏方法论细节，不适合作为重点推荐。

一句话点评

只有16%的美国人认为AI对社会有正面影响，剩下的人要么觉得坏，要么无所谓。这个数字来自一项新研究，但正文没披露样本量、调查机构和具体问题措辞，所以这个比例到底有多可靠要打个问号。如果样本只有几百人或者问题带引导性，那这个数字的参考价值就有限。缺的是调查的完整方法论和原始问卷。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:14

1d ago

FEATUREDHacker News 首页· rssEN16:14 · 06·17

Adam 开源了 CADAM，一个用自然语言直接生成可编辑 CAD 模型的网页工具

YC W25 的创业公司 Adam 把他们的文字生成 CAD 工具 CADAM 开源了，仓库已经拿到 4.1k 星和 543 个 fork。简单说，你打字描述想要什么零件或结构，它就在网页里给你生成一个能编辑的三维模型，把学 CAD 软件的门槛从“啃操作手册”降到了“说人话”。不过 README 里没写底层用的是什么模型、支持导出哪些 CAD 格式，也...

#Adam (YC W25)#CADAM

精选理由

YC W25、开源、4.1k 星——文字转 CAD 这个切入点挺新鲜。但 README 缺了模型细节和导出格式，知识密度上不去，刚好卡在 featured 门槛上。

一句话点评

YC 孵化的 Adam 把文字生成 CAD 开源了，4.1k 星说明大家确实想绕开操作手册直接说人话建模，但正文没披露模型和精度，先当早期方向看。

锐评

Adam 是 YC W25 的项目，这次开源的是 CADAM，一个在网页里用自然语言生成可编辑三维模型的工具。仓库已经拿到 4.1k 星和 543 个 fork，热度不低，说明“打字出模型”这个方向确实戳中了很多人的痛点——传统 CAD 软件学习曲线太陡，能把门槛降到描述需求就能出图，对非专业用户吸引力很大。但 README 里关键信息缺得比较多：没写底层用的是什么模型、支持导出哪些 CAD 格式，也没有精度或可用性方面的基准测试。这意味着你现在很难判断它生成的模型到底能不能直接进生产流程，还是只适合快速出个概念草图。另外，开源仓库本身没提训练数据来源和模型规模，如果是靠大模型 API 做推理，那实际使用成本和延迟也得打个问号。整体看，这是一个方向清晰但验证还薄的开源工具。值得关注的是它把“说人话建模”这条路跑通了 demo，但离“能用的 CAD 替代品”还差模型细节、格式兼容性和精度数据这三块拼图。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

16:08

1d ago

FEATUREDAI HOT 精选· aihot-apiZH16:08 · 06·17

谷歌发布 ARD 开放规范，让 AI 智能体跨公司找工具、验身份

谷歌和一批行业伙伴搞了个叫 ARD（Agentic Resource Discovery）的开放规范，专门解决一个实际问题：当你的 AI 智能体需要调用外部工具、技能或别的智能体时，怎么知道该找谁、信得过、连得上。现在各家平台都有自己的小本本，跨公司就抓瞎了。ARD 的思路是，每家公司在自家域名下挂一个公开的“能力目录”，然后由搜索引擎一样的“注册中心...

#Google#Google Cloud#Gemini Enterprise Agent Platform

精选理由

谷歌推的是一个 agent 互操作规范，有具体机制，不是空谈概念。但这是规范发布，不是产品上线，离真正普及还远，所以分数压在 78。正文没列出具体合作伙伴名字，生态支持力度还不明朗，这点先别太激动。

一句话点评

谷歌推了个叫ARD的开放规范，让AI智能体跨公司找工具时能先验明正身再直连，但正文没给定价和正式上线时间。

锐评

这条新闻的核心是谷歌想给AI智能体建一套“跨公司黄页”。现在各家平台都有自己的工具目录，但出了自家地盘就抓瞎。ARD的思路很直接：每家公司在自家域名下挂一个公开的“能力目录”，然后由类似搜索引擎的注册中心去爬取、索引，智能体用自然语言一搜就能找到可用的工具或别的智能体，拿到信任凭证后再点对点直连。这个设计把身份验证绑在域名所有权上，比另搞一套证书体系轻量。谷歌云已经在Gemini企业智能体平台里内置了Agent Registry，支持命名空间和出口策略，说明不是纯纸上谈兵。但文章没披露这套注册中心是谷歌自己运营还是允许第三方建，也没说爬取频率、目录格式的强制程度，以及最关键的成本——企业挂目录免费，但注册中心的查询调用怎么收费完全没提。对从业者来说，如果ARD真能推成行业共识，跨组织的智能体协作会省掉大量手工对接的脏活。但这点先别太激动，规范刚发布，合作伙伴名单里没看到几家大云厂商之外的重量级玩家，生态冷启动是个硬坎。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:47

1d ago

AI HOT 精选· aihot-apiZH15:47 · 06·17

Databricks 开源 Omnigent：一个会话里同时跑 Claude Code、Codex、Cursor 等多个编程智能体

Databricks 把内部用的元框架 Omnigent 开源了，它让你在一个实时会话里同时调度 Claude Code、Codex、Cursor、Pi 以及你自己搭的智能体，像组了个 AI 编程小队。项目由 Matei Zaharia 带队，公告里特意提了他还在大量写代码。目前只有开源声明，没给架构细节、跑分或使用限制，实际效果和协作开销都还不清楚。

#Code#Databricks#Matei Zaharia#Anthropic

精选理由

Databricks 把内部用的多智能体编程框架开源了，Matei Zaharia 带队，可信度加分。一个会话调度多个编程智能体的想法有新鲜感，但公告没给架构细节或跑分，K 轴暂时撑不起来。分数卡在 feature 线下面一点，等有实测数据再调整。

一句话点评

Databricks 把内部用的 Omnigent 开源了，它让你在一个会话里同时调度 Claude Code、Codex、Cursor、Pi 和你自己搭的智能体，像组了个 AI 编程小队。Matei Zaharia 带队，公告特意提了他还在大量写代码。目前只有开源声明，没给架构细节、跑分或使用限制，实际效果和协作开销都还不清楚。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

15:29

1d ago

FEATUREDHacker News 首页· rssEN15:29 · 06·17

Greptile 推出 TREX：一个会真跑代码的 AI 审查员

Greptile 给代码审查加了一层执行能力，不只是看代码改动，而是把代码跑起来、截图、抓运行时 bug。TREX 不是独立产品，而是主审查员手下的子代理，共享上下文、并行干活，不用重复扫代码库。他们踩过坑：独立代理生成的测试跟用户需求不沾边，合并成一个代理又因为要管启动服务、截图、跑测试这些事导致上下文过载。现在的方案是让主审查代理当调度员，针对每个...

#Greptile#Shlok Mehrotra

精选理由

Greptile 给 AI 代码审查加了个执行层，不是光看代码改动，而是真跑代码、截图、抓运行时问题。文章把踩坑过程摊开来讲——独立代理写的测试跟需求脱节，合并成一个代理又因为要管启动服务、截图、跑测试这些事导致上下文过载，最后让主审查代理当调度员、子代理并行干活才跑通。架构教训实在，但受众窄，所以 H 和 K 都站得住，R 就弱一些。

一句话点评

Greptile 让 AI 审查代码时不止看 diff，还直接跑代码、截图抓运行时 bug，但正文没给准确率或误报率，效果先打七折。

锐评

Greptile 这篇讲的是他们给 AI 代码审查加了一个叫 TREX 的执行层，让审查代理不只是读代码改动，而是把代码跑起来、截图、抓运行时才会暴露的 bug，比如 UI 加载后的错位、需要特定状态触发的逻辑错误。他们踩过的坑挺实在：一开始把 TREX 做成独立代理，结果它生成的测试跟用户实际需求不沾边；后来想合并成一个代理，又因为要同时管启动服务、截图、跑测试这些事，上下文直接过载。现在的方案是让主审查代理当调度员，针对每个问题单独派一个 TREX 子代理去跑，共享上下文但并行干活，不用重复扫代码库。文章把架构演进讲清楚了，但缺了最关键的东西——没给任何量化数据。不知道 TREX 抓运行时 bug 的召回率是多少，误报率多少，也没说跑一次审查要多花多少时间和算力。如果是真的能稳定抓到静态审查漏掉的 bug，这个思路有价值；但在看到数字之前，只能当工程实践参考，不能当效果背书。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

15:27

1d ago

持续报道 · 1d彭博科技· rssEN15:27 · 06·17

ASML CEO 警告：马斯克的 Terafab 超级芯片工厂可能买不到足够的光刻机

ASML 的 CEO 公开说，马斯克那个规模超大的 Terafab 芯片项目，可能会遇到设备供应瓶颈。Terafab 的体量太大，需要的光刻机数量远超目前产能。CEO 把这称为对全球供应链的一次压力测试。正文没披露具体缺多少台、以及时间节点，所以这点先别太激动，但如果是真的，整个芯片制造设备行业都得重新排产。

#ASML#Elon Musk#Terafab

精选理由

ASML 的 CEO 公开说马斯克的 Terafab 项目可能遇到设备供应瓶颈，话题本身有热度（H+R 都成立），但正文信息太薄——没给缺多少台、缺在什么时候、具体哪个环节卡住，K 轴几乎为零。重要性给 55 合理：有意思但不够实，适合全量推送。

一句话点评

ASML CEO 公开说马斯克的 Terafab 芯片项目可能卡在设备供应上——规模太大，光刻机产能跟不上。他把这称为全球供应链的“压力测试”。正文没披露具体缺多少台、什么时间点，所以这点先别太激动。如果是真的，整个芯片设备行业都得重新排产，ASML 自己也得掂量产能分配。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

15:26

1d ago

AI HOT 精选· aihot-apiZH15:26 · 06·17

MolmoMotion：用自然语言指挥视频里的物体做 3D 动作预测

Allen AI 开源了一个模型，你给它一段视频、标出物体上的几个 3D 点，再配一句人话指令（比如“把桌上那个装水果的木碗挪一挪、转一转”），它就能预测接下来几秒这些点会怎么动。模型分两个版本：MolmoMotion-AR 是一步一步猜坐标，像写作文一个字一个字往外蹦；MolmoMotion-FM 用流匹配，能处理同一个指令下多种可能的运动轨迹，不会...

#Allen AI#Molmo 2

精选理由

Allen AI 开源了一个语言引导的 3D 运动预测模型，你给它一段视频、标几个 3D 点，再配一句人话指令，它就能猜接下来这些点会怎么动。模型分两个版本：MolmoMotion-AR 是一步一步猜坐标，像写作文一个字一个字往外蹦；MolmoMotion-FM 用流匹配，能处理同一个指令下多种可能的运动轨迹，不会只给一个死答案。交互方式确实比传统方法直观，技术上也解决了多轨迹生成的问题。但正文没提任何产品计划或部署细节，就是一篇研究发布，从业者大概率看完就划走了，不会立刻动手试。

一句话点评

Allen AI 开源了 MolmoMotion，给视频里物体标几个 3D 点，说句人话指令（比如“把木碗挪一挪”），它就能预测接下来几秒这些点怎么动。两个版本：AR 版一步步猜坐标，像写作文；FM 版用流匹配，能处理同个指令下多种可能的运动轨迹。还附带 116 万条视频的数据集和 2700 条人工验证的基准。模型权重、数据全开源。短评：把语言指令和 3D 点轨迹对齐，思路挺直接。116...

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

15:00

1d ago

持续报道 · 1dTechCrunch AI· rssEN15:00 · 06·17

给机器人攒训练数据又脏又累，已经有AI实验室在花钱雇人干了

想让物理AI达到大语言模型那种水平，得先解决数据问题。正文没披露XDOF是谁、怎么收费，只确认已经有实验室在花钱买机器人训练数据了。

#XDOF

精选理由

标题有钩子，但正文太薄——没披露XDOF是谁、定价或数据规模。只有H能打中；K和R缺少支撑事实。按规则，落到低档：55，tier=all。

一句话点评

机器人训练数据收集又脏又累，已有AI实验室花钱找XDOF代劳。正文没披露XDOF是谁、怎么收费，只确认了需求存在。如果真能规模化，等于把数据采集外包，可能加速物理AI落地。但数据质量、场景覆盖、隐私合规都是未知数，这点先别太激动。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

14:30

1d ago

Hacker News 首页· rssEN14:30 · 06·17

Epic 开源了自家用的版本控制工具 Lore，专治大文件和多人协作的卡顿

Epic Games 把内部在用的版本控制系统 Lore 开源了，MIT 协议。它用内容寻址存储和默克尔树来管仓库，大文件会被切成小块去重，只在你用到时才下载，所以工作区能保持轻量。分支创建和切换几乎没开销。目标用户是游戏和影视这类代码混着巨大二进制素材的项目。SDK 覆盖 C/C++、C#、Rust、Go、Python 和 JavaScript。正文...

#Epic Games#Open source

精选理由

Epic 开源内部工具本身有新闻性，架构对游戏影视开发者也有参考意义，但 VCS 迁移门槛太高了。正文只给了个落地页级别的介绍，没写内部用了多久、规模多大、跟 Perforce 的实际对比数据，所以更像技术参考而不是行业震动。我会先打个折，重要性给 68。

一句话点评

Epic Games 把内部版本控制系统 Lore 开源了，MIT 协议。核心思路是用内容寻址和默克尔树管仓库，大文件切块去重，按需下载，工作区很轻。分支创建切换几乎零开销。目标很明确：游戏和影视这类代码混着巨大二进制素材的项目。SDK 覆盖 C/C++、C#、Rust、Go、Python、JavaScript。关键信息：正文没披露生产环境是否就绪，也没有任何性能对比数据。所以“快”和“...

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

14:26

1d ago

Hacker News 首页· rssEN14:26 · 06·17

五角大楼用生成式 AI 替国会写报告，还声称有 150 万用户

美国国防部长 Pete Hegseth 在 5 月 12 日的预算听证会上说，国防部现在每年用生成式 AI 起草几百份国会要求的报告。但正文没披露用的是哪个模型、谁在审核输出、出错率是多少。五角大楼还声称有 150 万军职和文职人员在使用生成式 AI 工具，不过没区分是主动使用还是被动接触。在拿到详细分类之前，这个数字我会先打个折。

#US Department of Defense#Pete Hegseth

精选理由

场景有新鲜感，但信息太薄——模型、审核流程、错误数据全没给，150 万用户数也没拆开看。我会先给这个数字打个折，属于有意思但缺料的政策新闻，不适合当主打。

一句话点评

五角大楼说现在每年用AI起草几百份国会报告，还号称150万人用AI工具。但正文没披露用哪个模型、谁审核、出错率多少，150万里有多少是主动用也不清楚。在拿到详细分类前，这个数字我会先打个折。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

14:20

1d ago

FEATUREDHacker News 首页· rssEN14:20 · 06·17

AI 要求更强的工程纪律，而不是更弱

Charity Majors 澄清她没让人跳过代码审查。她回顾了 AI 写代码从 2025 年初的“废料”到年底 Opus 4.5 发布后达到普通工程师水平的过程，代码生产成本几乎降为零。她强调，软件团队真正的产出是共享理解，而不是代码行数。正文没有列出她具体推荐的新纪律，但指出当代码变得像一次性耗材时，靠读代码来理解系统已经不够用了。

#Code#Charity Majors#Opus 4.5

精选理由

Charity Majors 澄清她没让大家跳过代码审查，核心论点是：当代码生产成本趋近于零，过去靠读代码来建立系统理解的老办法会失效。她把 Opus 4.5 作为一个分水岭，让论点有了时间感，但正文没列出她具体推荐的新纪律是什么，这点先别太激动。整体是对‘AI 时代工程实践该怎么变’的一次清醒喊话，不是技术方案。

一句话点评

代码审查不能扔，但只靠读代码理解系统已经不够了，因为 AI 把代码生产成本几乎打到了零。

锐评

Charity Majors 这次把话说得很清楚：她没让大家跳过代码审查。她真正想提醒的是，当 AI 写代码从 2025 年初的“废料”进化到年底 Opus 4.5 那种普通工程师水平，代码本身就不再是团队的核心产出。生产成本几乎为零，意味着代码会像一次性耗材一样泛滥，靠一行行读代码来建立共识会越来越不靠谱。她没在正文里列出具体该补哪些新纪律，这点比较可惜。但她的判断方向是对的：团队真正的产品是共享理解，不是代码行数。如果代码变得廉价，那审查、测试、文档这些环节的重心都得从“检查代码对不对”转向“确认大家想的是不是一回事”。文章缺的是实操建议，比如新的验证流程长什么样、人机协作的边界怎么划。她自己也说这只是回应质疑，不是完整方案。所以这条值得点开看判断，但别指望拿到现成 checklist。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:15

1d ago

持续报道 · 1dTechCrunch AI· rssEN14:15 · 06·17

Pramaana Labs 拿 2700 万美元种子轮，要给 AI 做数学证明式的可靠性验证

Khosla Ventures 领投了这轮 2700 万美元。Pramaana 瞄准的是法律、药物研发、报税这类容错率极低的领域，在这些场景里 AI 出错成本很高。不过正文没披露他们具体用什么技术路线、产品什么时候出来，这点先别太激动。

#Pramaana Labs#Khosla Ventures

精选理由

Khosla 领投 2700 万美元种子轮，方向是给 AI 加形式化验证，瞄准法律、药物研发、报税这些出错成本极高的领域，所以 H 和 R 都站得住。但正文没给任何技术细节或产品计划，K 不成立，整体放在 all 档。

一句话点评

Khosla Ventures 投了 2700 万美元种子轮给 Pramaana Labs，专攻法律、药物研发、报税这类容错率极低的场景——AI 在这些地方出错成本太高。但正文没披露具体技术路线和产品时间表，这点先别太激动。短评：2700 万种子轮押注高容错场景，但技术细节和产品时间表都没披露，先观望。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

13:00

1d ago

Hacker News 首页· rssEN13:00 · 06·17

对话红利：为什么跟人聊比一个人想更管用

走廊里五分钟的闲聊，能解决一个人闷头想一周都搞不定的问题。原因有三：第一，把想法说出口逼你必须把模糊的感觉变成有主谓宾的句子，这本身就是一种强制精确化；第二，对方的反应——皱眉、追问、点头——实时帮你纠偏，而一个人想的时候没有这个反馈回路；第三，人类推理能力本来就是社交工具，不是用来独自求真的，独处思考只是这个能力的二手用法。远程办公和AI工具正在系统...

#Jakub Skoczeń#Hugo Mercier#Dan Sperber

精选理由

一篇讲对话价值的认知科学随笔，论点有趣（H），也切中远程办公时代的人际疏离感（R），但缺少新数据或可落地的洞察（K），属于观点类文章，适合推给所有人，不值得上首页推荐。

一句话点评

走廊闲聊比闷头想一周更管用，因为说话逼你把模糊感觉变成有主谓宾的句子，对方的皱眉追问实时纠偏，而独处没这个反馈回路。作者引用认知科学：推理能力本是社交工具，不是用来独自求真的。远程办公和AI工具正在系统性地消灭这种非正式交流——LLM默认讨好用户，即使你让它反驳，它最终也会顺从。真正的对话红利需要一个会主动抬杠的听众。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

13:00

1d ago

持续报道 · 1d● P1The Verge · AI· rssEN13:00 · 06·17

Google发布六年来首款新智能音箱搭载Gemini助手

Google 会在 6 月 24 日开卖一款叫 Google Home Speaker 的新智能音箱，定价 49.99 美元。这是自 2020 年 Nest Audio 之后 Google 第一次发新的音箱产品。它运行的是 Gemini for Home，也就是说你可以跟它连续对话，不用每句都喊一遍“Hey Google”，助手能记住上下文。外观是个裹...

#Google#Gemini for Home

精选理由

Google 六年来的第一款新音箱，49.99 美元定价配上 Gemini 连续对话，产品更新是实打实的。但智能音箱现在不算热赛道，行业影响力有限，所以 H 和 K 都站得住，R 偏弱，整体停在 featured 72 分这个位置。

一句话点评

谷歌把Gemini塞进音箱，99美元定价直接对标亚马逊Echo，但正文没给任何硬件或功能细节。

锐评

谷歌这次用99.99美元的价格把Gemini模型装进了智能音箱，摆明了要和亚马逊Echo抢客厅入口。这个定价不算贵，如果真能把大模型的多轮对话和复杂指令理解跑顺，会比现在只会定闹钟、查天气的智能音箱好用一大截。但问题在于，目前所有报道都只给了标题和价格，正文完全没披露这款音箱到底用了哪个版本的Gemini、是端侧跑还是云端调、延迟多少、支持哪些语言。这些信息直接决定它是个能聊天的真升级，还是又一个套了AI壳的旧硬件。另外，谷歌之前Nest系列的产品线已经够乱了，这次是替代旧款还是另开新线，也没说清楚。如果是真的把大模型塞进百元音箱还能保持低延迟，那挺省钱也挺实用；但如果只是云端调API，那和手机上的语音助手没本质区别，没必要专门买个音箱。先别太激动，等实测出来再看。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

13:00

1d ago

AI HOT 精选· aihot-apiZH13:00 · 06·17

Cloudflare 开源 One stack：让 AI 智能体帮你自动部署零信任网络

Cloudflare 今天开源了一套叫 One stack 的技能包，你可以把它喂给任何 AI 智能体，让智能体自动配置、部署和管理零信任网络。以前团队得手动回忆网络拓扑、应用认证方式、流量规则，现在智能体可以直接调 Cloudflare API、查配置、改策略。这套技能包来自 Cloudflare 过去几千次客户迁移的经验，覆盖远程接入、VPN 替换...

#Cloudflare#Zscaler#Palo Alto Networks#Open source

精选理由

Cloudflare 开源了一套叫 One stack 的技能包，让 AI 智能体直接调 API 去配置零信任网络，素材来自他们几千次客户迁移。H 和 K 都踩中了：把迁移经验产品化成智能体可用的工具，这个角度比一般自动化脚本更新鲜，而且有具体场景和真实来源支撑。但 R 偏弱——国内企业用 Cloudflare 零信任的本来就少，读者很难有切身感受，所以整体重要性我给 68 分，不往上拉了。

一句话点评

Cloudflare 开源了一套技能包，喂给 AI 智能体就能自动配置零信任网络，不用再手动回忆拓扑和策略。核心卖点是打包了自家几千次客户迁移的经验，覆盖远程接入、VPN 替换等场景。但正文没披露支持哪些智能体框架或模型，也没说实际效果比人工好多少。如果是真的，能省不少运维人力，但先别太激动——技能包质量取决于 Cloudflare 后续维护和社区贡献。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

12:48

1d ago

AI HOT 精选· aihot-apiZH12:48 · 06·17

有人拿 Grok Imagine Video 1.5 跑了《权游》片段，效果接近电影级，价格比 seedance 便宜一大截

一位用户用 xAI 的 Grok Imagine Video 1.5 生成了两段《权力的游戏》场景：龙妈骑龙飞越君临城，以及 Tyrion 的法庭演讲。火焰特效、物理运动、原生音频、面部微表情和布料动态都做得挺自然，观感上不输 seedance 2。用户特别提到价格低，对比自己刚充的 6000 多元 seedance 会员，觉得这笔账很划算。不过正文没...

#xAI#Grok Imagine Video 1.5#seedance 2

精选理由

一条带价格对比的用户实测，画质和成本都说得很具体，但本质是个人体验分享，不是产品发布或行业动态。H 和 K 都踩中了，R 没触发，按规则落在 all 档。

一句话点评

用户实测Grok Imagine Video 1.5生成《权游》片段，火焰、布料、微表情都挺自然，观感不输seedance 2。最大卖点是价格低——对比刚充的6000多元seedance会员，这笔账很划算。但正文没披露生成耗时、单条成本、分辨率或是否支持长视频，这些才是落地关键。如果是真的，性价比确实能打。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

12:46

1d ago

FEATUREDAI HOT 精选· aihot-apiZH12:46 · 06·17

阿里云发布 HappyOyster 1.0，输入一句话就能生成可以走动、跳跃、打怪的实时交互 3D 场景

阿里云在 6 月 17 日推出了一个叫“快乐生蚝”的世界模型产品。它跟传统视频生成不一样，不是等渲染完再看，而是在生成过程中就能用键盘或指令实时控制画面里的角色移动、攻击、跳跃。目前开放了两种玩法：一种是“实时导演”，可以随时暂停改写剧情走向；另一种是“世界探索”，像玩游戏一样在生成的场景里自由移动和交互。产品从今年 4 月开始内测，现在官网能体验，但...

#Alibaba Cloud#HappyOyster

精选理由

阿里云直接放出了一个能交互的世界模型产品，不是论文也不是 demo 视频。实时控制画面这点把生成从“看”拉到了“玩”，对从业者来说是个能动手验证的新玩具。不过正文没写技术细节、成本、延迟和模型规模，实际能不能扛住生产环境的复杂度还得自己上手测。

一句话点评

阿里云把世界模型做成了能实时交互的“游戏引擎”，但正文没披露模型参数、训练数据和定价，实际效果得自己上手试。

锐评

HappyOyster 1.0 把“一句话生成世界”从视频渲染变成了实时可玩的交互场景，这跟传统文生视频是两条路。它允许你在生成过程中用键盘或指令控制角色移动、攻击，相当于把世界模型做成了一个轻量级游戏引擎。目前开放了“实时导演”和“世界探索”两种玩法，4 月开始内测，现在官网能体验，但官方没公布模型规模、训练数据来源和推理成本。从产品形态看，实时交互对延迟和一致性的要求比离线生成高得多，如果体验流畅，说明底层架构做了针对性优化。但“深度学习物理世界状态转移规律”“保持长程一致性”这些说法，在没有技术报告和第三方评测的情况下，只能当作产品宣传。还缺几块关键信息：一是模型参数量和推理所需算力，这直接决定能否大规模开放；二是收费模式，目前只提到送体验积分；三是生成场景的边界在哪，比如复杂物理交互、多人协作支不支持。这些没补上之前，把它看作一个有趣的交互原型比看作成熟产品更合适。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:11

1d ago

Hacker News 首页· rssEN12:11 · 06·17

六成美国消费者反感品牌文案里提AI

WordPress VIP 的《2026 年网络未来》报告显示，74% 的消费者觉得现在的互联网比十年前更没人情味，平均上网 40 分钟就会感到“机器人疲劳”——觉得内容太假、不想看了。61% 的人想不出哪个品牌把 AI 用在了点子上。报告建议品牌把网站做成“AI 拿干净数据、人拿真实价值”的地方，而不是在营销文案里硬塞 AI 热词。

#WordPress VIP

精选理由

WordPress VIP的年度报告提供了真实的消费者态度数据，三个具体数字都有新闻价值。但报告是厂商自己出的（卖CMS和分析工具），没披露调研方法和样本量，结论要打折看。HKR三个维度都沾边，但每个都不算特别强——反直觉但样本不明，有数字但来源偏软，有相关性但厂商立场明显。

一句话点评

短评：六成美国消费者看到品牌文案提“AI”就反感，别急着往广告里塞AI标签了。 WordPress VIP的调研显示，74%消费者觉得现在的互联网比十年前更没人情味，平均40分钟就感到“机器人疲劳”。61%的人甚至说不出哪个品牌把AI用在了点子上。数据来自一家卖CMS的公司，样本和方法论没披露，先打个折。但趋势本身值得注意：用户不是讨厌AI，是讨厌品牌拿AI当营销噱头。真正该做的可能是让A...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:00

1d ago

持续报道 · 1dTechCrunch AI· rssEN11:00 · 06·17

Pinterest 推出一款实验性 AI 购物应用“Ask Pinterest”，用对话帮你挑东西

Pinterest 上线了一款叫 Ask Pinterest 的实验性 AI 购物应用，用户可以通过对话界面获取商品推荐和灵感。正文没透露用了哪个模型、支持哪些品类，也没说什么时候正式上线。目前就是个尝鲜版，别指望它马上能替代你逛淘宝。

#Pinterest

精选理由

一句话点评

Pinterest 出了个实验性 AI 购物应用 Ask Pinterest，让你用对话找商品推荐和灵感。正文没提用了哪个模型、支持哪些品类，也没说正式上线时间。目前就是个尝鲜版，别指望它马上能替代你逛淘宝。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

10:51

1d ago

Hacker News 首页· rssEN10:51 · 06·17

HTTP 协议新增 QUERY 方法，让带请求体的复杂查询不再需要滥用 POST

IETF 发布了 RFC 10008，给 HTTP 协议正式加了一个 QUERY 方法。它跟 POST 一样可以在请求体里塞复杂的查询参数，但区别在于 QUERY 是安全且幂等的——也就是说，重复发同一个请求不会意外改掉服务器上的数据。这对 GraphQL、搜索接口这类需要结构化查询的场景很实用，以前它们只能借用 POST 来传请求体，语义上不干净。新...

#IETF#Julian Reschke#James Snell

精选理由

IETF 把 HTTP QUERY 方法正式标准化了，让 GraphQL、搜索这类需要往请求体里塞复杂查询的场景有了语义干净的动词，不再借用 POST。对协议设计者和后端开发者是个好消息，但对 AI 圈子来说太底层了，所以留在 all 层。

一句话点评

IETF 正式给 HTTP 加了 QUERY 方法，跟 POST 一样能塞复杂查询参数，但它是安全且幂等的——重复发不会改数据。GraphQL 和搜索接口终于不用再“借用”POST 了，语义上干净很多。还带了个 Accept-Query 头做格式协商。目前是 Proposed Standard，离浏览器和 CDN 全面支持还有距离，但 API 网关和框架可以提前接。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

10:18

1d ago

FEATUREDAI HOT 精选· aihot-apiZH10:18 · 06·17

AWS 开源 Strands Robots SDK：一套代码同时跑仿真和真机，数据直接存到 Hugging Face Hub

AWS 把 LeRobot 这套机器人训练工具包封装成了一个统一的智能体，叫 Strands Robots SDK，用 Apache 2.0 协议开源。默认跑 MuJoCo 物理仿真，不用买硬件就能先试；想上真机时把参数改成 mode="real" 就行，仿真和真机代码完全一样，只差这一个关键字。你操作机器人的演示数据会被录成 LeRobotDatas...

#Robotics#AWS#Hugging Face#LeRobot

精选理由

AWS 把 LeRobot 封装成一个统一智能体 SDK，一键切换仿真和真机，对机器人开发者是个趁手工具。但纯物理机器人的话题在 AI 应用层读者里热度有限，R 轴没完全打满，刚好卡在 featured 门槛上。

一句话点评

AWS 把 LeRobot 包成统一 SDK，仿真和真机只差一个参数，不用买硬件就能先跑。但正文没提真机测试的机器人型号和成功率，这点先别太激动。

锐评

AWS 这次开源了一个机器人开发 SDK，核心是把 LeRobot 这套训练工具包封装成一个统一的智能体，让开发者从仿真到真机部署的代码几乎不用改。默认跑 MuJoCo 物理仿真，不用买硬件就能先试；想上真机时把参数改成 mode="real" 就行，仿真和真机代码完全一样，只差这一个关键字。操作机器人的演示数据会被录成 LeRobotDataset，可以直接推到 Hugging Face Hub 上共享，然后用 GR00T 或 LerobotLocal 这类策略模型跑推理，再通过 Zenoh mesh 广播命令到多台机器人。这套东西对想快速上手机器人开发的团队挺友好，尤其是仿真零成本起步、代码统一这点，省掉了仿真转真机时重写代码的麻烦。示例在笔记本上就能跑，要求 Python 3.12+、Linux 或 macOS，不需要 GPU。但正文没披露真机测试的具体情况——用了哪些机器人型号、任务成功率多少、延迟表现如何，这些关键指标都缺。另外，Zenoh mesh 广播到多台机器人的同步精度和稳定性也没提。如果是真的省钱省事，那对教学和小团队验证想法很有用；但真要上产线，还得等更多真机验证数据出来再说。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

10:10

1d ago

持续报道 · 1d量子位 · 公众号· rssZH10:10 · 06·17

星海图创始人高继扬：具身智能没有捷径，数据、模型、生态得一层层爬

星海图办了一场开发者大会，把家底和朋友圈都亮了出来。先说数据，他们和北京亦庄合伙搞了个数据公司，目标是攒够100万小时的真机数据，光采集成本就要1到2个亿。CEO高继扬觉得这笔钱必须花，因为数据和算力的成本比例大概是1:10，数据不行，后面烧再多算力也白搭。模型这边，他们开源了新的VLA基础模型G0.5，能把看、想、动串在一起连续生成。但CTO赵行也交...

#星海图#Galaxea#高继扬

精选理由

星海图这次把家底亮得挺实在，100万小时真机数据和1:10的成本比例都是能拿来算账的数字，信息密度够。但说到底是一家公司的路线发布，不是行业级事件，我会先打个折，因为具身智能的受众面还没那么宽。

一句话点评

星海图把账算得很直白：100万小时真机数据要花1-2亿，但数据和算力成本是1:10，数据不行后面烧算力也白搭。这个逻辑成立，前提是真机数据确实比仿真管用——他们自己承认仿真数据“差异较大”，但正文没给出真机数据在具体任务上比仿真好多少的量化对比。G0.5模型开源了，但用到自家双足机器人Kengo上至少要等年底，卡在端侧算力不够，这点先别太激动。商业模式从卖整机到卖方案再到卖“物理世界Toke...

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

10:00

1d ago

持续报道 · 1d● P1OpenAI 博客· rssEN10:00 · 06·17

GPT-5.4在自动化实验室改进药物合成反应产率至25.2%

OpenAI 把 GPT-5.4 连到了 Molecule.one 的自动化化学平台 Maria 上，让它自己设计实验来改进一类药物合成反应。模型挑中了 Chan-Lam 偶联里最难搞的底物之一——伯磺酰胺，并提议用 TEMPO 做温和氧化剂。跑了两轮实验后，88% 的硼酸和 83% 的磺酰胺底物产率都有提升，平均产率从 16.6% 涨到 25.2%，...

#OpenAI#Molecule.one#GPT-5.4

精选理由

硬排除规则 #4：传统科学 + AI 交叉，没有 agent 或产品层面的含义。GPT-5.4 连到自动化化学平台优化药物合成——AI 只是传统研究的工具，对 AI 从业者没有直接价值。分数上限 39。

一句话点评

GPT-5.4 在自动化实验室里把一种难做的药物合成反应产率从 16.6% 提到了 25.2%，靠的是它自己翻文献后提议加 TEMPO 这个温和氧化剂。

锐评

OpenAI 把 GPT-5.4 接入了 Molecule.one 的自动化实验室 Maria，让它自己提方案、做实验、分析数据，目标是改进 Chan-Lam 偶联反应里最难搞的一类底物——伯磺酰胺。模型没让人手把手教，自己翻完文献后提议加 TEMPO 这种温和氧化剂，结果在 88% 的硼酸和 83% 的磺酰胺底物上产率都有提升，平均产率从 16.6% 涨到 25.2%，超过 30% 产率的反应比例也从 15.6% 翻到 37.5%。后续人工在常规实验台上复现，14 组里有 11 组产率更高，多数翻了一倍以上。这个数字绝对值不算高，25.2% 的平均产率在合成化学里依然偏低，但提升幅度和底物覆盖面说明方向是对的。文章也坦承这只是早期结果，而且整个流程里人类还是参与了选题把关、实验计划微调和最终验证，不是全自主。目前没披露的是：模型提议 TEMPO 的逻辑链路有多深，是碰巧撞上还是真有化学直觉；另外 10,080 次实验的总成本和耗时也没给，没法判断这种“AI 化学家”模式离日常药物研发管线有多远。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

09:48

1d ago

Hacker News 首页· rssEN09:48 · 06·17

Brevio：184 个免费浏览器工具，PDF/图片/开发/AI 都能用，不上传不注册

Brevio 上线了 184 个免费浏览器工具，分 12 类：PDF 处理、图片编辑、开发者工具、计算器、加密币、AI 模型对比等。所有工具都在本地运行，不上传文件、不要求注册。对 AI 从业者来说，有个 LLM Benchmark Comparison 工具，可以直接在浏览器里对比模型评分。但正文没披露具体包含哪些模型和基准来源，工具列表里能看到入口。

#Brevio

精选理由

个人项目，184 个免费浏览器工具本地运行，诚意有但信息密度低。LLM 对比工具是唯一跟 AI 相关的功能，但正文没披露模型列表和基准来源。H 靠大数字撑住，K 和 R 都弱。

一句话点评

184个免费浏览器工具，PDF、图片、开发、AI模型对比都有，全在本地跑，不上传不注册。对AI从业者来说，LLM Benchmark Comparison能直接比模型分数，但正文没披露具体模型和基准来源，工具列表里能看到入口。这点先别太激动，数据源和更新频率未知，当个快速参考还行，别当权威榜单。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

09:45

1d ago

AI HOT 精选· aihot-apiZH09:45 · 06·17

火山引擎Kickart 3.0：用对话生成广告视频，还能复制爆款逻辑

火山引擎把营销创作平台Kickart升级到3.0，现在你不需要剪辑软件，跟它聊几轮就能调商品图、改故事板，直接生成营销视频。新功能“爆款裂变”挺实用：扔一个视频链接过去，它自动拆解爆款逻辑，再套到你的新商品上重做一条。平台接了Seedance 2.0 mini，也支持抖音电商内容预审。交付方式有SaaS、API和Skill三种。正文没披露Seedanc...

#Volcano Engine#Kickart#Seedance 2.0 mini

精选理由

Kickart 3.0 是火山引擎的常规产品更新。亮点是“爆款裂变”——粘贴视频链接，自动拆解爆款逻辑并套用到新商品上。但这是厂商自己的产品公告，没有第三方验证数据或行业影响数据，正文也没披露 Seedance 2.0 mini 的生成质量或成本，信息缺口明显。

一句话点评

火山引擎把Kickart升级到3.0，核心变化是：不用剪辑软件，跟它聊几轮就能改商品图、改故事板，直接生成营销视频。新功能“爆款裂变”挺实用：扔一个视频链接过去，它自动拆解爆款逻辑，再套到你的新商品上重做一条。平台接了Seedance 2.0 mini，也支持抖音电商内容预审。交付方式有SaaS、API和Skill三种。正文没披露Seedance 2.0 mini的规格和定价，所以不清楚生成...

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

09:12

1d ago

● P1Hacker News 首页· rssEN09:12 · 06·17

智谱开源GLM-5.2大模型，登顶开源排行榜

Z.ai 的 GLM-5.2 在 Artificial Analysis 的 Intelligence Index v4.1 上拿了 51 分，超过 MiniMax-M3 和 DeepSeek V4 Pro（都是 44 分），成了目前最强的开源权重模型。模型体量没变，还是 744B 总参数、40B 活跃参数，但科学推理和智能体任务进步明显：HLE 涨了...

#Reasoning#Agent#Code#Z.ai

精选理由

GLM-5.2 在 Artificial Analysis 的 Intelligence Index 上拿了 51 分，超过 MiniMax-M3 和 DeepSeek V4 Pro，成了最强开源权重模型。参数没变，分数涨了 11 分，科学推理和智能体任务有实打实的提升。但这是单一评测机构的单榜成绩，没有其他来源交叉验证，所以重要性给到 82 分，先打个折。

一句话点评

智谱开源GLM-5.2，编程和长任务跑分进全球前三，但部分长程基准仍落后Claude Opus 4.8一截，先别急着喊“碾压”。

锐评

GLM-5.2这次把力气花在了两个地方：一是把上下文窗口做到实打实的100万token，不是那种一到几十万就拉胯的“纸面1M”；二是让模型能扛住跨天甚至跨周的长任务，比如从零写一个多端应用并完成调试打包。在Artificial Analysis综合榜上拿了51分，和Anthropic、OpenAI并列前三，Code Arena前端开发盲测甚至排到第一。不过数字得拆开看。在考验超长周期软件工程的SWE-Marathon上，它比Opus 4.8低了13个百分点，差距不小。官方自己也说，长程任务能力介于Opus 4.7和4.8之间。所以整体定位更接近“开源最强、逼近闭源头部”，而不是全面超越。技术上有两个点值得注意：一是IndexShare方案把长上下文下的计算量压到2.9倍，推理成本控制得比较务实；二是模型发布当天就适配了华为昇腾、平头哥等一堆国产芯片，对国内开发者来说部署门槛低了不少。另外模型用MIT协议开源，商用没什么限制。目前缺的是更多第三方在真实长程任务上的横向对比，以及不同思考档位下的成本数据，这些会直接影响实际选型。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

07:04

1d ago

Hacker News 首页· rssEN07:04 · 06·17

Anthropic 发了一份创始人手册：用 Claude 从零搭 AI 公司

Anthropic 官方出了一套面向创始人的实操指南，讲怎么用 Claude 走完创业全流程——从写代码、做自动化到规模化。核心卖点：不会写代码的人也能用 Claude 直接上线产品、在招人之前先拿到收入。文章提供了框架、练习和提示词，5 分钟能读完。但正文没披露具体案例的收入或用户数，所以这个“先赚钱再招人”的说法暂时只能当方向参考，不是已验证的方法论。

#Code#Anthropic#Claude

精选理由

Anthropic 官方出的创始人指南，标题和受众定位都很准，但正文缺少具体案例数据来支撑核心主张。'不会写代码也能上线产品'这个点确实能吸引目标读者，可没有收入或用户数，信息密度就打折扣了——更像一个方向建议，不是已验证的方法论。

一句话点评

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

06:50

1d ago

Hacker News 首页· rssEN06:50 · 06·17

从“切斯特顿的栅栏”到“切斯特顿的空地”

程序员都听过“切斯特顿的栅栏”：别拆你不懂的代码，先问为什么在那。作者翻了个面：现在有人走过一片空地，问为什么没建栅栏，然后不问就自己建一个。开源项目里经常收到上万行 PR，加一堆没人要的功能。代码写得没问题，但维护者不想要。写代码成本几乎为零，不代表每个空缺都得填上。如果你好奇我为什么没加某个功能，先问一声。

#Stéphan Tulkens#G. K. Chesterton#Open source

精选理由

一篇软件工程文化随笔，把'切斯特顿的栅栏'翻了个面变成'切斯特顿的空地'——讲开源项目里维护者老收到没人要的功能PR。概念有趣但跟AI行业日常信号关系不大，没有具体产品、数据或事件。适合放在'all'层当文化边角料。

一句话点评

开源维护者吐槽：现在有人路过空地，不问就自己建栅栏。代码成本趋零，10k行PR说发就发，功能没人要但代码写得挺好。维护者真正头疼的不是代码质量，而是筛选和长期维护成本。正文没提怎么拒绝这类PR，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

04:55

1d ago

FEATUREDAI HOT 精选· aihot-apiZH04:55 · 06·17

OpenAI 一季度烧掉 37 亿美元，超过同期收入的一半

The Information 拿到一份 OpenAI 给股东看的文件，里面显示 2026 年第一季度现金消耗 37 亿美元，同期收入是 57 亿美元。也就是说，赚的钱有一半多直接花出去了，主要烧在算力、模型研发和抢人上。公司已经秘密提交了 IPO 申请，有消息说最早 9 月上市，估值可能冲到 1 万亿美元。这点先别太激动——上市时间和估值都只有单一信...

#OpenAI#The Information

精选理由

The Information 拿到了一份给股东看的内部文件，里面是实打实的一季度数据：收入 57 亿美元，现金消耗 37 亿。这种硬数字很少见，不是传闻。分数没给到 85 以上，是因为 IPO 时间和万亿估值都来自单一信源，而且正文没披露公司手头还有多少现金、钱具体花在算力和人力上的比例，信息有缺口。

一句话点评

OpenAI一个季度烧掉37亿美元，超过同期收入的一半，主要花在算力和抢人上。上市时间和万亿估值都只有单一信源，先别太激动。

锐评

这份给股东看的文件把账算得很直白：2026年Q1收入57亿，现金消耗37亿，赚的钱有一半多直接花出去了。The Information拿到的文件没拆成本结构，但点出了三大花钱方向——算力基础设施、模型研发、人才招募。换句话说，AI服务需求在涨，但做大模型的成本涨得更快，头部玩家都在靠持续输血撑着。文章提到OpenAI已经秘密提交IPO申请，最早9月上市，估值可能冲到1万亿美元。这两个数字目前都只有一位知情人士的说法，没有其他交叉验证。上市时间表在监管和市场环境面前变数很大，万亿估值更是需要拿出远超现在的商业化成绩来支撑。正文没披露现金流能撑多久、有没有新的融资进来，这些缺口比上市传闻更值得盯。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:24

1d ago

持续报道 · 1dProduct Hunt · AI· rssEN04:24 · 06·17

Henji：一个学你说话风格的 AI 回复助手

Henji 是一款 AI 回复助手，核心卖点是学你的语气写回复，而不是生成千篇一律的机器话。你只需要给几个关键词，它就能帮你把半成型的想法补成一条完整的、听起来像你本人写的消息。目前从 Slack 开始用，用久了它会记住你的措辞、节奏甚至 emoji 习惯。开发者是日本独立开发者 Yossy，技术栈用了 Claude Code 和 Cloudflare...

#Henji#Yossy#Claude Code

精选理由

Henji 是日本独立开发者 Yossy 用 Claude Code 做的 AI 回复助手，核心卖点是学你的语气写回复，不是生成机器话。概念挺新鲜（H 命中），但正文没披露性能、定价或用户案例，信息太薄，够不上 K 或 R。轻量产品发布，tier all 看看就行。

一句话点评

Henji 是一个学你语气写 Slack 回复的 AI 助手，核心卖点是“你负责想，它负责写”，而不是反过来替你思考。日本独立开发者 Yossy 用 Claude Code 和 Cloudflare 搭的，目前只接 Slack，用久了会记住你的措辞、节奏甚至 emoji 习惯。免费可用，但正文没披露背后用的什么模型做风格学习，也没说定价。如果是真的能学会个人语气，对回消息多的人挺省事；但“学...

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

03:48

2d ago

彭博科技· rssEN03:48 · 06·17

中国证监会喊话AI公司：多去香港上市

中国证监会公开鼓励AI和港股上市公司多发新股。文章没点名具体公司或募资目标，但政策信号很明确：北京希望AI企业去香港资本市场融资。对从业者来说，香港可能成为下一波AI融资的主阵地。

#China Securities Regulatory Commission#Policy#Funding

精选理由

证监会喊话AI和港股公司多发新股，政策方向明确，但正文没披露具体公司或募资目标，信息缺口明显。对从业者来说，香港可能成为AI融资新阵地，但这点先别太激动——没有落地细节前，只能当风向标看。

一句话点评

证监会公开喊话，鼓励AI和港股公司多发新股。信号明确：北京想让香港当AI融资主阵地。但正文没点名具体公司或募资目标，政策落地力度未知。对从业者来说，港股IPO窗口可能打开，但别急着冲——细则和审核节奏才是关键。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

03:42

2d ago

Hacker News 首页· rssEN03:42 · 06·17

美国司法部称xAI无证燃气轮机构成国家能源安全威胁

美国司法部介入 xAI 未经许可安装燃气轮机的事件，直接定性为“国家与能源安全”问题，而不是普通的违规。正文没披露具体地点、规模，也没提 xAI 怎么回应，但司法部这个措辞本身就很重——说明他们认为这事影响面不小，不只是罚个款能了结的。

#xAI#DOJ#Policy

精选理由

零信源内容——正文没披露任何具体数据、地点、xAI回应或处罚细节，只有司法部的定性措辞。触发硬排除规则#6（零信源内容），重要性上限39，tier = excluded。

一句话点评

美国司法部指控xAI未经许可安装燃气轮机，称威胁国家能源安全。这事挺严重，但正文没披露具体规模、位置和是否已运行。如果是真的，xAI可能面临强制拆除或罚款，对算力扩张是直接打击。短评：司法部扣大帽子，xAI能源基建踩红线。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

02:50

2d ago

AI HOT 精选· aihot-apiZH02:50 · 06·17

中国正筹建世界人工智能合作组织，总部拟设上海

央视报道，中国正在加紧筹建世界人工智能合作组织，初步考虑总部设在上海。这个组织是去年7月中国政府倡议成立的，目的是推动全球AI治理和普惠发展，尤其想帮发展中国家缩小智能鸿沟。目前正文没披露具体成员名单、运作机制或时间表，所以实际影响力还不好判断。

#中国#世界人工智能合作组织#上海#Policy

精选理由

央视报道中国在筹建世界人工智能合作组织，总部考虑设在上海，但正文就一句话，没披露成员名单、运作模式或时间表。HKR全不达标：标题有政策悬念但正文没干货；行业读者去年7月就知道这个提议，这条没新信息；全球AI治理话题虽大，但这条太薄，没细节没数据，没法讨论或转发。

一句话点评

中国正筹建世界人工智能合作组织，总部拟设上海，去年7月倡议成立。目前没披露成员名单、运作机制和时间表，实际影响力不好判断。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

01:39

2d ago

FEATURED彭博科技· rssEN01:39 · 06·17

快手旗下可灵 AI 正与泛大西洋投资谈融资，估值 180 亿美元，想融 20 亿美元

彭博社消息，快手做视频生成的可灵 AI 正在跟美国私募基金泛大西洋投资（General Atlantic）谈一轮融资，目标是融 20 亿美元左右，投后估值推到 180 亿美元。正文被付费墙挡住了，具体条款、还有没有其他投资人、钱打算怎么花，这些都没法确认。如果这轮真按这个估值谈成，可灵在视频生成赛道的身价会直接拉到第一梯队，但眼下只能先当个参考，别太激动。

#Kuaishou#Kling AI#General Atlantic

精选理由

彭博社爆出可灵 AI 在跟泛大西洋投资谈一轮 20 亿美元的融资，投后估值推到 180 亿。这是视频生成赛道目前公开的最大单笔融资信号，数字够大、领投方又是美国老牌 PE，所以重要性和话题性都拉满。但正文被付费墙挡住了，具体条款、还有没有其他投资人、钱打算怎么花，这些关键信息都没法确认，所以判断上得打个折，不能直接当定局。

一句话点评

快手可灵在跟美国私募泛大西洋谈一轮 20 亿美元融资，估值推到 180 亿。但正文被付费墙挡住，具体条款和钱怎么花都看不到，先当个参考。

锐评

这条消息如果属实，可灵在视频生成赛道的身价会直接冲到第一梯队。20 亿美元融资、180 亿投后估值，这两个数字说明资本对快手拆出来的这个 AI 业务给了很高的预期。但眼下能确认的信息太少——彭博的原文被付费墙挡死了，我们只抓到了标题和摘要，正文里有没有披露其他投资人、资金用途、对赌条款，一概不知。泛大西洋是美国老牌私募，投过字节、蚂蚁，这次如果真领投可灵，意味着有美元基金愿意在当前环境下继续押注中国 AI 应用层。但估值本身也要打折看：视频生成现在商业化路径还不清晰，可灵的产品成熟度和收入规模都没公开数据，180 亿是实打实的业绩撑起来的，还是赛道溢价堆出来的，正文没披露就没法判断。还缺几个关键信息：这轮是纯融资还是带老股转让、快手还保留多少股权、可灵自己的营收和付费用户数到底怎么样。这些不补上，光看估值容易高估。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:37

2d ago

FEATURED纽约时报中文网· rssZH01:37 · 06·17

AI 芯片的钱，这次中国没挣到

英伟达的 AI 芯片卖爆了，但真正跟着发财的是给它供内存的三家公司：SK 海力士、三星和美光。最先进的内存晶圆只有这三家能做，今年价格直接翻了一倍多。黄仁勋在 Computex 上跑到海力士的展台，在一片缺货的晶圆上写“请多生产一些 :)”，因为产能根本跟不上。这波热潮把三星和海力士的市值都推过了万亿美元，韩国成了美国之外第一个同时有两家万亿市值公司的...

#Nvidia#SK Hynix#Samsung

精选理由

纽约时报用内存供应链当切口——晶圆价格翻倍、两家韩国公司市值破万亿、再加一个黄仁勋的段子——把 AI 硬件瓶颈讲清楚了。这是趋势观察而不是事件新闻，放在 featured 刚好。

一句话点评

AI 这波钱主要被做内存的三家赚走了，中国被关税和禁令挡在门外，正文没提国内替代方案进展。

锐评

这篇报道的核心判断很直接：AI 芯片卖爆，但真正闷声发财的是给英伟达供高带宽内存的 SK 海力士、三星和美光。今年内存价格翻了一倍多，直接把三星和海力士的市值推过万亿美元，韩国成了美国之外第一个同时有两家万亿市值公司的国家。黄仁勋在 Computex 上跑到海力士展台，在一片缺货的晶圆上写“请多生产一些 :)”，这个细节比任何数据都更能说明产能紧张到什么程度。文章把中国缺席的原因归结为美国关税和技术限制，认为这比补贴更有效。但正文没披露中国在存储芯片上的自给率到底是多少，也没提长鑫存储等厂商在落后节点上的进展。所以“明显缺席”这个结论主要针对最先进的那一档内存，不能直接等同于整个存储市场。另一个值得注意的点是地缘风险。供应链高度集中在台湾和韩国这两个地方，文章自己点出了这个矛盾：美国设计的芯片，制造命脉却压在两个地缘热点上。正文没展开讨论如果台海或朝鲜半岛出事，替代产能需要多久才能接上，这是整篇报道最大的信息缺口。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:21

2d ago

AI HOT 精选· aihot-apiZH00:21 · 06·17

baoyu-design 新增本地动画导出，帧级精确

baoyu-design 这个能在本地跑 Claude Design 的工具，现在可以导出动画视频了。它的动画引擎基于 f(t) 设计——简单说就是任意时间点画面状态完全确定，不会出现随机偏差。导出流程是：用无头 Chromium 逐帧截图，每帧等两次 requestAnimationFrame 确保渲染完成，再用 ffmpeg 合成视频。截图先以 2...

#baoyu-design#Claude Design

精选理由

一个本地 AI 设计工具加了动画视频导出功能，技术细节扎实（f(t) 确定性引擎、无头 Chromium 逐帧截图、ffmpeg 合成）。对工具用户有吸引力，但受众面窄且非主流产品，重要性中等偏低。

一句话点评

baoyu-design 现在能导出动画视频了，原理是 f(t) 声明式动画——任意时刻画面状态完全确定，不会随机跳。导出用无头 Chromium 逐帧截图 + ffmpeg 合成，每帧等两次渲染完成再截，2 倍 DPR 截 4K 再缩回 1080p 保细节。95 秒 30fps 要截 2850 帧，帧帧精确。开源 MIT，1.2K star。之前已支持本地生成 PPT 和导出可编辑 PPT...

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

00:00

2d ago

持续报道 · 1dFEATUREDAI HOT 精选· aihot-apiZH00:00 · 06·17

Sumi：从头训练的 7B 开源均匀扩散语言模型

Sumi 是第一个从零开始、用 1.5 万亿 token 预训练出来的 7B 参数均匀扩散语言模型。均匀扩散的意思是，模型在生成文本时每一步都可以修改任意位置的词，不像传统模型只能从左往右写，理论上更灵活。团队把模型权重、训练检查点和完整配方全公开了，包括用了哪些公开数据集、怎么混合的。在知识、推理和代码评测上，Sumi 跟同等训练量的自回归模型打得有...

#Reasoning#Code#Mengyu Ye#Keito Kudo

精选理由

Sumi是第一个从零预训练出来的7B均匀扩散语言模型，用了1.5万亿token，生成时能在任意位置改词，不像自回归模型只能从左往右写。团队把权重、训练检查点和完整配方都公开了，在知识、推理和代码评测上跟同等训练量的自回归模型打得有来有回。这点先别太激动——正文没披露推理速度和实际部署成本，扩散模型在落地时往往比自回归慢不少。不过敢在主流路线之外砸资源从头训一个7B模型，还把家底全亮出来，本身就值得关注。

一句话点评

第一个从头训练的7B均匀扩散语言模型开源了，权重和配方全给。它在知识、推理、代码上能打平同量级自回归模型，但常识题偏弱，团队自己说可能是教材类数据喂多了。

锐评

Sumi 这次放出来的东西挺实在：一个用 1.5 万亿 token 从零开始预训练的 7B 均匀扩散语言模型，权重、训练检查点、完整配方全公开。均匀扩散的意思是，模型生成文本时每一步都能回头改任意位置的词，不像现在主流的自回归模型只能从左往右写，理论上更灵活。在此之前，自回归和掩码扩散都有大尺寸的开源模型供社区研究，唯独均匀扩散这块是空白，Sumi 算是把坑填上了。看成绩单，它在知识、推理和代码评测上跟同等训练量的自回归模型打得有来有回，但一到常识推理就明显掉队。团队自己分析，很可能是训练数据里教材、学术内容占比太高，生活化语料不够。这点先别太激动——论文没给出具体的推理速度对比，也没说生成时的延迟和成本比自回归模型高多少，这些在实际落地时才是关键。现在还缺什么？一是没看到它在多轮对话、指令遵循这类实际应用场景下的表现；二是均匀扩散的生成可控性到底比自回归强在哪，论文只给了基准分，没做深入的案例拆解。不过作为一个干净的参考基线，Sumi 的开源对想研究扩散模型缩放规律和生成机制的人来说，是个不错的起点。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

00:00

2d ago

持续报道 · 1dFEATUREDOpenAI 博客· rssEN00:00 · 06·17

OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实科研任务的基准

OpenAI 放出了一个叫 LifeSciBench 的基准，750 道题全由有生物技术或制药行业经验的博士科学家出题和审题。它不考知识点背诵，考的是模型能不能干真实的科研活儿：比如解读互相矛盾的实验证据、设计实验方案、评估药物从实验室到临床的风险。53% 的题需要模型去读附带的图表、序列文件等材料，平均每道题要经过 4 步推理。评分也不只看最终答案对...

#Benchmarking#OpenAI#Benchmark

精选理由

OpenAI放出了一个由博士科学家出题的基准，750道题考的是实验设计、矛盾证据解读和转化风险评估，比现有基准更接近真实科研工作。分数没给更高是因为目前只有预印本，正文没披露模型在这个基准上的具体表现数据，也没说后续会不会持续更新题目，所以先打个折。

一句话点评

OpenAI 发了个新基准 LifeSciBench，750 道题全由药企博士出题，考模型能不能干科研的脏活累活，不是背知识点。但正文没公布任何模型的跑分，所以现在只能看个设计思路。

锐评

这个基准的出发点挺实在：科研不是做选择题，而是解读互相打架的实验数据、设计实验、评估药物从实验室到临床的风险。所以题目设计上，53% 的题需要模型去读图表、序列文件这些附件，平均每道题要经过 4 步推理，评分标准平均有 25 条，不光看答案对不对，还看论证过程、细节和格式是不是科学家想要的。出题和审题的人都是生物技术或制药行业里有博士学位的从业者，审稿人之间至少 90% 同意才收题，这个门槛不低。但最大的信息缺口也很明显：OpenAI 没给任何模型的成绩。一个基准好不好用，最终要看它能不能拉开模型差距、分数和实际科研产出有没有关联。现在只有设计描述，没有数据验证，所以这个基准到底有多难、能测出什么，还得等第三方跑分或者 OpenAI 自己放结果。如果是真的能区分出模型在复杂科研任务上的能力，对药企选模型会有参考价值。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

2d ago

持续报道 · 1dFEATUREDComputing Life · Share · 鸭哥调研· rssZH00:00 · 06·17

推理模型四年史：你以为的石破天惊，其实早有暗线

推理模型不是2024年突然蹦出来的。让模型写解题步骤的思维链、用自己生成的正确推理训练自己的STaR、给中间步骤打分的过程奖励模型，这些技术从2022年起就陆续成熟了。o1真正改变的是产品化：把推理变成一种可以计费、可以调度的资源，在API里引入reasoning tokens和可调节的思考强度参数，相当于给scaling law开了第二个轴。Deep...

#Reasoning#OpenAI#DeepSeek#Anthropic

精选理由

这是一篇有信息量的长文综述，用具体论文和时间线追溯推理模型的技术源头，核心判断是o1的分水岭在于把推理产品化成可计费算力，而非发明了推理本身。HKR三项都踩中，但属于梳理整合型内容而非独家爆料，放在78分、featured层级合理。

一句话点评

别被“aha moment”的浪漫故事骗了。推理模型不是一夜学会思考的，它背后是一条走了四年的技术暗线。o1真正的贡献是把推理做成了可计费、可调度的产品资源。

锐评

这篇文章把推理模型的时间线拉回到2022年，讲得很清楚：思维链、STaR自训练、过程奖励模型这些技术早就有了，o1只是把它们组装成产品，并开创性地把“思考”变成API里一个可以拧的旋钮。最值得警惕的部分是对DeepSeek R1“顿悟时刻”的祛魅。文章引用了独立研究，指出所谓的“aha moment”在没训练过的基座模型里就已经出现，强化学习只是提高了这些行为的频率，并没有凭空创造推理能力。这点先别太激动，它意味着我们可能高估了纯RL的魔法，而低估了预训练数据里已经烘进去的推理碎片。文章还点出了一个关键的产品哲学分歧：OpenAI把推理过程藏起来，而其他几乎所有厂商都选择公开。这背后是两种安全观和商业策略的较量。不过，文章对o1藏起推理过程的真实原因，只引用了“独立解读普遍认为是为了防止蒸馏”，OpenAI自己的说法被一笔带过，这里的信息缺口值得留意。整体来看，这篇梳理的价值在于帮你区分“能力的诞生”和“能力的包装”，在行业集体狂飙的时候，这种冷静的溯源很难得。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

2d ago

持续报道 · 1dFEATUREDComputing Life · Share · 鸭哥调研· rssZH00:00 · 06·17

给 AI 办大学，其实是给它的规则系统做年审

作者把自己用了半年的 agent 规则系统“老鸭汤”翻出来审计，发现一堆祖传规则：比如一条 2026 年初为绕过 Claude Code bug 加的 workaround，bug 早修了，规则还在，新 agent 照做不误，没人知道为什么。根因是规则只加不删，发现时的上下文全丢了，结论变成迷信。解法是定期“裸跑”——派一个不带任何旧规则的 agent...

#Claude Code#Superlinear Academy

精选理由

一篇有料的一手复盘。作者审计自己跑了半年的 agent 规则系统，发现规则只加不删，当初的因果上下文全丢了，规则变成迷信。用了一个 Claude Code 的 workaround 当案例，bug 早修了，新 agent 还在照做。解法是定期裸跑——派不带旧规则的 agent 去干活，看哪些规则其实已经没用了。不是理论，是实战伤疤，对做 agent 的人有直接参考价值。

一句话点评

AI 的规则系统会像人类组织一样长出陈规陋习，这篇用自家 agent 的翻车现场讲清了为什么，以及怎么用“裸跑”来年审。

锐评

这篇文章不是讲怎么给 AI 上课，而是讲怎么防止 AI 的“工作经验”变成迷信。作者把自己用了半年的 agent 规则系统“老鸭汤”翻出来审计，发现一条 2026 年初为绕过 Claude Code bug 加的 workaround，bug 早修了，规则还在，新 agent 照做不误，没人知道为什么。根因是规则只加不删，发现时的上下文全丢了，结论变成祖传指令。解法叫“裸跑”：定期派一个不带任何旧规则的 agent 进真实环境干活。如果它顺利完成任务，说明那些旧规则已经失效，可以删了；如果它碰壁了，就用当下的环境重新生成一份新鲜的发现上下文，替换掉旧文件里那行干瘪的结论。考试、教科书修订、再教育三件事合为一体。文章没给出这套自动化年审流程的具体实现细节，也没披露审计发现的规则退化比例有多大。但核心判断是成立的：规则系统需要靠环境的真实反馈来维持，否则积累速度比人类组织快十倍。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

2d ago

AI HOT 精选· aihot-apiZH00:00 · 06·17

Grok 4.3 上了亚马逊云，号称幻觉率最低，上下文窗口能塞进 100 万 token

xAI 把 Grok 4.3 放到了 Amazon Bedrock 上，企业可以直接在 AWS 里调用。这个模型在 Artificial Analysis 的评测里拿了两个第一：幻觉率在主流模型里最低，以及在模拟客服打电话的工具调用场景里表现最好。它支持 100 万 token 的上下文窗口，能一口气处理很长的文档或代码。推理深度可以自己调，从“不动脑...

#xAI#Amazon Bedrock#Grok 4.3

精选理由

这是一条产品上架消息，不是新模型发布。两个评测第一有信息量，但缺乏独立验证和对比细节，只能当参考。对 AWS 生态内的用户实用，行业层面的冲击不大，按产品更新处理。

一句话点评

Grok 4.3 上了 AWS Bedrock，企业现在可以直接在亚马逊云里调用。它有两个第一：主流模型里幻觉率最低，以及在模拟客服打电话的工具调用场景里表现最好。上下文窗口 100 万 token，能一口气吞下很长的文档或代码。推理深度可以自己调，从“不动脑”到“高”四档。价格是输入每百万 token 1.25 美元，输出 2.50 美元。xAI 说单位美元能买到的智能是其他前沿模型的 2...

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

全部 · 2026-06-17

更多

频道

后台