热点聚合 · 2026-06-18

▸ 23 signals · updated 3m ago

live · 238 today·policy v2

AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选Sumi：从头训练的 7B 开源均匀扩散语言模型78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选Sumi：从头训练的 7B 开源均匀扩散语言模型78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选Sumi：从头训练的 7B 开源均匀扩散语言模型78·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

126 212 320 419 542 632 749 826 923 1017 1136 1248 1337 1454 1539 1630 1719 1849 1976 2045 2148 2249 2313 2415 2520 2637 2744 2848 2935 3022 3114

2026年6月

一二三四五六日

147 258 348 447 545 619 715 852 945 1031 1128 1221 1313 1415 1524 1635 1726 1823 192021222324252627282930

2026-06-18 · 星期四2026年6月18日

21:54

4h ago

持续报道 · 1dFEATUREDHacker News 首页· rssEN21:54 · 06·18

MCP 企业托管认证稳定版发布：一次登录，所有服务器自动连上

MCP 的企业托管授权（EMA）扩展正式稳定了。它让公司通过自己的身份系统（IdP）统一管着员工能连哪些 MCP 服务器，员工首次登录客户端时，该有的工具就自动配好，不用挨个应用点 OAuth 授权。Okta 是第一个支持的 IdP；Anthropic 的 Claude 家族和 VS Code 已经加了客户端支持；Asana、Atlassian、Fig...

#Model Context Protocol#Anthropic#Microsoft

精选理由

MCP 的企业授权扩展正式稳定，解决了之前每加一个工具就要手动 OAuth 的痛点，这对企业落地 MCP 是实打实的减负。Okta 作为第一个 IdP 接入，加上 Claude 和 VS Code 客户端支持，说明生态在往企业可用性方向走。没给更高分是因为目前还是早期，正文没披露实际部署规模，效果有待验证。

一句话点评

MCP 的企业托管授权稳定了，员工登录客户端就能自动配好工具，不用挨个点 OAuth。Okta 先支持，Claude 和 VS Code 已接入。但正文没提定价和具体上线时间。

锐评

这条更新解决了一个很实际的痛点：以前用 MCP 连企业工具，每个员工得自己一个个授权，IT 部门管不了，个人账号和工作账号还容易混。现在把权限判断交给公司已有的身份系统（比如 Okta），管理员在后台设一次规则，员工登录客户端时该有的工具就自动配好，不用再跳转一堆授权页面。技术上看，它用的是 ID-JAG 这种令牌交换方式，用户只登一次，客户端拿身份凭证去换各个服务器的访问令牌，中间不弹授权确认。Anthropic 的 Claude 家族和微软 VS Code 已经支持，Asana、Atlassian、Figma 等 7 个工具也接入了。不过这篇公告没给任何定价信息，也没说其他身份系统（比如 Azure AD）什么时候能支持。如果是真的零额外成本，对想推 MCP 的团队会省很多事，但这点先别太激动，等具体落地细节出来再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:49

5h ago

持续报道 · 1dFEATUREDHacker News 首页· rssEN20:49 · 06·18

查查你的名字有没有被喂给 GPT-5.5、DeepSeek V4 等 13 个模型

Thomas Dimson 和 Joey Flynn 做了个网站，输入名字就能看它是否出现在 13 个主流模型的训练数据里，包括 GPT-5.5、DeepSeek V4、Llama 3.3 70B 等。它会返回一个“强度”分数，莫扎特、莎士比亚、泰勒·斯威夫特都拿到了 996 分。但正文没解释这个分数是怎么算出来的，也没说数据是来自真实的训练集还是通过...

#Thomas Dimson#Joey Flynn#OpenAI (GPT-5.5, GPT-5.4 Mini)

精选理由

这个点子有爆款潜质，好奇心和分享欲都拉满了。但我会先打个折，因为最关键的分数算法和数据来源一个字都没提，读者看完热闹也不知道该信几分，所以只能给到 featured，到不了 headline。

一句话点评

名人清一色 996 分，但正文没解释分数怎么算、数据源是训练集还是模型行为，这个数字先别太当真。

锐评

Thomas Dimson 和 Joey Flynn 做了个网站，输入名字就能查它是否出现在 13 个主流模型的训练数据里，覆盖 GPT-5.5、DeepSeek V4、Llama 3.3 70B 等。它会返回一个“强度”分数，莫扎特、莎士比亚、泰勒·斯威夫特这些家喻户晓的名字都拿到了 996 分。但问题在于，正文完全没交代这个分数是怎么算出来的。它可能是基于模型对名字的熟悉程度、生成文本的频率，还是直接查了训练集里的出现次数？也没说数据来源是真实的训练语料，还是通过模型行为反推的。如果是后者，那这个分数更多反映的是模型“知道”这个名字的程度，而不是它真的在训练数据里被喂了多少次。另外，排行榜上前 20 名全是 996 分，几乎没区分度，说明这个分数要么上限太低，要么算法对名人一视同仁。想拿它当隐私检测工具的人得留个心眼——正文没披露方法论，这个数字只能当个趣味参考，别当成严谨的审计结果。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:59

6h ago

持续报道 · 1dFEATUREDAI HOT 精选· aihot-apiZH19:59 · 06·18

OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazeer 和前白宫 AI 政策官员 Dean Ball

OpenAI 在 IPO 前一周内从 Google DeepMind 挖来了 Transformer 架构共同发明人 Noam Shazeer，以及曾在特朗普政府白宫科技政策办公室负责 AI 政策的 Dean Ball。Shazeer 是那篇“Attention Is All You Need”论文的作者之一，后来创办了角色扮演 AI 公司 Chara...

#OpenAI#Google DeepMind#Noam Shazeer

精选理由

Transformer 共同作者从 Google DeepMind 跳过来，加上前白宫 AI 政策负责人同时加入，IPO 前一周搞这种双线操作，分量翻倍。Shazeer 这条线影响模型研发，Ball 那条线影响监管站位，两条都打在了 OpenAI 现在最需要补的地方。

一句话点评

OpenAI 在 IPO 前一周连挖 Transformer 论文作者和特朗普时期 AI 政策官员，阵容很唬人，但正文没披露他俩具体职位和入职时间，先当信号看。

锐评

OpenAI 赶在 IPO 前一周，从 Google DeepMind 挖来了 Noam Shazeer，他是“Attention Is All You Need”那篇论文的作者之一，也就是 Transformer 架构的奠基人。Shazeer 后来创办了角色扮演 AI 公司 Character AI，2024 年被 Google 以 27 亿美元重新买回去。同一周，OpenAI 还招揽了 Dean Ball，他曾在特朗普政府白宫科技政策办公室负责 AI 政策。这两步棋的意图很直白：技术线需要一个有足够分量的招牌人物来撑场面，政策线则需要有人在华盛顿帮公司铺路。但 TechCrunch 这篇报道没写清楚最关键的信息——他俩具体担任什么职务、什么时候入职、向谁汇报。没有这些，就很难判断这是实权任命还是 IPO 前的门面工程。Shazeer 在 Google 的两次进出本身就挺戏剧化，他能不能在 OpenAI 待得住也是个问号。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:54

7h ago

持续报道 · 1dFEATUREDAI HOT 精选· aihot-apiZH18:54 · 06·18

Claude Code 现在能把终端里的工作进度直接生成可分享的网页

Claude Code 开始支持 artifacts 了。你在终端里干活时，它可以把你当前的进度——比如代码改动说明、系统架构解释、数据看板——直接生成一个能交互的网页。这个网页带着完整的对话上下文，队友不用装 Claude Code 就能看。官方没说明这个功能是默认开启还是需要手动触发，也没提生成一个 artifact 会吃掉多少 token。

#Code#Agent#Anthropic#Claude Code

精选理由

Anthropic 给 Claude Code 加了 artifacts 功能，你在终端里写代码、改架构、看数据时，能直接生成一个可交互的网页，把当前进度和完整对话上下文都打包进去，队友不用装 Claude Code 就能看。这对一直偏单人用的工具来说，是往团队协作迈了一步。不过官方没说明这个功能是默认开启还是需要手动触发，也没提生成一个 artifact 会吃掉多少 token，这点先别太激动。分数维持 78，因为 token 成本没公布，实际用起来可能得先打个折。

一句话点评

Claude Code 现在能把终端里的工作进度直接生成可交互网页发给队友看，但官方没提这功能默认开还是手动触发，也没说生成一个要吃掉多少 token。

锐评

Claude Code 这次加的 artifacts 功能，简单说就是你在终端里让模型干活时，它能顺手把当前进度——比如代码改了什么、系统架构怎么设计的、数据看板长什么样——直接生成一个带完整对话上下文的网页。队友不用装 Claude Code，点开链接就能看。这对团队协作挺实用，省去了截图、写说明、开会的步骤。但官方博客写得比较克制，几个关键信息都没给。第一，这个功能是默认开启还是需要手动触发，正文没提。如果是默认开，那每次对话都可能多出一段网页生成的 token 消耗，成本会悄悄涨。第二，生成一个 artifact 到底吃多少 token，也没披露。对重度用户来说，这个数字直接决定用不用得起。第三，网页的交互能力到什么程度——是只能看，还是能编辑、能回传数据——也没展开。我会先打个折：功能方向对，协作场景确实痛点明确，但在 token 成本和触发机制透明之前，别急着在生产环境里全量开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:51

8h ago

持续报道 · 1dFEATUREDAI HOT 精选· aihot-apiZH17:51 · 06·18

Anthropic 官方指南：用 CLAUDE.md、技能、钩子、规则和子智能体调教 Claude Code

Anthropic 这篇博客把调教 Claude Code 的方法拆成了五块：CLAUDE.md 文件用来写项目级的全局指令，告诉模型这个项目的代码风格、架构和约定；技能（skills）是把重复的任务流程模板化，让模型按固定步骤执行；钩子（hooks）能在模型执行操作前后自动触发检查或脚本，比如提交代码前跑一遍测试；规则（rules）直接约束模型的行为...

#Code#Agent#Anthropic#Claude Code

精选理由

Anthropic 出了一篇实操指南，把控制 Claude Code 的手段讲得很清楚，五层机制各有侧重，组合起来就是一套让模型在项目里更可控的玩法。它不是产品发布，所以重要性没到 85，但对正在用 Claude Code 的人来说很解渴，值得放进 featured。

一句话点评

Anthropic 官方把调教 Claude Code 的五个机制拆开讲了一遍，像给项目写说明书、设自动检查点、把大任务分给多个小模型并行干，但没给任何性能数据或价格变化。

锐评

这篇博客是一份操作指南，不是产品更新。它把控制 Claude Code 行为的五种方式梳理得很清楚：CLAUDE.md 相当于给模型看的项目说明书，告诉它代码风格和架构约定；技能是把重复任务写成固定步骤模板，让模型按流程执行；钩子是在模型操作前后自动触发检查，比如提交代码前先跑测试；规则直接约束模型能做什么不能做什么；子智能体则是把复杂任务拆开，分给多个独立模型并行处理。整篇文章偏概念讲解，没有给出任何基准测试、延迟数据或成本对比。如果你已经在用 Claude Code，这些机制能帮你把模型管得更听话，但具体能提升多少效率、省多少钱，正文没披露。另外，子智能体这种并行拆分听着挺美好，实际落地时任务怎么切、切多细、中间结果怎么合并，这些工程上的坑文章也没展开。对 AI 从业者来说，这篇值得看的是架构思路——怎么把一个大模型的行为拆成可配置、可检查、可分工的模块，而不是指望一个 prompt 解决所有问题。但别指望看完就能直接抄到自己的项目里，它更像一份设计蓝图，缺了实现细节和踩坑记录。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:49

8h ago

持续报道 · 1dFEATUREDAI HOT 精选· aihot-apiZH17:49 · 06·18

美国联邦监管机构下令电网运营商给数据中心开并网快车道

FERC（联邦能源监管委员会）周四一致通过，要求美国六大电网运营商优先处理数据中心等大用电客户的并网申请，数据中心自己承担全部并网费用。委员会还让运营商考虑固态变压器、超导输电线路这类替代性输电技术，但没点名具体方案。文章指出，FERC 解决了排队问题，却完全没碰更根本的电力供应短缺——电本身不够用，光插队也没用。

#FERC#TechCrunch#Policy

精选理由

FERC 全票通过，让六大电网运营商优先处理数据中心并网申请，费用全由申请方出，还让运营商考虑固态变压器、超导输电这类替代技术。对 AI 基建团队来说，这是实打实的政策松动。但文章自己点出了关键问题：插队解决不了发电量不够的根本矛盾，电本身还是缺的，这点先别太激动。

一句话点评

FERC 让数据中心插队接电网，费用全自己扛，但电本身不够用，插队解决不了根本问题。

锐评

FERC 周四全票通过，要求美国六大电网运营商优先处理数据中心这类大用电客户的并网申请，数据中心自己承担全部并网费用。这相当于给 AI 基建开了条行政快车道，排队时间会缩短，但账单也全甩给了企业。委员会还让运营商考虑固态变压器、超导输电线路这些替代技术，不过没点名具体方案，落地时间表完全没提。文章点出了一个关键缺口：FERC 只解决了排队流程，对更根本的电力供应短缺问题一个字都没碰。电本身不够用，光插队没用。正文没披露目前排队积压的具体规模，也没说这条快车道能省多少时间，所以实际效果还得看各电网运营商怎么执行。还缺什么：新规会不会挤占居民和其他工业用户的并网资源，正文没讨论。数据中心自己扛全部费用，成本会高到什么程度，也没给估算。这点先别太激动，快车道修好了，车没油照样跑不动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:23

11h ago

持续报道 · 1dFEATUREDHacker News 首页· rssEN15:23 · 06·18

LLM Wiki：一个能自己长知识的插件，给 Claude Code、Codex 等编程助手装上外挂大脑

nvk 开源了 LLM Wiki，一个让编程助手在干活时顺便建维基、做调研、出报告的工具。它会同时派出 5 到 10 个代理，从学术、技术、新闻和反面角度搜资料，能吞下网址、PDF、Git 仓库和网页存档，再把来源交叉整理成带置信度评分的文章。所有产出都是你自有的纯 Markdown 文件，兼容 Obsidian。它原生支持 Claude Code 插...

#Agent#nvk#Claude Code#OpenAI Codex

精选理由

nvk 开源了一个工具，让编程助手在干活时顺便建维基、做调研、出报告。它会同时跑 5 到 10 个代理，从不同角度搜资料，能吞网址、PDF、Git 仓库和网页存档，交叉整理成带置信度评分的纯 Markdown 文件，兼容 Obsidian。机制具体、有用，但受众只限于 Claude Code 和 Codex 用户，所以我会先打个折——对圈内人很香，圈外人可能无感。

一句话点评

nvk 开源了一个让编程助手边干活边建维基的工具，一次能派 5-10 个代理从不同角度搜资料，最后合成带置信度评分的文章，所有产出都是你自有的纯 Markdown 文件。

锐评

这个工具解决了一个实际问题：用 Claude Code 这类编程助手时，查到的资料、做的判断很容易散落在聊天记录里，下次就找不到了。LLM Wiki 的做法是让助手在干活过程中顺便把资料整理成结构化的维基，5 到 10 个代理同时从学术、技术、新闻和反面角度搜，能吞网址、PDF、Git 仓库甚至网页存档，最后交叉整理成带置信度评分的文章。所有产出都是纯 Markdown 文件，兼容 Obsidian，数据完全在你手里。比较有意思的是它的"论文模式"——你给一个主张，代理会从支持、反对、机制、元分析和相邻角度分别搜，第二轮还会专门对抗确认偏误，输出的是一个判断而不是摘要。这点对做技术调研的人挺实用。另外它支持会话记忆和反馈筛选，只保留有价值的修正和偏好，不会把整个聊天记录都塞进去。正文没披露代理具体用的是什么模型、每次运行的成本和延迟，也没给出置信度评分的具体算法。这些信息缺口让"10 倍性能提升"这个说法暂时只能打个折来看。另外多代理并行搜资料听起来挺费 token 的，实际开销得自己跑一下才知道。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

14:57

11h ago

持续报道 · 1dFEATUREDAI HOT 精选· aihot-apiZH14:57 · 06·18

工信部公示 L3/L4 自动驾驶强制性国标，2027 年 7 月起实施

工信部 6 月 16 日公示了《智能网联汽车自动驾驶系统安全要求》强制性国标报批稿，建议 2027 年 7 月 1 日起实施。这是国内首部覆盖 L3、L4 的强制标准，核心要求就一条：自动驾驶系统安全水平不能低于一个合格且专注的人类司机。标准引入了 Safety Case（安全档案）机制，企业得用“声明—论据—证据”的结构来证明系统安全，仿真、场地和道...

#工信部#Momenta#盘古智库

精选理由

这是国内自动驾驶从推荐标准转向强制标准的关键一步，政策信号明确，对行业有直接约束力。没给更高分是因为目前还是报批稿公示阶段，离正式实施还有一年多，中间可能有调整。

一句话点评

工信部公示了国内首部 L3/L4 自动驾驶强制国标，2027年7月起实施。核心就一条：系统安全不能比一个合格的人类司机差。车企不能再拿测试里程和覆盖城市吹牛，得用“安全档案”自证清白。

锐评

这份标准把自动驾驶的监管从“随便说”变成了“硬杠杠”。最狠的一招是引入了 Safety Case（安全档案）机制，企业得用“声明—论据—证据”的结构，把仿真、场地和道路测试数据串起来，证明自己的系统到底安全在哪。这直接终结了过去车企靠模糊宣传抢市场的玩法。标准对 L3 和 L4 做了区分：L3 盯着人机交接，司机没接管系统必须自己靠边停；L4 则要求系统不依赖远程操控就能自己处理风险。不过，正文没披露具体的测试场景数量和通过标准，企业到底要跑多少里程、覆盖多少 corner case 才算过关，这点还不清楚。 2027年7月实施，现有车型多给一年缓冲期。短期看，车企在冗余系统和安全档案上的投入会涨，但长期看，谁先跑通这套验证体系，谁就能在合规窗口期抢到身位。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:59

13h ago

持续报道 · 1dFEATUREDAI HOT 精选· aihot-apiZH12:59 · 06·18

Adobe 在 Photoshop、Premiere 等主力软件里上线 AI 助手公测，专门处理重复性杂活

Adobe 把它的“创意智能体”塞进了 Premiere、Photoshop、Illustrator、InDesign 和 Frame.io，现在是公开测试版。你告诉它要什么结果，它自己去跑多步骤的体力活：比如在 Premiere 里自动分素材、标采访问题、拼粗剪；在 Photoshop 里换背景、按平台尺寸批量改图；在 Illustrator 里根据...

#Vision#Adobe#Firefly#Photoshop

精选理由

Adobe 在核心创意工具里集成 AI 智能体，是实打实的产品更新，不是概念稿。公开测试版意味着功能已经能跑，但 Adobe 过去交付 AI 功能的速度偏慢，所以先别当正式版看。功能描述具体，能判断实际价值，但效果和稳定性还得等用户上手反馈。

一句话点评

Adobe 把“创意智能体”塞进了 PS、PR 等主力软件，现在公开测试。它不替你定创意，只干体力活：自动分素材、批量改图、按表格生成 50 个文件版本。这点先别太激动，正文没披露错误率和人工复核成本。

锐评

Adobe 这次更新的核心是把“创意智能体”做成一个跨应用的跑腿助手，覆盖 Premiere、Photoshop、Illustrator、InDesign 和 Frame.io。用户说想要什么结果，它自己去完成多步骤的重复性工作，比如在 PR 里自动分素材、标采访问题、拼粗剪，在 PS 里换背景、按平台尺寸批量改图，在 Illustrator 里根据一张表格生成 50 个版本文件。这些功能瞄准的是生产环节里的体力活，而不是创意决策本身，定位比较务实。目前所有功能都是公开测试版，After Effects 的助手还在私测，没有公开上线时间。Firefly 那边也加了面向单人创作者的工具，比如从描述生成品牌套件、把产品图转成短视频。另外 Adobe 的工具已经能在 ChatGPT、Claude 和微软 365 Copilot 里调用，Google Gemini 和 Slack 的集成也预告了。值得留个心眼的是，正文完全没有提这些自动流程的准确率、出错后怎么回滚，以及实际能省多少人工复核时间。批量生成 50 个文件听起来很爽，但如果每个都要手动检查一遍，省下的时间可能没那么乐观。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:44

13h ago

持续报道 · 1dFEATUREDHacker News 首页· rssEN12:44 · 06·18

SK 电信怎么卷进了 Anthropic 的 Mythos 芯片出口管制风波

WIRED 挖出了 Anthropic 的 Mythos 芯片项目与韩国 SK 电信之间的资金和合作细节。SK 电信既是 Anthropic 的投资方，也是云服务合作伙伴，调查怀疑这条管道可能被用来绕开美国对中国的芯片出口管制。文章梳理了双方的合作条款和资金流向，但核心问题——到底有没有法律责任——还没定论。我会先打个折：目前证据指向的是一个合规灰色地...

#Anthropic#SK Telecom#Mythos#Policy

精选理由

WIRED 把 Mythos 的故事从“是否存在”推进到“谁在出钱”，SK 电信的双重身份让合规疑云变得可触摸。正文没给出法律结论，所以重要性上我留了余地——结构可疑，但还不是铁证。

一句话点评

WIRED 挖出 Anthropic 的 Mythos 芯片项目与韩国 SK 电信的资金管道，怀疑被用来绕开美国对华芯片出口管制，但目前证据只指向合规灰色地带，不是实锤串通。

锐评

这篇调查把 Anthropic 自研芯片 Mythos 的资金链和 SK 电信绑在了一起。SK 电信既是 Anthropic 的投资方，又签了云服务合作，WIRED 顺着这条线怀疑 SK 电信可能充当了向中国转运受限芯片的中间人。文章梳理了双方的合作条款和资金流向，但最关键的法律责任问题——到底有没有故意规避出口管制——正文没给出定论。我会先打个折：目前披露的信息更像是一个合规灰色地带，而不是电信巨头主动帮 AI 公司偷运芯片。SK 电信作为韩国运营商，本身在中国有业务，跨境硬件流动本来就复杂，光凭投资关系和云合作就推断“绕开制裁”，证据链还不够硬。还缺什么：美国商务部或韩国监管机构有没有正式调查、芯片最终流向的具体单据、以及 Anthropic 和 SK 电信对这批硬件用途的书面说明。这些没出来之前，先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:20

15h ago

持续报道 · 1dFEATUREDHacker News 首页· rssEN11:20 · 06·18

Elastic 用 Elasticsearch 给 AI 智能体搭了个长期记忆层，召回率 0.89

Elastic 开源了一套智能体记忆方案，用三个 Elasticsearch 索引分别存“发生过的事”、“关于用户的稳定事实”和“操作流程”。检索时把关键词和向量搜索的结果混在一起，再用一个精排模型重新打分，在 168 个问题的测试里，前 10 条结果的命中率平均 0.89。多用户隔离靠的是 Elasticsearch 的文档级权限，正文说没出现租户间...

#Elastic#Elasticsearch#Noam Schwartz

精选理由

Elastic 开源了一套 agent 记忆方案，用三个索引分别存会话、用户事实和操作流程，混合检索加精排后 R@10 做到 0.89。架构和代码都给得实在，但强依赖 Elasticsearch，非 ES 用户用不上，刚好卡在 featured 门槛上。

一句话点评

Elastic 用自家搜索引擎给 AI 智能体做了个记忆层，前 10 条命中率 0.89，多租户隔离没翻车，但没提延迟和成本。

锐评

这篇博客讲的是 Elastic 开源的一套智能体记忆方案，核心是用三个 Elasticsearch 索引分别存“发生过的事”、“关于用户的稳定事实”和“操作流程”。检索时把关键词和向量搜索的结果混在一起，再用一个精排模型重新打分，在 168 个问题的测试里，前 10 条结果的命中率平均 0.89。多用户隔离靠的是 Elasticsearch 的文档级权限，正文说没出现租户间数据泄露。我会先打个折：0.89 的 R@10 是在他们自己构造的 168 个问题上测的，不是公开基准，泛化能力不好说。另外，文章完全没提每次检索要花多少毫秒、索引和查询的机器成本是多少，这对实际落地是硬指标。设计上有些点挺实在。比如用“取代”而不是“删除”来更新矛盾信息，留了审计痕迹；给旧事实加衰减权重，避免老数据压过新数据；把原始事件定期合并成稳定事实，防止索引越滚越大。代码已开源在 GitHub，想复现的可以直接看实现细节。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

11:00

15h ago

持续报道 · 1d● P1AI HOT 精选· aihot-apiZH11:00 · 06·18

OpenAI在ChatGPT健康问答中部署GPT-5.5 Instant，免费用户可用

OpenAI 把最新的 GPT-5.5 Instant 模型用在了 ChatGPT 的健康问答上，免费用户也能用。在 3500 条回复的盲评里，医生给它的准确性、沟通清晰度和完整性打分，比真人医生写的回答还高，而且更少出现漏掉危险信号、不追问背景这类问题。后台监控显示，过去两个月健康回复的事实错误率下降了 71%。这些提升靠的是模型本身变强，以及请医生...

#OpenAI#GPT-5.5 Instant#GPT-5.3 Instant#Benchmark

精选理由

OpenAI 把 GPT-5.5 Instant 塞进了 ChatGPT 的健康问答，免费用户也能用。在 3500 条回复的盲评里，医生给它的准确性、沟通清晰度和完整性打分，比真人医生写的回答还高，而且更少漏掉危险信号、不追问背景这类问题。后台监控显示过去两个月事实错误率下降了 71%。这些提升靠的是模型本身变强，以及请医生参与调优，但正文没披露医生参与的具体方式和样本覆盖的疾病范围，所以效果能不能泛化到所有健康场景还得打个问号。

一句话点评

OpenAI 把 GPT-5.5 Instant 用在健康问答上，免费用户也能用，医生盲评打分比真人医生还高。但要注意，评测是 OpenAI 自己主导的，外部独立验证还没看到。

锐评

OpenAI 宣布在 ChatGPT 里用 GPT-5.5 Instant 处理健康类问题，免费用户就能用。他们给了一组数据：每周有 2.3 亿人用 ChatGPT 问健康问题；在自家 HealthBench 评测上，GPT-5.5 Instant 的得分已经追平了需要付费的“思考”模型，而且比上一代 GPT-5.3 Instant 提升明显。更抓眼球的是，他们让一组医生不限时上网写回答，再让另一组医生盲评，结果 GPT-5.5 Instant 在准确性、沟通、完整性等维度上得分比真人医生还高。另外，通过隐私保护的方式监测线上流量，健康回答里被标记为可能有事实性问题的比例，两个月内下降了 71%。这些数字看着挺漂亮，但得打个折来看。首先，评测基准和医生评审都是 OpenAI 自己组织的，虽然拉了全球医生网络，但方法论和利益冲突的细节没公开。其次，文章没给出具体的错误率绝对值，只说“下降了 71%”，基数是多少不知道。最后，健康问答容错率极低，模型在“识别紧急情况”和“解释不确定性”上的表现到底多可靠，光靠内部评测还不够，需要更多独立第三方的验证和真实世界的安全性数据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:36

15h ago

持续报道 · 1dFEATUREDAI HOT 精选· aihot-apiZH10:36 · 06·18

火山引擎把豆包实时语音模型 3.0 的 API 放出来了，现在还在邀测

这个模型叫 Seeduplex，是个原生全双工端到端语音模型，意思是它能一边听一边说，不用等你说完再反应。官方给了三个卖点：指令跟得准、抗干扰、会自己判断什么时候该接话。比如多人聊天时它能安静待着，只有聊到指定话题才插嘴；还能在对话里直接调用工具帮你订日历、发邮件。抗干扰方面，误回复和误打断都少了很多。判停延迟缩短了约 250 毫秒，复杂场景下抢话比例...

#Audio#火山引擎#Volcano Engine#字节跳动

精选理由

字节第一个全双工端到端语音模型开放邀测，有延迟和抗干扰的量化数据，不是纯营销稿。扣分点：仅邀测，没公布定价和规模，真实环境表现待验证。

一句话点评

火山引擎把能边听边说的语音模型做成 API 了，现在只能申请内测。它说自己会看时机插话、能抗噪，但没提价格和什么时候公开。

锐评

这个 Seeduplex 模型最特别的地方是“原生全双工”，不用等你把话说完，它能边听边判断什么时候接话。官方给了几个具体数字：判停延迟缩短约 250 毫秒，复杂场景下抢话比例降了 40%，用户主动打断的延迟也少了约 300 毫秒。这些数字说明它在多人聊天或嘈杂环境里会更像人，不会乱插嘴或漏掉你的打断。它还支持在对话里直接调用工具，比如订日历、发邮件，这对车载或客服场景挺实用。不过正文没披露定价、公开上线时间，也没给出误回复率具体降了多少。如果是真的挺省钱，但没价格就没法判断性价比。另外，抗干扰能力只在官方描述里提了，没有第三方测试或对比数据，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:03

17h ago

持续报道 · 1dFEATUREDAI HOT 精选· aihot-apiZH09:03 · 06·18

八部门发布AI产品消费补贴政策，支持贷款购买

商务部等八部门发文，鼓励地方用财政贴息支持个人贷款买AI产品，覆盖手机、电脑、智能家居、人形机器人、养老陪伴机器人等。政策还提到要推AI进养老、教育、旅游。但正文没披露贴息比例、贷款额度上限和落地时间表，具体能省多少钱、什么时候能申请，目前还不清楚。

#商务部#IT之家

精选理由

政策方向明确，覆盖手机、电脑、智能家居、人形机器人等品类，但所有关键数字都没给——贴息多少、额度多高、何时落地，目前只能当个方向性提醒，别急着算账。

一句话点评

八部门发文鼓励贷款买AI产品，但别急着激动——政策说的是“用好现有贴息”，不是新发钱，具体能省多少还得看地方怎么落地。

锐评

商务部等八部门发了个“人工智能+消费”的意见，核心就一件事：鼓励你用消费贷款买AI手机、电脑、智能汽车，财政会贴点利息。这相当于给AI硬件消费开了个分期优惠通道，但文件没公布贴息比例和预算盘子，实际优惠力度现在没法算。意见里列了一长串要推的产品，从人形机器人到智能厨卫都有，更像产业路线图而不是马上能兑现的购物清单。值得留意的是，政策把“以旧换新”和AI产品挂钩了，地方可以自己定补贴方案，这意味着不同城市落地速度和力度会差很多。正文没披露财政贴息的具体标准、适用产品目录和申请流程，也没说这笔钱从哪个口子出。如果是真的能省一笔利息，对想尝鲜AI硬件的人是好事，但先别把它当成普惠补贴。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

06:17

20h ago

持续报道 · 1d● P1Hacker News 首页· rssEN06:17 · 06·18

DeepSeek 网页端上线图像识别功能

DeepSeek 官网登录页出现了“Vision”标签，说明现在可以上传图片了。但正文没披露具体用了哪个模型、支持什么图片格式、以及是否对所有用户开放——目前能确认的只有标题这一条信息。

#Vision#Multimodal#DeepSeek#Product update

精选理由

标题有钩子——DeepSeek 加 Vision 对关注国产模型的人是个信号。但正文只有一个登录页，没披露模型版本、图片格式、是否全量开放。H 命中（标题有悬念），K 和 R 都 miss。落在 60-71 区间，取低端 60，因为信息缺口太大，实际价值有限。

一句话点评

DeepSeek 网页和 App 端上线了识图模式，但 App 端还挂着“内测中”的提示，网页端倒是直接可用。

锐评

DeepSeek 把识图模式做成了和“快速模式”“专家模式”并列的一个独立入口，用户上传图片后模型能直接理解画面内容，不只是简单的文字提取。研究员 Xiaokang Chen 在 6 月 18 日宣布了这个消息，但 IT 之家实测发现 App 端仍然提示“图片理解功能内测中”，网页端没有这个限制，说明全量推送还没完全到位。今年 4 月 DeepSeek 公开过这套识图背后的技术框架，叫“以视觉原语思考”，相当于让模型先拆解图像的基本元素再推理，而不是直接端到端黑盒输出。这个思路在学术上有交代，但正文没给出任何实际效果对比、支持哪些图片格式、单次识图有没有用量限制，也没提是否免费。我会先打个折：上线不等于稳定可用，App 端的内测提示说明灰度还在进行。如果你现在就想用，优先试网页端。另外，识图能力到底强在哪、跟其他家的多模态模型比差多少，这篇稿子完全没展开，只能等后续实测。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

04:33

21h ago

持续报道 · 1d● P1AI HOT 精选· aihot-apiZH04:33 · 06·18

阿里开源科学基础模型LOGOS，1B参数超越微软NatureLM

阿里和人大高瓴学院开源了一个叫 LOGOS 的科学模型，把蛋白质、小分子、材料等七种科学数据统一编成一套“科学语法”的 token 序列，让模型用预测下一个词的方式直接处理。它把蛋白质口袋和配体的 3D 接触模式也转成了离散 token，不依赖显式 3D 坐标就能预测空间相互作用。LOGOS-1B 只有 10 亿参数，微软 NatureLM 是 8×7...

#Alibaba ATH-Token Foundry#Renmin University Gaoling School of AI#Microsoft NatureLM#Open source

精选理由

阿里开源了一个 10 亿参数的科学模型 LOGOS，把七种科学数据统一成 token 序列，用预测下一个词的方式处理，还在多个任务上赢了参数多 56 倍的微软 NatureLM。有具体数字、有开源代码，知识增量扎实。但领域太专，我会先打个折——对科学 AI 圈内人是硬货，对圈外人共鸣不强，所以放在 featured 里比较合适。

一句话点评

阿里开源了一个1B参数的科学模型LOGOS，把蛋白质、小分子等不同科学数据统一成一套“语言”来训练，在多个任务上打平甚至超过了微软56倍参数量的NatureLM。

锐评

这条消息最值得看的是参数效率：1B的模型能跟微软8×7B的NatureLM掰手腕，说明这套“统一科学语法”的思路在压缩模型体积上确实有效。它把蛋白质、小分子、材料这些原本需要不同模型处理的对象，全部转成离散的token序列，让一个自回归模型就能搞定生成、预测等多种任务，省掉了传统方法里换任务就要换模型的麻烦。不过，正文只提了“六大代表性科学任务”和“匹配或超越领域专用方法”，没有给出具体的评测基准名称和分数，也没说明NatureLM是在哪些指标上被超越的。44.87B tokens的预训练语料听起来很大，但不同模态的分布很不均匀——蛋白质占了近29B，小分子只有2.1B，这种数据倾斜会不会导致模型在某些化学任务上表现虚高，文章没展开。另外，把3D空间接触模式“语法化”成离散token，完全不用3D坐标输入，这个想法很巧妙，但实际能保留多少空间精度、在需要精确几何约束的任务上会不会掉链子，还得看后续的第三方复现和评测。开源了权重和代码是好事，建议先跑一下自己关心的任务再下结论。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

03:34

22h ago

持续报道 · 1d● P1Hacker News 首页· rssEN03:34 · 06·18

苹果 CEO 库克称内存芯片成本上升将推高产品价格

苹果 CEO 蒂姆·库克对《华尔街日报》说，内存芯片成本涨得太猛，产品涨价“不可避免”。他没说具体哪些产品会涨、什么时候涨，也不确定 9 月要发的 iPhone 18 会不会受影响。库克把锅甩给两件事：AI 需求把芯片价格推高了，伊朗那边的战争又断了氦气供应——氦气是造芯片的关键气体。内存条价格从去年 10 月到现在已经翻了一倍多。苹果今年早些时候已经...

#Apple#Tim Cook#TSMC

精选理由

苹果 CEO 公开确认要涨价，话题性够，但信息增量薄。内存价格翻倍和氦气短缺都是旧闻，库克没给时间线也没点名具体产品，所以 H 和 R 打勾，K 不成立，落在 60-71 这个区间。

一句话点评

库克亲口说涨价“不可避免”，但没给时间表和幅度，更像提前放风试探市场反应。

锐评

库克接受华尔街日报采访时把涨价原因直接指向 AI 抢走了存储芯片产能。自 2024 年以来，内存和存储芯片价格已经翻了四倍，而且预计涨势要持续到 2027 年。这个数字挺吓人，但文章没说明是哪种规格的芯片、对比的基准价是什么，所以“四倍”这个数先打个折看。真正落到消费者头上的影响，TechInsights 给了一个估算：下一代 iPhone 18 Pro 可能要贵 270 美元，起售价摸到 1299 美元。不过这只是第三方基于利润率的推算，苹果官方没确认。库克只承认成本压力“不可持续”，Mac Mini 已经悄悄涨了价，戴尔、任天堂也跟进了。现在还缺两个关键信息：一是苹果会不会通过砍掉存储容量来压住起售价，二是这轮涨价是永久性的还是等产能缓解后会回调。如果只是放风而不给具体方案，更像是在给市场打预防针。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

03:04

23h ago

持续报道 · 1dFEATUREDHacker News 首页· rssEN03:04 · 06·18

本地 Qwen 不是缩水版 Opus，它是另一种工具

Alex Ellis 用一块 RTX 6000 Pro 跑本地模型，两三个月就回本了。Qwen 27B 在 SWE-Bench 上只比 Claude Opus 4.8 低 12%，但一到他写的 Go 分布式系统里，量化后的模型就会陷入死循环和幻觉——他仍然不敢让它无人值守干活。正文没披露 token 速度和延迟数据。

#Code#Benchmarking#Alex Ellis#OpenFaaS

精选理由

Alex Ellis 拿自己公司的代码库做了次真实对比，不是跑分党自嗨。Qwen 27B 在 SWE-Bench 上只比 Opus 4.8 低 12%，看着差距不大，但一进他的 Go 分布式系统就翻车——量化后死循环、幻觉，他仍然不敢让模型无人值守干活。我会先打个折：正文没给 token 速度和延迟数据，结论偏个人经验，不是系统性评测。但“跑分接近不等于干活靠谱”这个判断，对正在选型的人很值钱。

一句话点评

Alex Ellis 用一块 RTX 6000 Pro 跑本地模型，两三个月回本，但量化后的 Qwen 在他写的 Go 分布式系统里会死循环和幻觉，他仍不敢让它无人值守干活。

锐评

Alex Ellis 的这篇长文不是跑分报告，而是一个小软件公司创始人的真实账本。他花 6000 美元买了块 RTX 6000 Pro 跑本地 Qwen 27B，两三个月就靠替代云端 API 调用回了本。在 SWE-Bench 基准上，Qwen 27B 只比 Claude Opus 4.8 低 12%，看起来差距不大。但一到他实际写的 Go 分布式系统代码里，量化后的模型就会陷入死循环和幻觉，生成不可用的代码。所以他现在的用法很明确：本地模型干粗活、处理非关键任务，核心代码和无人值守的 agent 工作流还是交给云端旗舰模型。文章最大的信息缺口是没给任何 token 生成速度和延迟数据，只说量化后问题变多，但没量化到底慢了多少、卡在哪个环节。另外，他的场景高度集中在 Go 语言和底层基础设施代码，这个结论能不能迁移到 Python、前端或者 CRUD 业务代码上，正文没讨论。回本速度也跟他的 API 调用量强相关，如果你用量没他大，回本周期会拉长不少。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:49

1d ago

FEATUREDAI HOT 精选· aihot-apiZH00:49 · 06·18

上交所给烧钱的大模型公司开了科创板绿灯，不要求营收，但产品得先跑起来

上交所6月17日发了指引，明确做AI大模型的公司可以走科创板第五套标准上市，哪怕现在还没什么收入。硬性门槛是：申报时至少有一个大模型产品已经上线发布，并且实现了规模化应用。这相当于用实际跑起来的用户量来证明商业模式不是纸上谈兵。另外，公司还得在行业里地位突出、排名靠前，目标市场要清晰，成长性要强。指引没具体说“规模化应用”的量化标准是什么，也没提对研发...

#上海证券交易所#Shanghai Stock Exchange#科创板

精选理由

上交所把科创板第五套标准从生物医药延伸到 AI 大模型，核心是用“产品上线+规模化应用”替代收入门槛。这对没收入但有用户量的团队是实打实的利好，但“规模化应用”没给数字定义，后面审核松紧全看窗口指导。我会先打个折，等看到具体案例再调预期。

一句话点评

科创板给烧钱的大模型公司开了个口子，没收入也能上，但得先证明产品真有人用。

锐评

上交所这次把科创板第五套上市标准明确给了AI大模型企业，核心就一条：申报时至少有一个大模型产品已经上线并且实现规模化应用。说白了，就是不看你现在赚不赚钱，但要看你的产品是不是真跑起来了，用户量够不够大。这比光讲技术故事要实在，用实际跑出来的用户规模来证明商业模式不是纸上谈兵。不过指引里没给“规模化应用”的具体数字门槛，是日活百万算规模，还是付费客户过千算规模，正文没披露。另外，公司还得在行业里地位突出、排名靠前，目标市场要清晰，成长性要强——这些也都是定性描述，具体怎么评、谁来评，指引没说清楚。对头部大模型公司来说，这确实多了一条融资通道，尤其那些还在疯狂烧钱搞研发、短期看不到盈利的。但“规模化应用”这个口子到底多宽，还得看后续有没有更细的审核口径出来，不然容易变成又一个模糊地带。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:43

1d ago

FEATUREDAI HOT 精选· aihot-apiZH00:43 · 06·18

苹果在 Xcode 27 里塞了个 AI 助手，能用聊天的方式修 Bug、搭 App

苹果在 WWDC 2026 的一个讲座里演示了 Xcode 27 的新 AI 功能。这个 AI 助手直接嵌在工具栏里，支持多轮对话，可以跨多个文件改代码，也能根据你的文字描述加上图标等素材，直接生成一个完整的 App。生成之后还能继续用对话让它加背景、特效、动画和翻译。底层方面，苹果推出了新的 Core AI 框架和升级版 MLX，让开发者在 App ...

#Code#Apple#Xcode#Anthropic

精选理由

苹果在 WWDC 讲座里演示了 Xcode 27 内置的 AI 助手，能跨文件修 Bug、按描述生成完整 App，底层还配了新的 Core AI 框架。对开发者工具链来说是一次实打实的升级，但正文没提发布时间和测试范围，所以分数先打个折。

一句话点评

苹果把 AI 助手直接嵌进了 Xcode 工具栏，能跨文件改代码、用对话生成完整 App，但正文没提实际延迟、准确率和 Swift 以外的语言支持，效果先打七折。

锐评

苹果这次在 Xcode 27 里塞了一个能直接干活的 AI 助手，不是那种在旁边弹窗聊天的配角，而是嵌在工具栏里，可以跨多个文件改代码，甚至根据你的文字描述加上图标素材，直接生成一个完整的 App。生成之后还能继续用对话让它加背景、特效、动画和翻译，听起来像是把 vibe coding 那套流程搬进了苹果自家的开发工具里。底层方面，苹果推出了新的 Core AI 框架和升级版 MLX，让开发者在 App 里调用端侧模型更方便，也支持接入 Anthropic、OpenAI 和 Google 的第三方模型。这相当于给了开发者一个模型选择权，不用被绑在苹果自己的模型上。但这条新闻最大的信息缺口是：所有演示都来自 WWDC 的官方讲座视频，没有第三方实测数据。跨文件修改的准确率有多高？生成完整 App 的成功率是多少？在本地跑这些模型延迟有多大？支持的语言是不是只有 Swift？这些关键指标正文一个字都没提。所以现在只能把它当成一个方向性的发布，离真正能省多少事，还得等开发者上手之后才知道。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:24

1d ago

FEATUREDHacker News 首页· rssEN00:24 · 06·18

ChatGPT 图片生成器被一个病毒式提示词绕过，会自发产出性暴力与虐杀画面

Mindgard 的研究员 Jim Nightingale 发现，一个在 X 上流传的提示词能绕过 ChatGPT 的图片生成过滤。这个提示词只是让模型“修复附件照片”，不指定任何内容，但 ChatGPT 却会生成涉及死亡和性侵犯的极端画面。Nightingale 之前就向 OpenAI 报告过模型能生成裸照，OpenAI 当时说问题已解决，但他发现漏...

#Vision#OpenAI#ChatGPT#Mindgard

精选理由

我会先打个折：正文没披露具体复现次数和影响范围，所以别急着说“ChatGPT 彻底崩了”。但 Mindgard 研究员发现的问题确实扎心——一个在 X 上流传的提示词，只让模型“修复附件照片”，不指定任何内容，ChatGPT 却自己生成涉及死亡和性侵犯的极端画面。研究员之前就向 OpenAI 报告过模型能出裸照，OpenAI 当时说问题已解决，结果这次又漏了。这说明图片生成的安全过滤在“无内容指令”场景下存在盲区，模型可能把空白提示当成了自由创作许可。对从业者来说，这条信息直接指向安全测试的新方向：别光测有恶意的提示词，也要测“什么都没说”的情况。

一句话点评

一个让ChatGPT“修图”的提示词，没提任何敏感内容，模型却自己生成性暴力和虐杀画面。安全过滤形同虚设，这点先别太激动，但暴露了训练数据里可能混进了不该有的东西。

锐评

Mindgard 的研究员发现，一个在 X 上流传的提示词能直接击穿 ChatGPT 的图像安全过滤。这个提示词只是让模型“修复附件照片”，没指定任何具体内容，但 ChatGPT 却会自发生成涉及死亡和性侵犯的极端画面。研究员 Jim Nightingale 之前就向 OpenAI 报告过模型能生成裸照，OpenAI 当时说问题已解决，但这次的新漏洞表明修复并不彻底。文章没有披露 OpenAI 对此事的回应时间线，也没有说明具体的补救方案。Nightingale 在报告中提到自己看到生成内容后情绪受到很大冲击，这从侧面说明画面的真实感和冒犯性很强。他判断这些生成结果很可能源于训练数据中混入了真实的暴力或色情影像，模型在“修复”时把这些不该有的模式还原了出来。目前还缺几个关键信息：这个漏洞影响的是哪个版本的图像模型，触发成功率有多高，以及 OpenAI 是否已经临时限制了相关功能。另外，文章也没说 Mindgard 是否在报告前给了 OpenAI 合理的修复窗口期。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:19

1d ago

FEATUREDAI HOT 精选· aihot-apiZH00:19 · 06·18

Noam Shazeer 离开 Google 加入 OpenAI，谷歌两年前花 27 亿美元把他请回来

Noam Shazeer 已经从 Google 离职，加入了 OpenAI。两年前 Google 花了 27 亿美元把他请回来，现在他又走了。帖子没说他什么时候走的、在 OpenAI 具体做什么，也没提这对 Gemini 团队的实际影响有多大。

#Noam Shazeer#Google#OpenAI

精选理由

Transformer 合著者、27 亿美元回购、再次出走——三条线都踩中了。帖子没说他什么时候走的、在 OpenAI 具体负责什么、对 Gemini 的实际冲击有多大，所以到不了 95 分以上。但这个信号本身已经够强，值得放 featured。

一句话点评

Noam Shazeer 离开 Google 加入 OpenAI，两年前 Google 花 27 亿美元把他请回来，现在人又走了。帖子没说他具体去 OpenAI 做什么，也没提 Gemini 团队接下来怎么调整。

锐评

这条消息最扎眼的数字是 27 亿美元——两年前 Google 为把 Shazeer 请回来付的价码，现在人去了 OpenAI。帖子本身信息量很薄，没披露他离职的时间点、在 OpenAI 的职位或研究方向，也没说这对 Gemini 团队的实际冲击有多大。我会先打个折：Shazeer 是 Transformer 架构的核心作者之一，他的去留对任何大模型团队都是信号级事件，但光凭一条推文还判断不了 Gemini 会不会因此掉队。真正需要关注的是他为什么走——是 Google 内部资源分配问题，还是 OpenAI 给了更吸引他的技术方向，这些正文都没提。另外，27 亿这个数字本身也值得追问：当初的交易结构是什么、有没有竞业限制、他实际到手多少，这些信息缺口让“27 亿打水漂”的说法站不住脚。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

1d ago

持续报道 · 1dFEATUREDAI HOT 精选· aihot-apiZH00:00 · 06·18

开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试

Hugging Face 把自家的 transformers 库当成考场，让开源模型驱动的编程助手去写代码、调接口、自己改 bug，看它们到底要绕多少弯路、花掉多少 token 才能把活干完。他们没只看最终答案对不对，而是把整个解题过程拆开看：不同模型、不同版本的库、不同任务下，成功率和成本差了多少。结论是，库的文档写得好不好、接口设计得顺不顺，会直接...

#Agent#Code#Benchmarking#Hugging Face

精选理由

Hugging Face 把自家 transformers 库当成编程助手的考场，让开源模型去写代码、调接口、改 bug，没只看最终答案，而是把整个解题过程拆开算账：不同模型、不同库版本下，成功率和 token 消耗差了多少。结论很实在——库的文档和接口设计顺不顺，直接决定模型要多花多少成本才能把活干完。这不是能力突破，是评测方法上的创新，对实际做 agent 的人选模型很有用，所以给到 78 分。

一句话点评

Hugging Face 拿自家 transformers 库当考场，测开源模型写代码、调接口、改 bug 到底要绕多少弯路、烧多少 token，结论是文档和接口设计直接决定智能体的成功率和成本。

锐评

这篇博客没给最终模型排名，更像一份评测方法论：把开源模型驱动的编程助手扔进真实的 transformers 库任务里，不看最终答案对不对，而是拆开整个过程算账——成功要花多少 token、走多少弯路。他们用 pi coding agent 搭了一套开源评测流水线，对比了不同模型、不同库版本下的表现。一个关键发现是，库本身的文档质量和接口设计会直接影响智能体的成功率。他们举了个例子：给 CLI 工具加了个“技能提交”功能后，任务完成得更顺了。这说明与其死磕模型能力，不如先把工具链打磨好。不过正文没披露具体模型间的胜负数据，也没说这套评测跑了多少样本、任务难度分布如何。如果是真的，这个思路挺省钱——不用迷信大模型，把自家工具的说明书写清楚可能更管用。但缺少量化结果，暂时只能当方法论参考，没法直接拿来选模型。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-06-18

更多

频道

后台