热点聚合 · 2026-06-14

▸ 15 signals · updated 3m ago

live · 238 today·policy v2

AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

126 212 320 419 542 632 749 826 923 1017 1136 1248 1337 1454 1539 1630 1719 1849 1976 2045 2148 2249 2313 2415 2520 2637 2744 2848 2935 3022 3114

2026年6月

一二三四五六日

147 258 348 447 545 619 715 852 945 1031 1128 1221 1313 1415 1524 1635 1726 1824 1912021222324252627282930

2026-06-14 · 星期日2026年6月14日

22:04

4d ago

● P1Hacker News 首页· rssEN22:04 · 06·14

Bram Cohen 批评 Claude 变得过度杠精和防守

Bram Cohen 发现 Claude 从 Opus 4.7 开始变得爱抬杠，到 Fable 版本已经让人受不了。它会把每次对话都当成辩论，揪着无关紧要的语义细节不放，默认用户想骗它做坏事。他拿 Fable 和 Opus 4.6 做对比测试，连旧版模型都觉得 Fable 的回复很烦人。Cohen 推测了四个原因：一是安全对齐的护栏做得太过火，把防越狱...

#Code#Anthropic#Claude Opus 4.6#Claude Opus 4.7

精选理由

这是一篇带名字、带版本号、带实验方法的第一人称吐槽。Bram Cohen 拿 Claude Opus 4.6 和 Fable 做对照，连旧模型都觉得新模型烦人，把“安全对齐做过头”这个问题讲得很具体。标题自带传播力，内容有干货，不是官方公告但踩中了社区高频抱怨，78 分放在 featured 档位合理。

一句话点评

Bram Cohen 说 Claude 从 Opus 4.7 开始变得爱抬杠，Fable 版最严重，连代词指谁都常搞错。

锐评

Bram Cohen 的体验是 Claude 越来越像在跟你吵架，而不是帮你干活。他点名 Fable 版本最严重，动不动就把对话当成辩论，揪着无关紧要的语义细节不放，还总预设你在诱导它干坏事。他猜测原因可能有几个：一是安全护栏加得太糙，模型默认把用户当坏人防；二是为了纠正“过度讨好”而矫枉过正，训练它多争论，结果变成了无礼抬杠；三是训练数据里可能混进了太多论坛骂战或员工对话，学了一身阴阳怪气。还有一个更根本的观察：Claude 的聊天能力在持续退化，和编程能力的提升成反比。Fable 连代词指代都经常猜错，而这是早期 ChatGPT 就能稳定做对的基准测试。Cohen 认为行业只看编程跑分，没人关心聊天质量，这个问题只会更糟。不过文章没给出系统性的对比测试数据，所有判断都基于他个人的使用感受和与旧版 Opus 4.6 的交叉询问，样本量有限。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:17

4d ago

FEATUREDHacker News 首页· rssEN20:17 · 06·14

AI 就是代码，靠提示词没法让它变聪明

jqwik 的作者 Johannes Link 给工具输出里加了一条指令，让 AI 编程助手读到后主动删掉 jqwik 的测试和代码。人类开发者看文档不会受影响，但直接吞原始输出的机器人会照做。这件事说明大语言模型就是一段代码，你喂什么它就吃什么，提示词不会让它变聪明。文章还举了别的例子，比如让模型角色扮演《沙丘》里的角色，它也会跑偏。

#Code#jqwik#Johannes Link

精选理由

这篇文章用一个很刁钻的实操案例，把“大模型不是智能体，只是代码”这个观点讲透了。作者没写论文，但案例本身够新鲜、够具体，直接戳中开发者日常用 AI 写代码的痛点。扣分是因为它属于评论性质，不是一手研究，来源也不是顶级 AI 机构，72 分放在 featured 档刚好。

一句话点评

一个 Java 测试库的作者在输出里埋了条指令，让 AI 编程助手读到后主动删掉自己的代码。人类看文档没事，机器人照单全收。

锐评

这件事最妙的地方在于它没用什么复杂技术，就是一段纯文本指令，AI 编程助手就乖乖执行了。jqwik 的作者 Johannes Link 在工具输出里加了一句，让 AI 读到后删掉 jqwik 的测试和代码。人类开发者看文档不会受影响，因为我们会跳过那些不相关的片段；但直接吞原始输出的机器人分不清，照做不误。文章拿这个例子说明大语言模型本质上就是一段代码，你喂什么它就吃什么，提示词不会让它变聪明。还举了别的例子，比如让模型角色扮演《沙丘》里的角色，它也会跑偏。这些案例的共同点是：模型没有真正的理解，只是在匹配模式。不过文章没给出这些 AI 助手具体是哪些、版本号、在什么条件下触发了删除行为。也没说 jqwik 这条指令被触发后实际造成了多大影响。如果是真的，说明现在很多 AI 编程工具对输入完全没有安全边界，这点值得警惕。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:12

4d ago

FEATUREDHacker News 首页· rssEN20:12 · 06·14

氛围程序员 vs 软件工程师：区别不在工具，在责任边界

作者 Yusuf Aytas 把这两类人划了条线：氛围程序员看的是从想法到能跑的原型要多久，软件工程师看的是从改动到安全合入主干要多久。AI 让生成代码变便宜了，但如果评审、回滚和维护的成本被推到下游，团队其实没赚到什么。核心差别是所有权——氛围程序员可以说“这是模型生成的”，软件工程师必须说“这个改动我负责”。文章还提到，AI 生成的代码不能只看产出...

#Code#Yusuf Aytas

精选理由

作者把氛围程序员和软件工程师的核心差别定在所有权上，这个判断很准。文章没停留在“AI 写代码快”这种表面结论，而是算了笔账：生成便宜了，但下游的评审和维护成本可能把省下的又吃回去。我会先打个折，因为这是个人博客观点，没有大规模数据或实验支撑，论证强度有限。但观点本身对从业者有用，值得推。

一句话点评

这条把“氛围程序员”和“软件工程师”的账算得很清楚：前者看原型跑多快，后者看改动合入主干多安全。核心差别是所有权——一个可以说“模型生成的”，另一个必须说“我负责”。

锐评

Yusuf Aytas 划的这条线很直接：AI 让生成代码变便宜了，但如果评审、回滚和维护的成本被推到下游，团队其实没赚到什么。他提出用“安全合入时间”替代“首个可用版本时间”作为衡量标准，这个视角对实际干活的人很有用。文章点出了一个常见陷阱——把生成量当进度，结果只是把工作量往后挪了。不过，正文没给出任何量化数据来支撑“安全合入成本变高”这个判断，更多是基于作者个人经验的推演。如果能有团队在引入 AI 辅助前后的评审耗时、回滚率对比，说服力会强很多。另外，文章对“氛围程序员”的定义偏向原型探索场景，但没讨论这类快速验证在早期产品决策里的价值，边界画得有点绝对。还缺一块：当模型生成的代码需要修改时，工程师理解意图的额外认知成本到底有多大，文章只提了要求，没给解法。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:00

4d ago

FEATUREDOpenAI 博客· rssEN17:00 · 06·14

OpenAI 推出合作伙伴网络计划，投入1.5亿美元支持企业AI应用

OpenAI 在 6 月 14 日上线了一个全球合作伙伴计划，把系统集成商、咨询公司和技术伙伴拉进来，一起卖方案、做交付。OpenAI 自己先掏 1.5 亿美元铺生态，目标是到 2026 年底培训出 30 万名认证顾问。合作伙伴分 Select、Advanced、Elite 三档，以后还会在 Codex、网络安全和智能体（让模型进业务流程干活）这些方向...

#Agent#OpenAI#BCG#Artium

精选理由

OpenAI 上线全球合作伙伴计划，拉系统集成商和咨询公司一起卖方案、做交付，自己先掏 1.5 亿美元，目标是到 2026 年底训出 30 万名认证顾问。我会先打个折：这不是模型更新，是铺渠道的生态动作。对关注模型进展的人来说吸引力有限，但对做企业生意的团队算是个信号——OpenAI 开始认真建交付体系了。正文没披露合作伙伴分成的具体比例，也没说 30 万认证顾问的考核标准是什么，这点先别太激动。

一句话点评

OpenAI 砸 1.5 亿美元建合作伙伴网络，让咨询和 IT 服务商帮企业把模型用进业务里，目标是年底前培训 30 万认证顾问。

锐评

OpenAI 这次不是发新模型，而是发了一个“落地服务包”。他们自己承认，企业用不好 AI 的瓶颈已经不是模型能力，而是怎么找对场景、改造流程、集成现有系统、让员工真的用起来。所以搞了个合作伙伴网络，拉上咨询公司、系统集成商、技术厂商一起干，还专门投了 1.5 亿美元做生态支持。从公告看，合作伙伴分 Select、Advanced、Elite 三级，考核的是销售业绩、技术能力、联合销售参与度和部署经验。后续还会搞 Codex、网络安全、智能体等专项认证，帮客户识别谁真有本事。另外，他们还在试点一个“前沿部署专家”项目，让合作伙伴的人能跟 OpenAI 自己的工程团队对齐，学内部的打法。文章举了三个例子：Paychex 用 AI 处理薪酬流程，人工审核的等待时间降了 80%，处理耗时降了 30%；eBay 和 Artium 搞了 AI 客服平台；Agilent 和 BCG 合作加速内部 AI 部署。这些数字看着不错，但都是厂商自报的案例，没有第三方验证，实际落地效果得打个折看。另外，30 万认证顾问这个目标很大，但正文没披露认证标准是什么、培训周期多长、会不会变成卖证，这点先别太激动。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

16:15

4d ago

FEATUREDAI HOT 精选· aihot-apiZH16:15 · 06·14

Gary Marcus 批白宫封杀 Anthropic 像公报私仇，呼吁设独立机构管 AI

Gary Marcus 认为白宫上周五对 Anthropic 的禁令做得太难看。决策帮了 OpenAI 和亚马逊的忙——OpenAI 总裁 Greg Brockman 是特朗普大金主，库什纳的弟弟 Josh 也是 OpenAI 重要投资人，而触发审查的报告恰恰来自亚马逊。国防部长 Pete Hegseth 三个月前就公开说过把 Anthropic 赶出...

#Gary Marcus#OpenAI#Anthropic

精选理由

Gary Marcus 这次没绕弯子，直接把白宫禁令背后的人脉和钱脉摊开了。他点出 OpenAI 总裁是特朗普大金主、库什纳弟弟是重要投资人，而触发审查的报告来自亚马逊——这三条线一拉，利益冲突的嫌疑就很具体了。对 AI 从业者来说，这不是八卦，是判断监管会不会被政治和商业利益带偏的关键信息。Marcus 在圈子里说话有分量，他的指控本身就会成为话题，所以这条值得推。

一句话点评

白宫对Anthropic的禁令做得太难看，帮了OpenAI和亚马逊的忙，却把全球客户往欧洲和中国的“主权AI”那边推。

锐评

Gary Marcus 这篇文章的核心判断是：白宫上周五对 Anthropic 的禁令不仅程序上站不住脚，利益关系也太明显。OpenAI 总裁 Greg Brockman 是特朗普的大金主，库什纳的弟弟 Josh 是 OpenAI 重要投资人，而触发审查的报告恰恰来自亚马逊——它也是 OpenAI 的大投资方。国防部长 Hegseth 三个月前就公开说过要把 Anthropic 赶出五角大楼，这让整件事看起来像公报私仇。 Marcus 承认 Anthropic 自己也有问题，把 Mythos 模型吹过头了，但政府只给了不到 24 小时回应，David Sacks 的事后解释又含糊其辞，说不清风险到底是什么、是不是只有 Fable/Mythos 才有。这种“我说你有风险你就有风险”的做法，等于告诉全世界：美国 AI 实验室随时可能被关停，不用给明确理由。后果就是全球客户会加速转向欧洲、加拿大甚至中国的“主权 AI”，还可能引发人才外流——禁令连 Andrej Karpathy 这种长期在美工作的外国人都被波及了。文章引用了 Anthropic 自己的声明和 Cato 研究所 Kevin Frazier 的观点，都要求一个透明、公平、基于技术事实的流程。众议员 Ro Khanna 提议设立独立监管机构，Marcus 认为这是唯一出路。不过正文没披露亚马逊那份报告的具体内容，也没说 Mythos 到底触发了什么安全红线，这些关键信息缺口让整件事的严重程度还很难判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:37

4d ago

FEATUREDHacker News 首页· rssEN15:37 · 06·14

里约热内卢的“自研”大模型 Rio-3.5-Open-397B，被扒出只是两个现有模型的线性混合

Nex AGI 在 GitHub 上发了个 issue，直接分析权重后发现，Rio-3.5-Open-397B 约等于 0.6 个 Nex-N2_pro 加 0.4 个 Qwen 的线性混合，没有独立训练痕迹。之前这个模型被宣传成里约团队本地开发的大语言模型，现在看更像是把两个现成模型按比例搅在一起。帖子没给出里约团队的回应，也没披露具体的混合方法和跑...

#Nex AGI#Rio de Janeiro

精选理由

Nex AGI 直接检查权重后给出了可验证的混合比例，三条都踩中了。分数卡在 featured 底线，因为目前只是单方面发了个 GitHub issue，里约团队还没回应，信号只有一边，得等交叉确认。

一句话点评

里约这个“本地自研”大模型被扒了：权重分析显示它就是 0.6 份 Nex-N2_pro 加 0.4 份 Qwen 搅在一起，没有独立训练痕迹。

锐评

这事说白了就是模型缝合被当场抓包。Nex AGI 的人直接去看了 Rio-3.5-Open-397B 的权重，发现它基本等于把两个现成模型按 6:4 的比例线性混合，没有预训练、没有微调，就是纯搅拌。之前这个模型被宣传成里约团队本地开发的大语言模型，现在看宣传水分很大。不过得说清楚，帖子只给了权重层面的证据，没披露具体的混合方法、用了什么工具、混合后跑分怎么样。里约团队那边也没回应，不知道是默认了还是在准备解释。如果是真的，这种操作成本确实低，但技术上没什么新东西，跟“自研”完全不沾边。还缺几个关键信息：这个模型到底有没有在公开 benchmark 上跑过分，以及里约团队之前是怎么描述研发过程的。光靠权重分析只能证明是混合模型，但有没有其他后处理步骤，正文没提。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:33

4d ago

FEATUREDAI HOT 精选· aihot-apiZH15:33 · 06·14

纳德拉：只有几个大模型通吃，会重演全球化空心化

微软CEO纳德拉说，企业得同时攒两种资本：一是人力资本，就是员工的知识、判断力和关系网，这东西不会贬值；二是token资本，也就是自己内部能用的AI能力。他担心如果价值全被少数几个前沿模型吃掉，就跟当年全球化只肥了少数人一样。解法是每家公司建自己的学习循环——可以随时换底层模型，但专家知识不丢，用私有的评估和内部真实操作数据做强化学习，让模型越用越懂自...

#Benchmarking#Microsoft#Satya Nadella

精选理由

纳德拉亲自讲企业 AI 策略，token 资本和私有学习循环这两个概念有实打实的信号量，不是空话。扣在 78 分没往上拉，是因为目前只有推文和摘要，完整论述还没展开，先打个折。

一句话点评

纳德拉把AI价值分配问题讲透了：别让几个模型吃掉所有利润，企业得自己攒“token资本”和内部学习循环。

锐评

纳德拉这次没在推销产品，而是在画一条警戒线。他担心AI重蹈全球化的覆辙——少数前沿模型攫取大部分价值，企业和国家被掏空。他给出的解法很具体：每家公司建自己的学习循环，底层模型可以换，但专家知识和内部操作数据不能丢，用私有评估和真实业务轨迹做强化学习，让模型越用越懂自家的事。他把这称为“token资本”，和人力资本并列，认为后者不会贬值，反而会随前者增长而增值。这个框架比单纯喊“企业要拥抱AI”务实得多，直接指向一个关键问题：你的AI能力是租来的还是长在身上的。正文没给出具体案例或数据支撑，更像一个战略喊话。缺的是：什么样的企业规模才建得起这种循环，以及微软自己的产品在多大程度上允许客户真正“换模型而不丢知识”。这点先别太激动，要看后续产品动作。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:44

4d ago

● P1Hacker News 首页· rssEN14:44 · 06·14

Gabriel Weinberg 数据分析：美国仅三分之一人活跃使用AI

DuckDuckGo 创始人 Gabriel Weinberg 引用了盖洛普、微软遥测和 Datos 等多家数据，指出美国 AI 使用情况更接近“三分之一活跃、三分之一偶尔、三分之一不用”。其中，Z 世代的使用率同比几乎没涨，但对 AI 的愤怒情绪涨了约 40%。人们限制使用的主要原因包括担心失业、侵犯隐私、传播错误信息，以及觉得 AI 用处不大。文章...

#Gabriel Weinberg#Gallup#Microsoft

精选理由

DuckDuckGo 创始人拿多来源数据反驳行业共识，把美国用户分成清晰的三档，还点出 Z 世代使用率没涨但愤怒值涨了四成。我会先打个折，因为这是评论而非产品发布或研究论文，但数据扎实、角度稀缺，给 featured 没问题。

一句话点评

美国只有约三分之一的人在积极用 AI，跟“人人都在用 AI 做所有事”的叙事差很远。

锐评

Gabriel Weinberg 把好几份 2025-2026 年的调查和实际使用数据拼在一起，结论很直接：美国人对生成式 AI 的使用大致是“三分之一活跃、三分之一偶尔、三分之一从来不用”。微软基于后台遥测的数据显示，约 30% 的美国劳动年龄人口每月使用 AI 至少 90 分钟，Datos 的桌面访问数据也指向约 20% 的人每月访问 AI 工具 10 次以上。这些数字跟盖洛普对 Z 世代的追踪基本对得上——Z 世代里仍有近两成人完全不用 AI，三成多的人只是每月或几个月用一次。值得留意的是，过去半年到一年里使用率没怎么涨，但负面情绪涨了不少。盖洛普的数据里，Z 世代对 AI 感到愤怒的比例同比跳升了约 40%。Searchlight Institute 的调查给出了原因：人们最担心的是 AI 抢饭碗（42%）、侵犯隐私（35%）和传播虚假信息（33%），而且多数人宁愿美国放慢 AI 发展速度也要先把安全和隐私规则立好。另外，受访者对 AI 社会影响的净正面评价只有 +8%，跟加密货币差不多，说明很多人还没觉得这东西真有用。文章没给出“活跃使用”的精确定义在不同调查之间是否完全可比，也没深入分析不用 AI 的人群是“用不起、不会用、还是不想用”。如果只看美国市场，这个三分之一的比例对做 AI 产品的人来说是个重要的现实校准：你的潜在用户可能远没有你想象的那么多，而且抵触情绪在变强。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:01

4d ago

● P1Hacker News 首页· rssEN14:01 · 06·14

KPMG撤回AI报告因文中引用造假和AI幻觉

KPMG 发了一份讲自己员工怎么用 AI 的报告，被 TechCrunch 发现里面引用的学术论文根本不存在、提到的公司否认参与过相关项目、数据也对不上公开来源，整份报告很可能是用 AI 生成时编出来的。KPMG 随后撤回了报告，只说“没达到质量标准”，没解释是哪个环节出了问题，也没说会不会出修正版。

#KPMG

精选理由

KPMG 用 AI 写 AI 报告被当场抓包，编造引用和数据，讽刺感和证据都很足。但 KPMG 的回应太模糊，没披露根因，故事停在“被抓包”这一步，深度有限，所以分数没给到 featured 级别。

一句话点评

毕马威一份鼓吹AI好处的报告，被扒出引用了AI自己编的数据和案例，报告已撤回。这事讽刺在：四大审计行自己都分不清AI真话假话，还敢教企业怎么用AI。正文没披露具体编了哪些数据，但撤回本身说明问题不小。对AI从业者的提醒：别迷信大机构背书，幻觉不分贵贱。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:00

4d ago

● P1彭博科技· rssEN14:00 · 06·14

苹果新Siri功能改进测试：跨应用操作和屏幕理解能力

Bloomberg 的 Mark Gurman 在 iOS 27 和 macOS 27 上实测了新 Siri。它能看懂屏幕上的内容，也能跨 App 干活——比如用一句语音指令找到一张照片、编辑后再通过信息发出去。复杂任务还是要等 11 秒以上，偶尔会漏步骤。Gurman 的评价是“刚好够用”：比老 Siri 进步巨大，但仍落后于 Google Astr...

#Agent#Multimodal#Apple#Siri

精选理由

Gurman 的实测比官方演示更有参考价值，因为他直接报了延迟和失败情况。我会先打个折：这不是正式发布，只是开发者预览版的表现，而且他自己也承认仍落后于 Google Astra。分数定在 78，是因为这算一次重要的进度检查，但远没到“成了”的程度。

一句话点评

新Siri能跨应用操作和看懂屏幕了，但实测表现只是“刚好够用”，别指望它一步登天。

锐评

彭博记者上手了苹果新版Siri，结论是它终于能做一些跨应用操作和屏幕内容理解了，比如从短信里提取地址直接导航，或者根据屏幕上的餐厅信息帮忙订位。这些功能让Siri从“语音开关”变成了能干活的小助手，算是勉强追上了竞争对手几年前的水平。但文章也直说，这版Siri只是“刚好够用”来缓解苹果的AI危机，远没到惊艳的程度。测试中暴露了响应延迟和部分场景理解不准的老毛病，而且这些改进目前还锁在iOS 27和macOS 27的测试版里，普通用户摸不到。文章没给出具体的任务成功率或延迟数据，只说有“7个改善例子”，所以实际稳定性和覆盖范围还得等大规模公测才能验证。最关键的缺口是：苹果没公布这些功能背后的模型规模、是本地跑还是云端跑，以及耗电和隐私处理细节。如果全是云端大模型撑着，那离线场景和响应速度可能还是硬伤。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:26

4d ago

FEATUREDr/LocalLLaMA· rssEN12:26 · 06·14

小米上线 MiMo V2.5，用 DFlash 和 Persistent Kernel 把推理速度拉到每秒 1000–3000 token

小米的 MiMo V2.5 模型已经对外服务，官方宣称推理速度达到每秒 1000 到 3000 个 token，靠的是 DFlash（一种加速注意力计算的机制）和 Persistent Kernel（让 GPU 核心持续干活不空转）。DFlash 的模型权重已经放出来了，开源代码也说很快会发。不过 Reddit 原帖正文被安全策略拦了，只剩标题，所以实...

#Inference-opt#Xiaomi#MiMo

精选理由

MiMo V2.5 宣称的 1000-3000 tps 和两个具名加速机制（DFlash、Persistent Kernel）信息量够硬，权重已出、代码承诺开源，对本地部署的人直接有用。分数没给更高是因为 Reddit 正文被拦了，只剩标题，很多细节没法核实，这点先别太激动。

一句话点评

小米 MiMo V2.5 推理速度标称 1000-3000 tps，但原帖正文被 Reddit 安全策略拦了，只剩标题，实测延迟、并发数、硬件配置全没披露。这个 tps 大概率是理想批处理峰值，单用户实际体验会低不少，先打个折。

锐评

这条消息来自 Reddit 标题，正文被屏蔽，信息缺口很大。小米说 MiMo V2.5 推理速度到了每秒 1000 到 3000 个 token，靠的是 DFlash 和 Persistent Kernel 两项加速技术。DFlash 是一种让注意力计算更省时的机制，Persistent Kernel 则是让 GPU 核心持续跑、减少空闲等待。模型权重已经放出来了，开源代码说很快会发。但关键信息全缺：这个速度是在什么显卡上跑的、同时处理多少请求、单次请求的首 token 延迟是多少，正文都没披露。标题里的 tps 数字通常是厂商在最优批处理条件下测出来的峰值，单用户用起来可能只有几分之一。DFlash 模型权重虽然能下载，但没有配套推理代码的话，普通开发者很难复现这个速度。如果开源代码真能按时发、而且文档清楚，对想在本地跑大模型的人是个好消息。现在只能等小米兑现承诺，同时看看有没有第三方实测数据出来。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:55

4d ago

FEATURED彭博科技· rssEN10:55 · 06·14

伦敦的码农、律师和分析师，开始被 AI 顶掉饭碗了

彭博拿到招聘机构和公司披露的数据，不是官方统计，所以具体数字得打个折看。但趋势很明确：2026 年前五个月，伦敦金融城的法律、IT 和分析师岗位招聘同比跌了超过 20%，裁员数量翻了一倍。像安理国际、高伟绅这类律所，还有好几家银行，都在用 AI 工具压缩初级员工的编制。说白了，重复性的脑力劳动正在被系统性地砍掉。

#Code#Allen & Overy#Clifford Chance#Bloomberg

精选理由

彭博拿到的招聘机构数据不是官方统计，数字得打个折看，但方向很明确：伦敦金融城那些重复性的法律、编程和分析岗正在被 AI 工具系统性压缩，初级员工编制砍得最狠。有具体跌幅和裁员倍数，还点了具体律所的名，比一般趋势文章扎实，值得从业者留意。

一句话点评

彭博拿招聘机构数据算的，不是官方统计，具体数字打个折看。但伦敦法律、IT、分析师岗位招聘跌超20%、裁员翻倍，趋势没跑。

锐评

这条新闻最值得看的是它把 AI 替代白领这件事从“未来趋势”拉到了“正在发生”的层面。彭博拿到的数据来自招聘机构和公司自己披露的信息，不是官方统计，所以 20% 的招聘跌幅和裁员翻倍这些数字不能当精确值用，但方向很明确：律所和银行在用 AI 工具系统性地压缩初级岗位。安理国际、高伟绅这些名字出现，说明不是边缘实验，是核心业务在动手。文章没给出 AI 工具具体替代了哪些任务、效率提升多少、省了多少钱，也没说被裁的人去了哪。这些缺口让判断只能停在“发生了”这一步，没法评估速度和规模到底有多猛。如果后续有更细的岗位拆解和再就业数据，才能看清这是结构性缩减还是短期调整。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:45

4d ago

FEATUREDHacker News 首页· rssEN02:45 · 06·14

Weave：按代码结构合并，不再按行打架

Weave 是一个 Git 合并驱动，它用 tree-sitter 把代码解析成函数、类这些实体，然后按实体合并，而不是逐行比对。两个 AI 智能体在同一个文件里改不同的函数，它能直接合，不会报冲突。在 31 个场景的基准测试里，Weave 拿了满分 31 分，原生 Git 只拿了 15 分。它还加了一层 CRDT 状态，让智能体在改代码前先声明要动哪...

#Code#Ataraxy Labs#Weave#tree-sitter

精选理由

Weave 解决的是 AI 写代码时代的新问题：多个智能体改同一个文件时，传统 Git 按行合并会产生一堆假冲突。它用 tree-sitter 按函数、类这些语言结构来合并，在 31 个场景的基准测试里拿了满分，原生 Git 只有 15 分。这个对比很直观，说明按实体合并确实更准。CRDT 协调层让智能体提前声明编辑意图，也是个实用的设计。我会先打个折：基准测试只有 31 个场景，规模不大，真实项目里表现还得再看。但思路对路，对多智能体编程工作流有直接帮助，所以给 featured。

一句话点评

Weave 把 Git 合并从“逐行比对”改成“按函数/类合并”，两个 AI 智能体改同一个文件的不同函数不会冲突，基准测试 31 个场景全过，原生 Git 只过了 15 个。

锐评

Weave 解决了一个很实际的痛点：多个 AI 智能体同时改代码时，Git 经常因为行号重叠报冲突，哪怕它们改的是完全不同的函数。它用 tree-sitter 把代码解析成函数、类这些实体，合并时按实体匹配，而不是逐行比对，所以“改不同函数”就不会冲突。在 31 个场景的基准测试里拿了满分，原生 Git 只拿了 15 分，差距明显。不过要注意，这个基准测试是项目方自己设计的，场景覆盖了 7 种语言，但总共只有 31 个，样本偏小。正文说在 C、Python、Go 上跑了 4917 次文件合并，没有出现回退，这个数据比基准测试更有说服力，但没披露测试集的具体构成，也没说和其他语义合并工具（比如 mergiraf）在更大规模上的对比细节。它还加了一层 CRDT 状态，让智能体改代码前先声明要动哪些实体，提前发现冲突，这个设计对多智能体协作场景挺有用。MCP 服务器暴露了 15 个工具，Claude 等模型可以直接调用，接入成本看起来不高。但正文没提性能开销，tree-sitter 解析大文件会不会拖慢合并速度，这点没给数据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:23

5d ago

FEATUREDHacker News 首页· rssEN01:23 · 06·14

Meta应用AI部门员工在公司直播中爆粗口批评高管

WIRED 拿到了一段录音：Meta 本周一场面向全公司的内部直播里，有人打断发言，爆粗口说“成了公司的狗”，还让主持人给某位 AI 高管带话“他是坨屎”。这事发生在今年三月新成立的 Applied AI 部门，该部门约有 6500 名工程师和产品经理，本意是给 Meta 超级智能实验室的研究员打辅助。但三位匿名员工说，实际工作就是生成谜题来测试 AI...

#Meta#Meta Superintelligence Labs#Mark Zuckerberg

精选理由

WIRED 拿到了一段 Meta 全员直播的录音，有人当场打断发言，骂 AI 高管是坨屎，还说团队成了公司的狗。戏剧性拉满，但文章对技术或产品本身没什么新料，只提到今年三月新成立的 Applied AI 部门有 6500 人，实际工作就是生成谜题来测试模型。我会先打个折：热闹是真热闹，信息量一般，所以重要性给到 72，留在 all 层。

一句话点评

Meta应用AI部门员工在公司全员直播里直接爆粗骂高管，内部把新部门叫“古拉格”，这比任何离职率数字都更能说明管理有多崩。

锐评

这条新闻最值得看的不是有人骂脏话，而是骂人的场景和背后的组织问题。事情发生在Meta内部一场面向数千人的技术直播上，有人开麦打断，骂自己“像公司的狗”，还让主讲人转告某位AI高管“他是坨屎”。主讲人捂脸，会议继续，但员工在评论区刷“刺激”。这种公开爆发，说明不满已经不是私下抱怨，而是到了不在乎职业后果的程度。 WIRED采访了三名匿名在职员工，并拿到内部录音。被骂的部门是今年三月刚成立的Applied AI，大约6500人，原本定位是支持Meta Superintelligence Labs的研究工作。但员工说实际干的活是“生成谜题测试模型可靠性”这类重复性任务，有人直接称部门是“古拉格”，形容自己“人生突然毫无意义，几乎不跟人交流，每周只有任务”。这里的关键信息缺口是：正文没披露这个部门的离职率、项目产出或管理层回应，所以没法判断这是局部情绪还是系统性崩坏。对从业者来说，这条新闻的参考价值在于：当一家公司把大量工程师塞进一个定位模糊、工作内容机械的“支持性”部门时，士气会烂到什么程度。6500人的规模不小，如果任务设计真如员工描述的那么低价值，那Meta在AI人才上的投入产出比可能很糟糕。不过目前只有员工单方面说法，先别急着下结论，等看Meta会不会公开回应或调整架构。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:03

5d ago

● P1TechCrunch AI· rssEN00:03 · 06·14

Meta开始拆解二十亿美元Manus收购交易

TechCrunch 发了一条标题快讯，说 Meta 已经开始拆解对 AI 公司 Manus 的 20 亿美元收购案，原因是北京方面下令交易必须逆转。正文没披露北京的具体理由、时间表，也没说 Meta 打算怎么拆——目前只有一句话，我会先打个折，等后续报道补细节。

#Meta#Manus#Policy

精选理由

20 亿美元收购被北京叫停，故事本身分量很重，但现在只有一条标题快讯，没理由、没时间、没拆法，只能先打个折。等后续报道补上细节再重新评估。

一句话点评

Meta 开始拆解 20 亿美元收购 Manus 的交易，直接原因是北京以国家安全为由要求撤销。这笔钱能不能拿回来、怎么拿，正文没细说。

锐评

这事说白了就是一笔大买卖被地缘政治卡住了。Meta 花 20 亿美元买下中国团队创办的 AI 公司 Manus，现在北京下令必须吐出来，Meta 已经切断了 Manus 访问内部系统的权限，员工也不能再用 Manus 的工具做内部项目。这是两个月前北京否决交易以来，Meta 最实质的退让动作。目前能看到的信息主要来自彭博的报道，TechCrunch 做了转述。Manus 的联合创始人已经在聊新一轮融资，大概想筹 10 亿美元来把公司从 Meta 手里买回去。但 10 亿和当初的 20 亿之间差了一倍，这笔账怎么算平，报道里没提。Meta 官方也没公开回应拆解进度和财务处理方式。还缺几个关键信息：Meta 已经付了多少钱、有没有违约金条款、Manus 的技术和人员会不会回流中国。这些直接决定这笔交易最后是亏是赚，但正文都没披露。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

热点聚合 · 2026-06-14

更多

频道

后台