热点聚合 · 2026-05-17

▸ 19 signals · updated 3m ago

live · 238 today·policy v2

AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

126 212 320 419 542 632 749 826 923 1017 1136 1248 1337 1454 1539 1630 1719 1849 1976 2045 2148 2249 2313 2415 2520 2637 2744 2848 2935 3022 3114

2026年6月

一二三四五六日

147 258 348 447 545 619 715 852 945 1031 1128 1221 1313 1415 1524 1635 1726 1824 1912021222324252627282930

2026-05-17 · 星期日2026年5月17日

22:57

32d ago

FEATUREDr/LocalLLaMA· rssEN22:57 · 05·17

vLLM 在混插 Blackwell/Ada 显卡集群上跑长上下文预填充，速度比 llama.cpp 快 4 到 6 倍

作者用 7 张混插显卡（RTX PRO 6000、PRO 5000、两张 5090 和三张改显存的 4090）测了三个推理引擎处理长上下文的效率。在 Qwen3.5-397B-A17B 模型上塞进 7.5 万 token 的上下文，vLLM 首 token 延迟 9.8 秒，预填充速度 7683 token/秒；llama.cpp 要 57.2 秒，速...

#Inference-opt#Benchmarking#vLLM#SGLang

精选理由

作者在 7 卡混合集群上测长上下文预填充，397B 模型塞进 75k tokens，vLLM 9.8 秒出第一个 token、跑到 7683 t/s，llama.cpp 要 57.2 秒、只有 1319 t/s。我会先打个折：这是单人单次跑分，没披露 prompt 复杂度、batch size 和精度配置，SGLang 的数据也没给全。但 6 倍的 TTFT 差距和近 6 倍的吞吐差距，对正在选推理框架的团队是个硬参考。正文没提功耗和显存占用，这点先别太激动。

一句话点评

混插显卡跑大模型推理，vLLM 比 llama.cpp 快 4-6 倍，SGLang 遇到非最新卡直接崩溃。

锐评

这篇来自 Reddit 的民间测试很实在，用 7 张混插的消费级和专业卡（包括改过显存的 4090）跑长上下文预填充，结论很明确：在混卡环境下，vLLM 是唯一能打且打得好的。它靠软件模拟 FP4 格式兼容老卡，还能手动分配每张卡算多少层网络，把快卡和慢卡的负载调平，避免一张卡拖慢全队。具体到数字，在 3970 亿参数的大模型上塞进 7.5 万 token 的上下文，vLLM 首 token 延迟 9.8 秒，预填充速度 7683 token/秒；llama.cpp 要 57.2 秒，速度只有 1319 token/秒，差距确实大。SGLang 在纯新卡上表现接近 vLLM，但混入一张旧卡就崩溃，因为它强制要求硬件支持 FP4，没有软件降级方案。需要注意，这是个人玩家的单次测试，没披露并发、解码阶段表现和功耗，而且用了 4-bit 量化权重，精度损失对实际任务的影响没提。如果你也是混卡组机器跑大模型，这个结果可以参考，但别直接当成通用结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:22

32d ago

FEATUREDr/LocalLLaMA· rssEN22:22 · 05·17

骁龙 8 Elite 跑混合专家模型实测：CPU 推理反而比 NPU 快

一位 Reddit 用户用 24GB 内存的荣耀 Magic 7 Pro（骁龙 8 Elite）跑了几个混合专家（MoE）模型。在 Q4 量化下，LFM2-24b-a2b 跑到约 24 token/秒，Gemma 约 11 token/秒。比较意外的是，他这套配置里 CPU 推理速度比 NPU 和 GPU 都快，正文没披露具体用的什么推理框架和功耗数据...

#Inference-opt#Benchmarking#Qualcomm#Honor

精选理由

这条来自 Reddit 个人测试，不是官方数据，权威性弱，但信息量够：24GB 手机、Q4 量化、LFM2-24b-a2b 跑 24 token/s、Gemma 跑 11 token/s，CPU 比 NPU/GPU 快。对想在手机上本地部署的人有参考价值，不过只有一台设备的数据，别当普遍结论。给 featured 低分段，因为话题热、数据具体，但来源单一。

一句话点评

骁龙 8 Elite 跑 MoE 模型，CPU 推理居然比 NPU 和 GPU 都快，这点先别太激动，正文没披露用的什么推理框架和功耗数据。

锐评

这条帖子最值得看的是实测速度：24GB 内存的荣耀 Magic 7 Pro 上，LFM2-24b-a2b 这个混合专家模型（MoE，把任务分给不同小专家处理，省算力）在 Q4 量化后跑到约 24 token/秒，Gemma 约 11 token/秒。对手机端来说，24 token/秒已经能用了，不是那种等半天才蹦一个字的体验。但有个反直觉的结果：这套配置里 CPU 推理比 NPU 和 GPU 都快。这不太正常，通常 NPU 应该更擅长跑模型。问题在于发帖人没交代用了什么推理框架、有没有针对骁龙的 NPU 做适配，也没测功耗和发热。如果只是拿通用框架跑了一下，那 NPU 跑不过 CPU 只能说明软件没跟上硬件，不代表芯片本身不行。还缺几个关键信息：模型加载占了多少内存、持续跑几分钟后会不会降频、不同量化精度的速度差异。这些没测，就没法判断这配置到底能不能当日常助手用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:37

32d ago

FEATUREDHacker News 首页· rssEN15:37 · 05·17

Semble：给 AI 编程助手用的代码搜索工具，比 grep 省 98% 的 token

MinishLab 开源了 Semble，一个专为 AI 编程 agent 设计的代码搜索工具。它把轻量级语义嵌入（Model2Vec）、传统关键词匹配（BM25）和融合排序（RRF）串在一起，最后再用重排序模型精排结果。在 63 个代码仓库的测试里，它的搜索质量达到 NDCG@10 0.854，每次查询在 CPU 上大约只要 1.5 毫秒。最直接的好...

#Agent#Code#Embedding#MinishLab

精选理由

Semble 的卖点很直接：给代码 agent 用的搜索工具，比 grep 加 read 少花 98% 的 token，CPU 上跑一次大概 1.5 毫秒。这个数字我会先打个折，因为基准测试里的 grep 用法可能不是最优的，但方向是对的——用传统检索加轻量重排来替代把整个代码库塞进上下文，确实能省不少钱和延迟。正文没披露重排模型的具体大小和准确率对比，这点先别太激动。整体还是工具链层面的改进，影响力到不了必须写的地步，但对做 coding agent 的人来说值得一试。

一句话点评

给 AI 编程助手用的代码搜索工具，比 grep 省 98% token，CPU 上跑一次只要 1.5 毫秒。

锐评

Semble 把语义嵌入、传统关键词匹配和重排序模型串成一条流水线，专门解决 AI 编程 agent 在代码库里找东西时 token 消耗太大的问题。在 63 个代码仓库的测试里，搜索质量 NDCG@10 到了 0.854，每次查询在 CPU 上大约 1.5 毫秒，比直接用 grep 再读文件省了 98% 的 token。这个数字如果稳定，对按 token 计费的场景确实能省一笔钱。不过要注意，正文只给了 63 个仓库的基准测试结果，没说明这些仓库的规模、语言分布，也没和别的语义搜索方案做横向对比。0.854 的 NDCG 看起来不错，但不知道在超大单体仓库或者跨语言项目里会不会掉。另外，工具本身是开源的，但重排序模型的具体选型和训练细节正文没展开，想复现或者调优的话还得自己翻代码。整体看，思路很实用——用轻量方案在本地 CPU 上快速筛一遍，再交给重排序模型精排，避免了每次搜索都烧大模型的 token。缺的是更大规模、更多场景的验证，以及和其他同类工具的对比数据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:26

32d ago

FEATUREDr/LocalLLaMA· rssEN15:26 · 05·17

MiroThinker-1.7 开源版深度研究 agent 发布，基于 Qwen3 MoE，mini 版总参数量 30B 但推理时只激活 3B

MiroMindAI 把他们的深度研究 agent MiroThinker-1.7 放出来了，权重直接挂在 HuggingFace 上。mini 版挺有意思：总参数量 30B，但用了 MoE（混合专家）架构，实际干活时只激活 3B 参数，所以对本地消费级硬件比较友好。上下文管理这块，他们用了滑动窗口 K=5 加 episode 重启的策略，相当于每轮对...

#Agent#Reasoning#Tools#MiroMindAI

精选理由

这条消息来自 Reddit 帖子，实验室也不是一线大厂，所以重要性我打个折，但信息量够上 featured。开源权重加上 MoE 的 30B/3B 配置，对想自己跑 deep research 的人是个实在的钩子；滑窗和 episode 重启的上下文管理方案也给了可复现的细节。正文没披露具体 tok/s 数据，这点先别太激动，但话题本身会引发本地部署的性能讨论，值得放出来。

一句话点评

30B 总参数只激活 3B 的 MoE 架构，本地跑深度研究 agent 的门槛又低了，但正文没披露实际推理速度。

锐评

MiroMindAI 把他们的深度研究 agent 放出来了，权重直接挂在 HuggingFace 上。mini 版用了 MoE 架构，30B 总参数但干活时只激活 3B，这对本地消费级硬件是个好消息——显存占用和推理延迟理论上会低不少。上下文管理用了滑动窗口 K=5 加 episode 重启的策略，相当于每轮对话只保留最近几轮的关键信息，超长任务跑崩的概率会小一些。不过这条信息来自 Reddit 帖子，原文被屏蔽了，我们拿到的只是摘要。实际推理速度、显存占用、任务完成质量这些关键指标都没披露。MoE 模型在消费级硬件上的吞吐量波动很大，3B 激活参数不代表就能在树莓派上跑，还得看路由机制和内存带宽。另外深度研究 agent 的核心是工具调用和长链推理的稳定性，光看架构参数判断不了实际好不好用。如果是真的，30B 模型只激活 3B 就能做深度研究，对本地部署场景确实挺省钱。但没看到实测数据之前，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:00

32d ago

● P1彭博科技· rssEN14:00 · 05·17

Apple新版Siri应用将支持自动删除聊天记录

彭博社爆料 iOS 27 会有一个类似 ChatGPT 的 Siri 独立应用，核心卖点是聊天记录会自动清理。文章没提保留多久、什么时候上线，也没说具体功能细节。另外 Siri 这次可能还是挂着“Beta”标签，同时 Genmoji（AI 生成表情）也会升级。

#Agent#Multimodal#Apple#Siri

精选理由

我会先打个折：标题很抓人，但正文能落地的料太少。Bloomberg 这篇把 Siri 往 ChatGPT 方向靠，还强调聊天会自动删，隐私角度确实能引起讨论。可翻遍正文，只说了 iOS 27 会有 Genmoji 升级，自动删除的保留多久、什么时候上线、Siri 本身怎么改，全都没披露。这点先别太激动，信息缺口摆在那。不过对做 AI 的人来说，苹果在隐私和功能之间怎么取舍，本身就是个长期看点，所以还是值得扫一眼。

一句话点评

新版Siri会像聊天软件一样自动删记录，但苹果还没说清楚是本地删还是云端也删。

锐评

苹果要给Siri加自动删除聊天记录的功能，这步棋走得挺聪明——既想让你像用ChatGPT一样随便聊，又用“阅后即焚”来安抚隐私焦虑。Bloomberg的爆料提到，iOS 27里Siri会变成一个独立App，聊天记录默认自动清除，但正文没披露具体保留多久、是本地删除还是服务器端一并抹掉。Verge和TechCrunch的跟进也基本是转述同一篇爆料，没有苹果官方的确认。对从业者来说，这个功能的技术门槛不高，难的是怎么在“删记录”和“模型需要上下文学习”之间做平衡。如果每次对话都清空，Siri就很难记住你的习惯，个性化能力会打折。另外，苹果会不会把删除前的数据用于模型训练，正文完全没提，这是最大的信息缺口。先别太激动，等WWDC看官方怎么圆这个隐私和体验的跷跷板。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

11:18

32d ago

FEATUREDr/LocalLLaMA· rssEN11:18 · 05·17

用 85 个 GPU 小时，把 Qwen3.6-27B 的 5 种“去安全限制”方法拉出来比了比

这篇 Reddit 帖子被网络屏蔽了，正文内容没拿到，只能根据标题和现有摘要说个大概。作者花了 85 个 GPU 小时，在 Qwen3.6-27B 模型上对比了 5 种 abliteration（去掉模型安全限制）方法，跑了一堆基准测试、HarmBench 安全评测、KL 散度（看输出分布变化）和权重分析。摘要里提到，Huihui 方法对模型原本能力的...

#Safety#Benchmarking#Interpretability#Qwen

精选理由

这篇不是实验室通稿，是实打实的 85 GPU 小时对比实验。5 种去审查方法在 Qwen3.6-27B 上跑完，给出了基准测试掉分、KL 散度和安全拒答移除率三个维度的数据。Huihui 掉分最少，Heretic 最像原版，但所有变体都几乎把安全护栏拆干净了——这点先别太激动，正文没披露这些变体在真实对抗场景下的表现，也没说拆掉拒答后模型会不会乱说话。对想用开源模型又需要绕过安全限制的人，这份对比能省不少试错成本。

一句话点评

正文被 Reddit 屏蔽了，只能根据标题和摘要判断。85 GPU 小时对比 5 种去安全限制方法，Huihui 对原模型能力影响最小，Heretic 输出分布变化最小，五种方法都几乎把安全限制拆干净了。

锐评

这篇帖子本身没拿到正文，Reddit 直接返回了 403，所以所有判断都只能基于标题和摘要里的碎片信息。作者在 Qwen3.6-27B 上跑了 85 个 GPU 小时的实验，对比了五种 abliteration 方法，这个计算量不算小，说明对比做得比较认真。摘要提到 Huihui 方法在基准测试上掉分最少，Heretic 方法的 KL 散度最低，也就是输出风格跟原模型最接近。五种方法都做到了近乎完全移除安全限制，这点不意外，abliteration 这类操作本来就是冲着拆护栏去的。现在最大的问题是缺细节：不知道具体用了哪些基准测试，HarmBench 上的具体分数是多少，权重分析发现了什么规律。另外 27B 模型在单卡或双卡上就能跑，85 GPU 小时意味着可能做了多次重复实验或者测了很多子任务，但没看到实验设计就没法判断结论有多可靠。如果后续能拿到完整帖子或者作者在 Hugging Face 上放了详细报告，才值得认真看。目前只能说方向有意思，但信息缺口太大，别急着引用这个结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:22

32d ago

● P1量子位 · 公众号· rssZH10:22 · 05·17

蔚蓝科技发布BabyAlpha A3四足机器人，搭载国产异构芯片

蔚蓝科技发了款消费级机器狗 BabyAlpha A3，用六颗芯片搭了个异构计算集群，直接在本地跑 7B 参数的大模型，推理速度到 280 TPS。视觉上配了 6600 万像素的摄像头，每秒能扫出 223.2 万个点云数据点，计划第三季度上市。不过正文因为环境验证没抓到具体内容，上面这些数字都来自外部摘要，实际表现和定价还没法核实。

#Robotics#Inference-opt#Multimodal#Weilan Technology

精选理由

我会先打个折：正文是单篇产品发布稿，没披露功耗、价格和对比基准，所以别太激动。但这条消息确实有料——蔚蓝科技在机器狗里塞了6颗芯片搭异构集群，本地跑70亿参数模型，推理速度标到280TPS，Q3就要上市。对做端侧部署和机器人的人来说，这等于给“离了英伟达行不行”提供了一个实物样本。信息缺口也很明显：没写具体芯片型号、没给功耗数据、没说明280TPS是在什么精度和batch size下测的，这些都会影响实际可用性。综合来看，角度抓人、事实具体、但验证信息不足，放在featured门槛上刚好。

一句话点评

蔚蓝科技新机器狗用国产芯片跑通了70亿参数大模型，成本号称只有英伟达方案的十分之一，但正文没披露具体芯片型号和实测延迟。

锐评

这条新闻的核心看点不是机器狗本身，而是它肚子里那块国产异构芯片。蔚蓝科技声称在BabyAlpha A3上本地跑通了70亿参数的大模型，并且把成本压到了英伟达Jetson Thor方案的十分之一。如果属实，这对做端侧部署的团队是个好消息——不用再被英伟达的供货周期和价格卡脖子。但目前的公开信息太少了。机器之心那篇原文因为微信环境异常根本打不开，我们只能看到标题里的几个数字。算力提升1000倍这个说法需要看跟谁比，如果是跟前代产品比，那前代得多弱才能差出三个数量级。另外，70亿参数模型在机器狗上具体跑什么任务、推理延迟多少、功耗多大，这些关键指标一概没提。我会先给这条新闻打个七折。国产芯片替代是个真趋势，但“跑通”和“能用”之间还有很长距离。等实测数据和具体芯片型号出来再判断不迟。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:22

32d ago

FEATURED量子位 · 公众号· rssZH10:22 · 05·17

TGO：不用人工挑好坏样本，靠一个分数就能把生图模型调得更听话

新加坡国立大学搞了个叫 TGO（阈值引导优化）的方法，被 ICML 2026 收了。它最大的好处是不需要提前构造“这张比那张好”的偏好对，直接拿一个标量分数（比如美学分、图文匹配度）就能做对齐。做法是先让模型生成一批图，算出分数的分布，定一个阈值：高于阈值的当正样本往上拉，低于的当负样本往下压。论文在 Stable Diffusion v1.5、FLU...

#Fine-tuning#Alignment#Vision#NUS

精选理由

这篇 ICML 2026 的论文提了个叫 TGO 的方法，核心是把标量反馈（比如一个打分）直接转成模型的正负更新方向，不用像传统 RLHF 那样先构造偏好对。我会先打个折：正文没披露具体节省了多少标注成本或计算量，但思路本身挺直接——用分数分布的阈值来决定哪些样本该学、哪些该躲。实验覆盖了四个主流视觉生成模型，从 SD v1.5 到 FLUX 都有，说明不是单点特调。这点先别太激动，因为论文偏研究向，离工程落地还有距离，但对正在头疼对齐数据采集的团队来说，值得看一眼。

一句话点评

TGO 让图像/视频模型对齐不用再费劲挑“哪张更好”，直接拿一个分数就能训，省掉偏好对标注这一步。

锐评

这篇 ICML 2026 的工作解决了一个很实际的痛点：做视觉模型对齐时，不用再人工构造“A 比 B 好”的偏好对，直接拿一个标量分数（比如美学评分、图文匹配度）就能开训。做法是先让模型生成一批图，算出分数分布，定个阈值，高于阈值的当正样本往上拉，低于的当负样本往下压。论文在 Stable Diffusion v1.5、FLUX、Wan 1.3B 和 Meissonic 上都跑了实验，覆盖图像和视频生成，说明方法通用性不错。不过正文没披露具体阈值怎么定、对分数分布敏感度如何，也没给出和传统偏好对方法在相同预算下的直接对比。这点先别太激动——省掉偏好对标注是省了人工，但如果阈值调不好，正负样本划分可能很糙，最终效果会打折扣。另外，实验用的分数模型本身有没有偏、能不能代表真实用户偏好，正文也没展开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:04

32d ago

FEATUREDAI HOT 精选· aihot-apiZH10:04 · 05·17

微软AI CEO放话：18个月内AI能接手所有白领工作

微软AI负责人Mustafa Suleyman在《财富》采访里给了一个很激进的时间表——18个月内AI会达到人类水平，把会计、法律、营销、项目管理这些坐在电脑前干的活全自动化。他的原话是“所有白领工作都会被完全取代”。Suleyman还说自己的目标是搞出“超级智能”，以后建一个新AI模型会像录播客或写博客一样简单。不过正文没给出支撑这个18个月判断的具...

#Agent#Reasoning#Microsoft AI#Mustafa Suleyman

精选理由

我会先打个折：这是 CEO 的预测，不是实测结果或论文数据。Mustafa Suleyman 说 18 个月内 AI 能到人类水平，把会计、法律、营销、项目管理这些专业任务全自动化，但正文没给出支撑这个时间线的基准测试或产品落地证据。对从业者来说，这个判断更像风向标，提醒你关注微软在 agent 和工作流自动化上的动作，而不是一个可以拿来排工期的承诺。

一句话点评

微软AI老大说18个月内AI能干完所有白领活，但正文没给出任何实验数据或产品路线图来撑这个时间表，先当愿景看。

锐评

Mustafa Suleyman 给了一个很激进的时间表：18个月内 AI 达到人类水平，把会计、法律、营销、项目管理这些坐在电脑前的活全自动化。这个判断目前只有他个人的口头预测，正文没披露任何支撑数据、内部测试结果或阶段性产品计划，所以可信度要打不小的折扣。他说自己的目标是搞出“超级智能”，以后建一个新 AI 模型会像录播客或写博客一样简单。这个说法更像在描述一个远期愿景，而不是接下来一年半会发生的事。从现有公开信息看，微软自己的 Copilot 产品线还在解决准确率和企业落地的问题，离“完全取代白领”差得远。这条新闻的价值在于看微软 AI 掌舵人怎么定调子，但缺的东西也很明显：没有定义什么叫“人类水平性能”，没有说明覆盖哪些具体任务，也没有提到验证方法。这些缺口让 18 个月这个数字更像一个公关信号，而不是工程时间表。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:23

32d ago

FEATUREDAI HOT 精选· aihot-apiZH07:23 · 05·17

Grok Imagine 图像生成上线 X，所有用户都能用，但没公布模型参数和收费

Grok Imagine 在 X 上开放给所有人了，用他们最新的文本到图像模型，能生成写实风格的高质量图片，支持多种宽高比。正文没提模型参数量、是否收费、有没有地区限制，也没给生成速度或样本对比。我会先打个折：功能是开了，但关键信息全缺，别急着当主力工具。

#Multimodal#Vision#Grok#X

精选理由

我会先打个折：正文只说了能用、能调比例，模型参数、价格、地区限制一概没提，所以别当完整评测看。但 Grok 把生图直接嵌进 X 的时间线，等于在社交场景里抢了 Midjourney 和 DALL·E 的入口，从业者会盯着两点——一是生成质量和审核尺度，二是这功能到底免不免费、能撑多久。

一句话点评

Grok 在 X 上开放了生图功能，能出写实风格、多比例图片。但正文没提收费、地区限制、模型大小和生成速度，先别急着当主力工具。

锐评

Elon Musk 宣布 Grok Imagine 在 X 对所有用户开放，用的是他们最新的文本到图像模型，主打写实风格和多宽高比输出。这条消息本身很短，只说了“能用”，但没给任何硬指标：模型参数量、推理延迟、是否收费、有没有地区限制，全都没提。对想拿它干活的从业者来说，这些信息缺口挺要命的——你不知道它跟 Midjourney、DALL·E 3 比到底差多少，也不知道免费额度够不够试。功能上线是好事，但现阶段只能当个尝鲜玩具，别急着把它塞进生产管线。等官方补上定价和性能数据再评估不迟。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:35

32d ago

FEATUREDr/LocalLLaMA· rssEN06:35 · 05·17

有人实测 DeepSeek V4 的百万上下文窗口，发现写代码的最佳区间是 15 万到 25 万 token

一位 Reddit 用户拿 DeepSeek V4 去啃 4.5 万、18 万和 52 万 token 的代码库，结论是 15 万到 25 万 token 时写代码最顺手。超过 30 万 token 后，模型对具体行号的定位开始不准；到 52 万 token 时，输出明显偏向架构总结，具体实现细节会跳过。帖子正文没披露测试用的具体任务和评估指标，所以这...

#Code#Reasoning#Memory#DeepSeek

精选理由

单篇 Reddit 帖子权威性有限，但 HKR 三项都站得住：有数字、有对比、有明确的失效模式。归入 featured 而不是更高，是因为复现细节和模型版本信息偏薄，先别太激动。

一句话点评

DeepSeek V4 啃代码库，15-25 万 token 最顺手，超 30 万行号定位就飘，52 万直接变架构总结。但帖子没给测试任务和指标，先打个折。

锐评

这条 Reddit 帖子给了一个很实用的参考点：DeepSeek V4 标称 100 万 token 的上下文窗口，实际写代码最舒服的区间是 15 万到 25 万 token。超过 30 万 token，模型对具体行号的定位开始不准；到 52 万 token 时，输出明显偏向架构总结，具体实现细节会跳过。这跟很多人的体感一致——长上下文不是越长越好，模型会“偷懒”抓重点，丢掉细粒度信息。不过得说清楚，帖子正文没披露测试用的具体任务和评估指标。我们不知道是让模型改 bug、加功能还是做代码审查，也不知道“不准”是怎么衡量的。发帖人只给了 token 数和结论，没给原始对话或评分标准。所以这个结论更像一个用户经验，不能当正式基准看。对实际干活的人来说，这条信息有用：别一上来就塞整个代码库，先控制在 20 万 token 以内试试。但如果你要做精确到行的修改，超过 30 万 token 就得自己多检查。另外，帖子没提不同编程语言或项目结构的影响，这也是个缺口。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

32d ago

FEATUREDFT · 科技· rssEN04:00 · 05·17

FT 称中国 AI 公司在视频生成上反超美国对手，但正文被付费墙挡住，没看到具体模型和评测数据

FT 这篇文章的标题说字节跳动和快手等中国 AI 公司在视频生成领域已经领先美国对手，在广告和娱乐场景里效果更好。但点进去只看到安全验证页面，正文完全没加载出来，所以不知道他们拿什么模型比的、用的什么评测标准、样本量多大、延迟和成本怎么样。我会先打个折——标题里的“领先”目前只能当个信号看，等看到具体数据再下判断。

#Multimodal#Vision#ByteDance#Kuaishou

精选理由

FT 这篇标题很猛，说中国公司在视频生成上反超美国，但正文信息很薄。只提到字节和快手在广告、娱乐视频质量上领先西方对手，具体怎么比、用什么标准、样本多少全没写。我会先打个折：标题的“领先”目前只能当个信号看，别急着当定论。不过视频生成确实是现在中美模型竞赛里最卷的一条线，这条消息对关注多模态落地的人有提醒价值，所以给了 featured 门槛分。

一句话点评

FT 说中国公司在视频生成上领先美国，但正文被安全验证页挡了，没看到具体模型、评测和成本数据，标题先打个折。

锐评

这条新闻目前只能当个信号看。FT 的标题直接说字节跳动和快手在视频生成上领先美国对手，在广告和娱乐场景里效果更好，但点进去只看到安全验证页面，正文完全没加载出来。我不知道他们拿什么模型比的、用的什么评测标准、样本量多大、延迟和成本怎么样，这些关键信息全缺。标题里的“领先”需要具体数字撑腰——比如生成一段视频要多少钱、等多久、用户盲测偏好率是多少。如果只是挑了某个特定场景说“效果更好”，那说服力有限。另外，视频生成现在各家差距本来就不大，今天你领先明天他追上，没有持续几轮的横向对比，单次结论容易过时。等看到完整正文，我会重点盯三件事：对比的是哪些具体模型、评测是人工打分还是自动指标、有没有披露推理成本和延迟。这三样缺一不可，缺了就只能当公关稿看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

03:06

32d ago

FEATURED机器之心 · 公众号· rssZH03:06 · 05·17

AI Agent 的隐性账单：多花 1000 倍 token，效果未必更好

这篇文章本身因为微信环境验证没抓到正文，所以具体实验细节没法展开。但从标题和已有摘要能看出，研究团队用 OpenHands 跑了 8 个前沿模型在 500 个 swe-bench 编程任务上的表现，发现 Agent 模式下输入输出 token 比能到 154:1，而且人类标注的任务难度和实际 token 消耗之间关联很弱，Kendall tau 只有 ...

#Agent#Code#Benchmarking#OpenAI

精选理由

我会先打个折：这不是新模型发布，而是一篇基于轨迹数据的分析，所以放在 78–84 这个推荐区间是合适的。它的钩子很直接——token 花了一千倍，效果未必更好，这对正在给 coding agent 算账的团队来说，比单纯刷榜的新闻更有实际参考价值。文章给出了 OpenHands 在 500 个 swe-bench-verified 任务上的具体数字，154:1 的输入输出比和 0.32 的 Kendall tau，说明模型在排行榜上的名次和实际干活的表现相关性很弱。这点先别太激动，正文没披露不同模型各自的成本曲线，但至少把 agent 的隐性账单摆...

一句话点评

Agent 模式下模型输入输出 token 比能到 154:1，但正文没抓到，具体实验细节和模型表现都看不到，这个数字先打个折。

锐评

这条新闻最值得看的是它点出了 AI Agent 的“隐性账单”：让模型在编程任务里自主干活时，输入和输出的 token 消耗比可以拉到 154:1。也就是说，模型为了完成一个任务，可能要先吞下大量上下文，再吐出一点点代码。这跟平时我们看单次问答的成本账完全不一样。不过要泼盆冷水。原文因为微信环境验证失败，正文没抓到，所以 8 个前沿模型在 500 个 swe-bench 任务上的具体表现、哪个模型最“啰嗦”、成功率跟 token 消耗到底什么关系，这些关键信息全是空白。另外，摘要里提到人类标注的任务难度和实际 token 消耗之间关联很弱，Kendall tau 只有 0.32，说明我们凭直觉判断“这题难所以费 token”根本不靠谱。还缺的东西很多：Agent 跑这些任务的成功率是多少？不同模型之间的效率差距有多大？有没有办法在不掉性能的前提下砍掉无效 token？这些才是决定这条发现能不能落地的关键。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:06

32d ago

FEATURED机器之心 · 公众号· rssZH03:06 · 05·17

龙虾之父自曝月烧130万美元token，账单OpenAI全包

Peter Steinberger 晒出后台数据，30天里跑了760万次请求，烧掉6030亿个token，账单超过130万美元。他提到关掉“快速模式”后费用直接砍了七成，而且这笔钱目前由 OpenAI 承担，他自己不用掏。

#Agent#Code#Tools#Peter Steinberger

精选理由

我会先打个折：这是个人晒账单，不是 OpenAI 官方调价，但 130 万美元这个数本身就够从业者心里咯噔一下。文章给了很实的用量——6030 亿 token、760 万次请求，还点出关掉快速模式能砍掉七成费用，对正在跑 agent 的团队有直接参考价值。不过正文没披露他具体跑了什么任务、模型怎么选的，也没说 OpenAI 为什么免单，这点先别太激动。整体更像一条带数据的成本警示，不是产品发布，所以放在 featured 刚好。

一句话点评

龙虾之父晒出30天烧掉130万美元token账单，关掉快速模式能省七成，但这笔钱目前OpenAI全包，普通人别拿这个数当参考。

锐评

Peter Steinberger 公开的后台数据挺直观：30天跑了760万次请求，吞掉6030亿个token，账单超过130万美元。他特别提到关掉“快速模式”后费用直接砍了七成，说明推理速度的溢价相当高，追求低延迟的代价是真金白银。不过这条新闻最大的信息缺口是：OpenAI 没向他收费。正文没披露这是赞助关系、测试额度还是某种合作置换，所以130万这个数字不能直接当成市场价。对普通开发者来说，实际成本得在这个基础上打折——打几折不知道，但肯定不是零。另外，760万次请求背后是什么场景、什么模型、单次请求平均token量多大，这些都没展开。如果大部分是长上下文或复杂agent调用，那烧token的速度本身就不意外。想知道这笔账划不划算，还得看他用这些请求产出了什么。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:06

32d ago

FEATURED机器之心 · 公众号· rssZH03:06 · 05·17

世界模型的两条路线和一场百亿赌局

这篇文章是机器之心编译自 MoE Capital 的一篇博客，梳理了“世界模型”这个概念的两条发展脉络。一条是 AI 学术圈常说的，让模型在脑子里推演环境变化、做规划；另一条来自游戏和影视工业，追求用模型直接生成逼真的 3D 世界。文章提到，过去一年半里，有超过 100 亿美元的资金涌入了这个方向。里面举了一个具体例子：DreamDojo 这个项目用 ...

#Agent#Robotics#Multimodal#MoE Capital

精选理由

这篇是编译的科普+评论，不是一手发布，但把世界模型两条路线讲得清楚，还给了百亿美元和44711小时视频这些具体数字。我会先打个折，因为信息密度集中在解释概念，新事实不多。不过对想快速理解世界模型热度和技术现状的人来说，读这一篇比翻论文省时间。

一句话点评

这篇把“世界模型”拆成两条路：AI 圈要模型会推演，游戏圈要模型直接生成 3D 世界，过去一年半涌进超 100 亿美元。DreamDojo 用 4.4 万小时第一人称视频预训练，跟真实机器人策略的相关性做到 0.995，但正文没披露实际任务成功率。

锐评

这篇文章把“世界模型”这个被炒烂的词掰开了讲，一条是 Yann LeCun 那派想让模型在脑子里做物理推演，另一条是 NVIDIA 和游戏引擎那派想直接生成可交互的 3D 场景。两条路目标不同、技术栈不同，但钱都往这砸——18 个月超过 100 亿美元，说明资本在赌一个能统一感知和行动的底座。 DreamDojo 的例子挺有意思：用 44,711 小时的第一人称视频做预训练，不用真实机器人数据，就能让模型预测动作后果，跟真实策略的相关性 r=0.995。这个数字看着漂亮，但要注意它测的是“相关性”而不是任务成功率，离实际部署还有距离。另外文章是机器之心编译自 MoE Capital 的博客，来源本身有投资视角，对技术风险的讨论偏少。缺的东西也明显：没提这些世界模型在复杂动态场景下的泛化表现，也没说训练和推理成本。100 亿美元砸下去，目前看到的还是实验室指标，能不能跑通商业闭环，正文没给答案。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:50

32d ago

FEATUREDAI HOT 精选· aihot-apiZH02:50 · 05·17

Anthropic CEO 说 AI 可能把 GDP 拉高 5%–10%，但失业和不平等也会跟着涨

Dario Amodei 给了两个数字：AI 可能推高 GDP 增速到 5%–10%，同时失业率会上升、贫富差距拉大。他的核心判断是软件成本会降到接近零，传统靠卖软件授权的商业模式会被打穿。现在工程师还能去做编辑或升级工作，但 AI 模型会不断吃掉更多任务，很多干了几十年的职业会慢慢消失。他担心社会还没意识到这场变化的规模和冲击有多大，自己既兴奋又发愁...

#Code#Anthropic#Dario Amodei#Commentary

精选理由

Dario Amodei 这次把话说得很直：AI 可能带来 5% 到 10% 的 GDP 增长，同时推高失业和不平等，软件成本会便宜到近乎免费。我会先打个折，因为原文是 X 上的摘要，不是完整访谈实录，没法确认他有没有给限定条件。但即便只是方向性判断，也足够让做 AI 的人重新掂量自己的位置——增长是你的机会，免费软件可能先吃掉你的老业务。

一句话点评

Amodei 给了两个数：GDP 增速可能到 5%-10%，但失业和贫富差距会拉大。正文没给测算依据，数字先打个折看。

锐评

Anthropic CEO Dario Amodei 这次说的不是技术进展，而是他对 AI 经济后果的预判。核心逻辑是软件成本会降到接近零，传统靠卖软件授权的商业模式会被打穿。他举的例子很直接：现在工程师还能去做编辑或升级工作，但 AI 模型会不断吃掉更多任务，很多干了几十年的职业会慢慢消失。他给了两个数字——GDP 增速可能到 5%-10%，同时失业率上升、贫富差距拉大。但正文没披露这两个数字是怎么算出来的，是基于什么假设、什么时间窗口，也没说数据来源。这种宏观预测最容易翻车，所以这两个数先别太当真，重点是他想传递的那个矛盾：增长和淘汰会同时发生。还缺的东西不少。他没说哪些行业会先被冲击，也没提政策建议或企业该怎么做。整段话更像是对社会反应速度的担忧——他觉得大家还没意识到这场变化的规模和冲击有多大。这个判断本身值得注意，但离可操作的结论还差得远。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:43

32d ago

FEATUREDAI HOT 精选· aihot-apiZH02:43 · 05·17

Anthropic CEO 说软件会变得几乎免费，很多职业会消失

Dario Amodei 在《华尔街日报》的 YouTube 采访里给了两个判断：软件成本会跌到接近免费，过去那种“靠百万用户摊薄成本”的逻辑会失效；几十年积累下来的很多工作岗位和职业可能直接没了。他觉得社会能适应，但补了一句——现在大家完全没意识到这场变化有多大、来得多快。

#Anthropic#Dario Amodei#The Wall Street Journal#Commentary

精选理由

Dario Amodei 在《华尔街日报》采访里扔了两个挺狠的判断：软件成本会急降到基本免费，靠百万用户分摊成本的老逻辑要崩。我会先打个折——目前看到的只是二手摘要，正文没披露具体时间线、数据支撑和完整论证，所以别太激动。但这两个点本身够直接，对做 AI 产品、定价和看人力结构的人都有触动，值得放进精选，只是信息缺口明显，分数压在中低段。

一句话点评

Dario Amodei 说软件会近乎免费，靠百万用户摊成本的老逻辑要失效，很多岗位会直接消失。他补了一句：大家还没意识到这波有多猛。这话从他嘴里出来，分量不一样，但“免费”和“消失”都没给时间表，先当方向听。

锐评

Anthropic 的 CEO Dario Amodei 在《华尔街日报》的采访里抛了两个很重的判断。第一个是软件成本会跌到接近免费，过去那种“做出来卖一百万份”的商业模式可能直接崩掉。这背后是他对模型能力继续爬升的预期——如果生成一个复杂软件跟生成一段文本一样便宜，定价权确实会从软件公司转移到算力供应商手里。第二个判断更扎心：几十年攒下来的白领岗位和职业结构，可能说没就没了。他补了一句社会能适应，但警告现在没人当真。这里有几个信息缺口得说清楚。正文没披露他说的“免费”是指边际成本还是总拥有成本，也没讲时间线是三年还是十年。没有这两个锚点，“基本免费”更像战略喊话，不是工程交付承诺。另外，他说的“很多职业消失”没给具体行业或数据，更像定性预警。Anthropic 自己就是卖模型 API 的，说软件免费等于说别人的生意不值钱，自己的护城河在模型层，这个立场得算进去。整体看，这更像一份来自一线玩家的极端情景推演，不是行业共识。方向值得盯着，但具体数字和节奏都还缺，先别急着按“软件清零”做决策。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:10

33d ago

FEATUREDr/LocalLLaMA· rssEN00:10 · 05·17

Gemma 4微调模型G4-Meromero-31B发布，专为创意写作优化

LLMFan46 放出了一个叫 G4-Meromero-31B-Uncensored-Heretic 的模型，基于 Google 的 Gemma 4 31B 底座微调，主打创意写作。标题里两个关键数字：KLD 0.0100，说明微调后和原模型的分布偏差很小，基本没跑偏；15/100 拒绝率，意思是每100次提问只拒绝15次，比很多审查严格的模型宽松不少...

#Fine-tuning#LLMFan46#Gemma#zerofata

精选理由

LLMFan46 放出了一个基于 Gemma 4 31B 的微调版，主打创意任务，标题直接标了 KLD 0.0100 和拒答 15/100。KLD 0.0100 说明微调后分布偏离不大，15/100 拒答率算低，对想少被模型说“不”的人有吸引力。不过正文没给评测基准、具体任务表现或社区反馈，就是个社区微调更新，先当个信号看。

一句话点评

Gemma 4 31B 一周内冒出三个微调版：Ortenzya 主打写作润色，Meromero 侧重创意任务（KLD 0.01，拒绝率 15/100），Gembrain 是合并版，号称提升逻辑和横向思维（KLD 0.0186，拒绝率 13/100）。KLD 越低越像原版，这里两个都算低，说明改动不大。拒绝率 13-15% 算中等，比原版 uncensored 高一点。但三个模型都来自社区个人...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

33d ago

FEATUREDComputing Life · Share · 鸭哥调研· rssZH00:00 · 05·17

Vibe Coding 的安全危机：一键部署把 2000 个企业应用的数据晾在了公网上

安全公司 RedAccess 扫描了 Lovable、Replit 等四个 AI 编程平台上的 38 万个应用，发现约 2000 个直接暴露了敏感数据，包括医院排班表、银行财务数据和临床实验资料。问题不出在 AI 写的代码，而是这些平台默认帮你一键部署到公网，且不强制开启身份验证。Moltbook 社交平台上线三天就因数据库权限开关没打开，导致 150...

#Code#Safety#Incident#Commentary

精选理由

这篇文章抓的点很准：不是 AI 写的代码有漏洞，而是平台一键部署时默认公开，把医院排班、银行财务这些敏感数据直接晾在外面。我会先打个折，正文没披露具体是哪个平台、涉及多少家企业，数字只说了“数千个应用”，验证上弱了一点。但选题本身对做 AI 编程的人是个实打实的提醒，安全锅不一定在模型，也可能在发布流程的默认设置上。

一句话点评

AI编程平台默认把应用一键部署到公网，不强制开身份验证，导致医院排班、银行数据裸奔。问题不在代码，在上线按钮。

锐评

这条新闻值得点开，因为它说清了一个反直觉的事实：泄露数据的不是AI写的烂代码，而是平台那个“一键上线”的默认设置。安全公司RedAccess扫了38万个应用，约2000个直接暴露敏感信息，包括医院排班表、银行财务数据和临床实验资料。Moltbook社交平台上线三天就崩，因为数据库权限开关没打开，150万个API令牌裸奔。四家平台的回应高度一致，都把锅甩给用户配置错误。但当一个平台每天产生几万个应用，使用者大多是产品经理或运营，根本不知道“公网”意味着什么，默认公开就不是用户失误，是系统性设计缺陷。Georgia Tech追踪到AI代码引入的漏洞三个月翻了近六倍，实际数量估计在400到700个。文章没披露RedAccess扫描的具体时间范围和是否排除了测试数据，这点让2000这个数字要打个折。但核心判断站得住：vibe coding把从“代码写完”到“上线”之间的安全决策窗口压缩到零，建应用的人甚至不知道自己跑了一个公网数据库。如果你公司有人在用这类工具搭内部应用，先搜一下域名，大概率已经被Google收录了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-05-17

更多

频道

后台