热点聚合 · 2026-05-04

▸ 19 signals · updated 3m ago

live · 238 today·policy v2

AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选Sumi：从头训练的 7B 开源均匀扩散语言模型78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选Sumi：从头训练的 7B 开源均匀扩散语言模型78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选Sumi：从头训练的 7B 开源均匀扩散语言模型78·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

126 212 320 419 542 632 749 826 923 1017 1136 1248 1337 1454 1539 1630 1719 1849 1976 2045 2148 2249 2313 2415 2520 2637 2744 2848 2935 3022 3114

2026年6月

一二三四五六日

147 258 348 447 545 619 715 852 945 1031 1128 1221 1313 1415 1524 1635 1726 1823 192021222324252627282930

2026-05-04 · 星期一2026年5月4日

22:56

45d ago

FEATURED彭博科技· rssEN22:56 · 05·04

Meta 找摩根士丹利和摩根大通操盘，为得州 El Paso 数据中心融资

Meta 正在为一个位于得克萨斯州 El Paso 的数据中心项目安排融资，总盘子大约 130 亿美元。摩根士丹利和摩根大通已经进场。这笔钱具体怎么拆、期限多长、利率多少，正文都没披露。这件事本身说明大科技公司现在建 AI 基础设施，越来越靠举债而不是全用自有现金。

#Meta#Morgan Stanley#JPMorgan#Funding

精选理由

Bloomberg 报道 Meta 正为 El Paso 数据中心筹备约 130 亿美元融资，事实够硬，H、K、R 都成立。这不是模型或产品发布，正文没披露债务结构、期限和利率，所以我会先打个折，留在 featured 低段。

一句话点评

Meta 建数据中心开始找银行借钱了，130 亿美元的大单子，说明 AI 烧钱已经烧到连大厂都要上杠杆。

锐评

Meta 在得州 El Paso 的数据中心项目要融资约 130 亿美元，摩根士丹利和摩根大通已经进场。这件事最值得看的不是项目本身，而是融资方式——以前大科技公司建基础设施大多直接掏现金，现在转向举债，说明 AI 基础设施的资本开支规模已经大到连 Meta 这种现金流大户都觉得肉疼。不过正文没披露这笔钱的具体结构：是发债还是银行贷款、期限多长、利率多少，这些关键信息都缺。没有这些数字，就没法判断 Meta 的融资成本到底划不划算，也没法跟它之前自己掏钱建的数据中心做对比。另外，El Paso 这个选址本身也值得留意，得州电价和土地成本相对低，但正文同样没展开讲。整体看，这条消息更像一个信号：AI 基建的烧钱竞赛正在把科技公司的财务策略往更传统的重资产模式推。但具体压力有多大，还得等后续披露利率和还款安排才能算账。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:58

45d ago

FEATUREDr/LocalLLaMA· rssEN21:58 · 05·04

本地跑 Qwen 给 Codex 当代码审查员、协作者和挑刺对手的实测

robert896r1 把 Qwen3.6 27B 的 GGUF 量化版放在 Codex 旁边当代码校验器，并放出了一套可复现的评测流程。测试覆盖了 Bartowski 和 Unsloth 两种量化来源、65k 和 128k 上下文窗口，以及 q8 和 f16 的 KV 缓存精度。三个 128k 上下文的配置并列最佳，在这个评测套件里没测出 q8 KV...

#Agent#Code#Benchmarking#Qwen

精选理由

我会先打个折：这不是官方发布，是一个个人实测套件，样本量和覆盖面有限。但它的价值不在权威性，而在把 Qwen 塞进一个贴近真实开发的 sidecar eval 里——测的是漏指令、过度实现、UI 判断和长上下文遗漏，不是跑分。三个 128k profile 并列最佳，q8 KV 没翻车，这点对想省显存的人挺实用。正文没披露 Codex 的具体版本和调用方式，也没给错误分布，所以别当严谨 benchmark 用，更适合当一份本地部署的参考起点。

一句话点评

有人把本地跑的小模型当代码审查员用，还放出了可复现的评测流程，但正文被 Reddit 屏蔽了，具体细节看不到。

锐评

这条帖子的核心玩法是把 Qwen3.6 27B 的量化版（GGUF 格式）放在 Codex 旁边当“代码校验器”，专门抓漏掉的指令、过度开发、UI 判断失误和长上下文遗漏。作者 robert896r1 放出了一套可复现的评测流程，对比了 Bartowski 和 Unsloth 两种量化来源、65k 和 128k 上下文窗口，以及 q8 和 f16 的 KV 缓存精度。结果三个 128k 配置并列最佳，在这个套件里 q8 KV 缓存没测出精度损失。但这里有个硬伤：Reddit 原文返回了 403，正文内容被网络屏蔽，我们只能看到摘要。摘要里没提具体测试了多少个任务、每个任务跑了几次、Codex 本身的表现基线是多少。128k 并列最佳这个结论，也不知道是跑分接近还是真的没差别。另外，27B 模型在本地跑的实际延迟和显存占用也没给，这对想复现的人来说是个关键缺口。整体看，这个“旁路评测”的思路比通用排行榜更有参考价值，因为它直接模拟了一个真实工作流：大模型写代码，小模型在旁边挑刺。但信息缺口太大，结论先打个七折。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:53

45d ago

FEATUREDTechCrunch AI· rssEN21:53 · 05·04

Cerebras 准备上市，估值可能冲到 266 亿美元，背后是跟 OpenAI 的深度绑定

AI 芯片公司 Cerebras 正在推进 IPO，目标估值至少 266 亿美元。它的核心卖点不是通用芯片，而是跟 OpenAI 绑得很紧的供应链关系。文章没披露 OpenAI 有没有持股、具体贡献了多少收入，也没说上市时间表。所以这轮估值更多是在赌 OpenAI 的算力需求会持续砸在 Cerebras 身上，而不是单纯看芯片本身的技术指标。

#Inference-opt#Cerebras#OpenAI#Funding

精选理由

我会先打个折：正文其实没给出营收、持股和上市时间表，所以别把它当芯片概念股去追。真正有意思的是 OpenAI 供应链外溢出来的估值效应——一家靠绑定 OpenAI 起来的芯片公司能冲到 266 亿美元以上，说明市场在给 AI 算力渠道和合作关系定高价。这点先别太激动，但确实值得放进雷达里观察。

一句话点评

Cerebras 的 IPO 估值至少 266 亿美元，核心赌的是 OpenAI 的算力订单会持续砸给它，而不是芯片本身的技术指标。

锐评

这条新闻最值得看的地方，是 Cerebras 的估值逻辑变了。它不再只是一家卖大芯片的硬件公司，更像 OpenAI 的专属算力供应商。文章说双方关系“深且紧密”，但正文没披露 OpenAI 有没有持股、贡献了 Cerebras 多少收入，也没给上市时间表。所以这 266 亿美元估值，很大程度是在赌 OpenAI 未来的推理和训练需求会长期绑在 Cerebras 上。这点先别太激动。单一客户依赖是双刃剑：订单稳的时候估值飞涨，一旦 OpenAI 分散供应链或者自研芯片，Cerebras 的故事就要重写。另外，文章没提它在英伟达生态外的软件兼容性到底怎么样，也没说晶圆级芯片的良率和功耗数据。这些缺口让估值看起来更像一张 OpenAI 的期权，而不是对芯片公司本身的定价。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:38

45d ago

FEATUREDr/LocalLLaMA· rssEN21:38 · 05·04

FastDMS 把 KV 缓存压到 1/5~1/8，跑得比 vLLM BF16/FP8 还快

FastDMS 放出了一个 MIT 许可的实现，核心是把模型推理时占显存的 KV 缓存压到原来的 1/5 到 1/8。在 8K 上下文长度下，Llama-3.2-1B 用 6.4 倍压缩后困惑度是 9.200；Qwen3-8B 在压缩系数 c=1 时，KV 缓存从 1.406 GiB 直接降到 0.184 GiB。和很多只算字节数的方案不同，它真的把淘...

#Inference-opt#NVIDIA#University of Warsaw#University of Edinburgh

精选理由

我会先打个折，这个项目目前只给了 Llama-3.2-1B 的复现实验，更大规模模型的验证还没看到，所以别急着当通用方案。但它的钩子确实强：KV 缓存压缩 6.4 倍，同时推理速度还比 vLLM 的 BF16/FP8 快，这跟“压缩必降速”的直觉对着干。正文给出了具体的 PPL 和显存占用对比，数字可追溯。真正值得盯的是它回收了被踢掉的物理槽位，不只是账面上少占点字节，这对长上下文推理的显存管理是实打实的改进。来源是开源实现和 Reddit 讨论，不是厂商通稿，信息可信度还行，但权威性一般，所以分数定在 80 这个区间。

一句话点评

FastDMS 把 KV 缓存压到 1/5 到 1/8，而且真的释放了显存，不是只算字节数。但正文被 Reddit 屏蔽了，看不到实测延迟和精度损失细节，先打个折。

锐评

这条消息的核心卖点是“真压缩”——很多方案只告诉你 KV 缓存的字节数变少了，但显存并没腾出来，FastDMS 声称它物理回收了被淘汰的缓存槽位。从摘要看，Llama-3.2-1B 在 6.4 倍压缩下困惑度 9.200，Qwen3-8B 的 KV 缓存从 1.4 GiB 直接降到 0.18 GiB，数字上挺省钱。但问题在于，我们拿到的正文被 Reddit 屏蔽了，只留了个摘要。这意味着几个关键信息全缺：压缩后的实际推理速度到底快了多少、长文本下的困惑度会不会崩、不同压缩系数对生成质量的影响曲线。另外，MIT 许可虽然友好，但代码质量和易用性也得等看到仓库才能判断。如果这些数据补不上，目前只能当个“看起来不错”的待验证方案，别急着往生产环境搬。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:17

45d ago

● P1FT · 科技· rssEN21:17 · 05·04

OpenAI 总裁为转营利辩护，自曝持有 300 亿美元股份

OpenAI 总裁公开回应了公司从非营利转向营利的争议，并透露自己在这家公司的持股价值高达 300 亿美元。马斯克之前起诉说高管们为了个人利益出卖了慈善使命。不过这篇报道正文被付费墙挡住了，没披露这位总裁具体是谁、股权结构怎么设计、以及重组的具体条款。

#OpenAI#Elon Musk#Policy#Incident

精选理由

OpenAI 总裁为营利化重组辩护，顺带曝出 300 亿美元持股，Musk 的诉讼正好咬住这点说高管为个人收益背离慈善使命。热度够高，当天就该推。但正文只有 RSS 摘要，连总裁是谁、股权怎么分、重组什么条件都没写，信息缺口太大，所以分数到不了 95 以上。

一句话点评

OpenAI总裁自曝持股300亿美元，想证明转营利不是为了私利，但这数字反而让马斯克的指控更有画面感了。

锐评

OpenAI总裁亲自下场回应，说自己转营利的动机没问题，还顺带亮了一张底牌：他手里的股份值300亿美元。这个数字太具体了，很难不让人多想。马斯克之前起诉说高管们为了个人利益出卖了慈善使命，现在总裁自己报出这个身价，像是在用事实反驳，但效果可能适得其反——300亿这个量级，反而让“为私利”的指控显得更可信了。不过，这篇报道的正文被FT的付费墙挡得严严实实，我们看不到最关键的信息。比如这位总裁到底是谁，是Sam Altman还是其他人？这300亿的估值是怎么算出来的，是纸面富贵还是能落袋的？以及公司从非营利转向营利的重组方案里，具体条款怎么设计来平衡公共利益和股东回报？这些全都没披露。所以现在能做的判断很有限，只能说公关意图很明显，但信息缺口太大，先别急着下结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:14

45d ago

● P1彭博科技· rssEN20:14 · 05·04

GameStop 提出五十六亿美元收购 eBay

GameStop 出价 560 亿美元收购 eBay，后者体量是它的四倍。Cerebras 计划 IPO 募资最高 35 亿美元，OpenAI 则为一个企业 AI 合资公司筹了超 40 亿美元。正文没披露交易条款细节、IPO 估值或合资结构。

#GameStop#eBay#Cerebras#Funding

精选理由

这是 Bloomberg Tech 的视频新闻汇总，AI 部分只给了融资数字。Cerebras 估值、OpenAI 合资公司结构、交易条款正文都没披露，所以只能算普通报道，不升级。

一句话点评

GameStop 想用 560 亿美元吞下 eBay，但自己体量只有对方四分之一，这笔蛇吞象的报价目前连钱从哪来都没说清。

锐评

GameStop 对 eBay 发起主动收购要约，报价 560 亿美元，这个数字是 GameStop 自身市值的四倍左右。消息一出 eBay 股价大涨，但先别太激动——目前所有报道都基于“知情人士透露”，双方均未正式确认，而且 GameStop 的融资方案完全没有披露。Ryan Cohen 想把 GameStop 的 meme 股光环和 eBay 的电商底盘捏在一起，逻辑上说得通，但 560 亿的价码意味着他需要撬动极其庞大的外部资金。正文没披露这笔交易是现金、换股还是混合结构，也没提债务安排。如果后续拿不出具体财源，这更像是一次试探性喊价而非严肃收购。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:18

45d ago

FEATUREDHacker News 首页· rssEN19:18 · 05·04

白宫考虑在AI模型发布前进行审查

特朗普政府正在讨论一项行政令，打算成立一个由科技公司高管和政府官员组成的 AI 工作组，研究对新的 AI 模型做发布前的正式审查。这个政策转向的直接导火索是 Anthropic 推出了一个叫 Mythos 的强模型。目前已知的讨论方向包括参考英国的做法，让多个政府机构来确保模型达到安全标准，但具体审查什么标准、覆盖哪些模型、由哪个部门执行、什么时候落地...

#Safety#White House#Policy#Safety/alignment

精选理由

标题抛出一个政策方向，但正文几乎没展开。我会先打个折：H 和 R 能过，因为白宫级别的发布前审查直接掐住模型上线节奏，合规成本会跟着涨。K 过不了，因为审查标准、模型范围、时间表和执行机构全都没披露，现在只能当风向看，别急着做判断。

一句话点评

特朗普政府从放手不管转向考虑给AI模型发布设卡，这个急转弯是因为Anthropic的新模型Mythos。但具体怎么审、谁来审，正文还没说清楚。

锐评

这条新闻最值得关注的是政策立场的180度掉头。特朗普之前把AI比作“漂亮宝宝”，说要让它自由生长，现在却开始讨论发布前审查，这个转变本身就说明Mythos模型可能展示出了让政府坐不住的能力。白宫上周已经跟Anthropic、Google和OpenAI通了气，计划搞一个工作组来研究监管流程，可能会参考英国那套让多个政府机构把关安全标准的做法。但正文没披露Mythos到底强在哪、踩到了哪条红线，也没说审查是强制还是自愿、会不会像拜登时期那样要求做安全评估。这些信息缺口让整件事的严重程度很难判断。另外，工作组里科技公司高管和政府官员各占多少话语权、审查会不会变成大厂卡小厂脖子的工具，目前也完全没提。我会先打个折：这更像是一次被某个具体模型吓出来的应激反应，离落地成正式制度还有很长距离。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

15:59

45d ago

● P1TechCrunch AI· rssEN15:59 · 05·04

Anthropic 和 OpenAI 分别与资产管理公司成立合资企业推进企业级AI

两家公司都找了资产管理方合伙，成立合资公司来推企业级 AI 产品。具体是哪家资管、股权怎么分、定价多少、什么时候上线，正文都没披露。这种操作说明两家都在想办法把企业客户圈得更紧，但没看到实际条款之前，我会先打个折——合资公司到底是为了深度定制服务，还是换个渠道铺销售，现在还不好说。

#Anthropic#OpenAI#Partnership#Product update

精选理由

我会先打个折：正文只给了 RSS 摘要，没写资管方名字、股权怎么分、定价和什么时候上线，所以现在只能看个方向。两家同时走合资这条路，说明他们想把企业销售这件事做得更重、更贴近大客户，但具体谁出钱、谁控盘还不清楚。这点先别太激动，等细节出来再判断实际影响。

一句话点评

两家模型公司不约而同找上管钱的人合伙卖企业服务，说明卖模型本身不够，得把落地和渠道绑在一起才有大单。

锐评

Anthropic 和 OpenAI 在同一天被曝出各自与资产管理公司成立合资企业，专门推企业级 AI 服务。这步棋很直白：模型能力卷到一定程度后，拼的是谁能把产品塞进大客户的业务流程里。找管钱的人合伙，看中的不是技术，是他们的客户关系和行业 know-how。 TechCrunch 的报道只说了合作方是“资产管理公司”，没披露具体是哪家、合资公司的股权结构、以及双方各出多少人。也没说这些合资企业是只做咨询和部署，还是会碰客户数据做定制训练。如果是后者，数据安全和合规会是大问题，但正文完全没提。另外，两家同时走这条路，侧面说明企业市场对“直接买 API”的接受度可能没想象中高，客户要的是有人帮他们搞清楚怎么用、怎么管。但合资公司这种重模式能不能跑通，还得看第一批签下了什么级别的客户、合同金额有多大——这些关键信息目前都缺。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:51

45d ago

● P1Hacker News 首页· rssEN15:51 · 05·04

Sierra以150亿美元估值融资9.5亿美元

Sierra 宣布拿到 9.5 亿美元新融资，由 Tiger Global 和 GV 领投，估值超过 150 亿美元。公司账上现金超过 10 亿，目标是把自家 AI 客服平台推成全球标准。Sierra 说现在财富 50 强里超过 40% 在用他们，平台上跑的 AI 客服已经处理了几十亿次对话，从房屋再融资、保险理赔到退货和筹款都有覆盖。他们观察到客户对...

#Agent#Sierra#Funding

精选理由

这条消息我会先打个折：钱数很猛，但正文就是个 RSS 片段，没披露投资方、轮次、用途或任何产品指标。真正值得盯的是客户代理这个赛道被推到了 150 亿美元估值，而不是模型能力有什么更新。信息缺口摆在那，所以分数卡在 78–84 这个区间，不往上拔。

一句话点评

Sierra 拿了 9.5 亿美元，估值冲到 150 亿，但通篇是客户案例和愿景，没提模型成本、毛利率和续费率，这些才是企业 AI 生意的命门。

锐评

Sierra 这轮融了 9.5 亿美元，估值超过 150 亿，领投方是 Tiger Global 和 GV。公司说现在账上有超过 10 亿美元现金，要砸钱把自己做成企业 AI 客服的标配。他们给出的增长数据挺猛：服务了超过 40% 的财富 50 强，平台上的 AI 客服处理了数十亿次交互，从房贷再融资、保险理赔到电商退货都在跑。去年 11 月他们刚宣布 ARR 过 1 亿美元，今年 2 月又说 ARR 超 1.5 亿，增速确实快。但整篇公告没讲清楚这门生意的单位经济模型。AI 客服每处理一次对话，Sierra 自己要付多少推理成本？大客户是签固定年费还是按用量计费？毛利率在什么水平？这些数字直接决定 150 亿估值是贵还是便宜。另外，文章里提到的客户部署速度——Nordstrom 五周上线语音客服、Singtel 十周上线且解决率超 70%——听起来不错，但没说明这些项目是定制化交付还是真的平台自服务，前者会拖累规模化利润。还缺一个关键信息：客户留存和扩张情况。正文只说了客户在把 AI 客服从售后支持扩展到销售、留客等环节，但没给净收入留存率。对于一家估值 150 亿、ARR 刚过 1.5 亿的公司，这个倍数需要极高的续费率和增购来支撑，否则就是在赌未来增长填坑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:17

45d ago

FEATUREDr/LocalLLaMA· rssEN14:17 · 05·04

M3 Ultra 加 DGX Spark，能拼出一台 M5 Ultra-lite 吗？

Reddit 有人拿 DGX Spark 和 M3 Ultra 在 llama.cpp 里跑分，统一用 pp16384 上下文。Spark 比 M3 Ultra 快 1.4 到 3.4 倍，看模型：Qwen 27B 跑到 778 token/秒，M3 Ultra 是 340；Mistral 128B 跑到 241，M3 Ultra 只有 72。有个调参...

#Inference-opt#Tools#NVIDIA#Apple

精选理由

数据来自 Reddit 单帖，权威性打折扣，但测试设置清楚、模型覆盖广、提速幅度直观，对正在掂量买 M3 Ultra 还是 DGX Spark 跑本地推理的人有参考价值。我会先打个折，因为没看到多轮对话或长上下文压力测试，但就当前信息来说，featured 低空过关没问题。

一句话点评

DGX Spark 跑 Qwen 27B 飙到 778 token/秒，是 M3 Ultra 的 2.3 倍，但别急着下单，正文没提功耗和价格。

锐评

这条 Reddit 跑分对比挺直接：DGX Spark 在 llama.cpp 里统一用 pp16384 上下文，比 M3 Ultra 快 1.4 到 3.4 倍。Qwen 27B 跑到 778 token/秒，M3 Ultra 是 340；Mistral 128B 跑到 241，M3 Ultra 只有 72。差距在大模型上拉得更开，说明 Spark 的显存带宽或算力在处理大参数量时优势更明显。有个调参细节值得留意：把 mmap 关掉后，模型加载时间从几分钟降到约 20 秒。这对频繁切换模型的本地玩家是实打实的体验提升。不过我会先打个折。正文没披露测试时的功耗、整机价格和散热噪音，也没说 Spark 跑的是不是 FP16 还是量化版本。M3 Ultra 是苹果的芯片，架构和 Spark 的 Grace-Hopper 完全不同，直接比 token/秒只能说明推理快，不代表训练或微调也强。另外 Reddit 帖子被屏蔽了，原始数据没法交叉验证，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:58

45d ago

FEATUREDFT · 科技· rssEN13:58 · 05·04

黑石和高盛等出资 15 亿美元，跟 Anthropic 成立合资公司帮华尔街用 AI

FT 这篇报道正文被付费墙挡住了，只能看到标题和摘要。已知信息是：黑石、高盛等机构参与了一个 15 亿美元的合资项目，合作方是 Anthropic。这家合资公司会以咨询形式，帮华尔街机构在投资组合里部署 AI。但正文没披露股权结构、具体产品形态、时间表，也没说 Anthropic 的 Claude 模型会以什么方式嵌入业务流程。15 亿这个数字不小，说...

#Agent#Blackstone#Goldman Sachs#Anthropic

精选理由

我会先打个折——正文没披露股权结构、具体产品长什么样、什么时候上线，所以别急着把它当成一个马上能用的东西。但黑石和高盛愿意掏钱组局，说明华尔街开始认真把 AI 塞进自己的业务流程里，不只是买来玩玩。Anthropic 这边也在找除了卖 API 之外的赚钱路子，咨询加投资的模式如果跑通，对纯做模型的同行压力不小。

一句话点评

黑石和高盛联手 Anthropic 搞了个 15 亿美元的合资公司，但正文被付费墙挡了，股权、产品、时间表一概不知，先别太激动。

锐评

这条消息的核心是，黑石、高盛这些华尔街老钱，愿意掏出 15 亿美元和 Anthropic 成立合资公司，专门给金融机构当 AI 顾问。这说明顶级资管方开始认真考虑把 Claude 这类大模型塞进投资组合管理流程里了，不是玩票。但关键信息全在付费墙后面。我们不知道这 15 亿是现金、算力资源还是服务承诺，也不知道 Anthropic 是出技术还是出人。更关键的是，正文没披露合资公司的股权结构——是 Anthropic 占小股当技术供应商，还是深度绑定？产品形态也没说，是直接卖咨询项目，还是做成标准化的软件工具？对从业者来说，这条新闻的价值在于确认了“让模型进业务流程干活”在金融圈有了大额买单信号。但在看到具体落地案例和效果数据之前，这 15 亿更像是一张入场券，而不是成绩单。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:32

45d ago

● P1Import AI· rssEN12:32 · 05·04

AI 研究即将全自动：Jack Clark 预测 2028 年底前，AI 自己造自己的概率超过六成

Jack Clark 根据公开数据做了一个判断：到 2028 年底，不需要人类插手的 AI 研发有超过 60% 的概率会出现。他主要拿两个指标说事。一个是 SWE-Bench，这个测试看 AI 能不能解决 GitHub 上的真实代码问题，Claude 2 当初得分大概 2%，现在 Claude Mythos Preview 已经干到 93.9%，基本把...

#Agent#Code#Benchmarking#Jack Clark

精选理由

HKR 三项全中。Jack Clark 用 SWE-Bench 和 METR 的数据撑起一个 2028 年全自动 AI 研发的赌注，属于知名人物对 AI 时间线的判断，放在 85–94 分档合适，比模型发布的分量低一点。

一句话点评

Jack Clark 用公开数据推演：到 2028 年底，AI 自己搞研发的概率超六成。他拿 SWE-Bench 和 METR 任务时长两条线交叉验证，趋势很硬，但前提是算力管够。

锐评

Jack Clark 这篇不是论文，是他自己看了一堆公开数据后做的推演。核心判断很直白：AI 自己搞研发，2028 年底前发生的概率超过 60%。他主要抓了两个指标。一个是 SWE-Bench，测 AI 解决 GitHub 真实代码问题的能力，Claude 2 当初得分约 2%，现在 Claude Mythos Preview 已经干到 93.9%，基本把题库刷穿了。另一个是 METR 的任务时长，看 AI 能稳定完成多复杂的活，从 2022 年 GPT-3.5 的 30 秒，一路涨到 2026 年 Opus 4.6 的约 12 小时，METR 的人甚至觉得年底摸到 100 小时不奇怪。这两个趋势合在一起，说明 AI 写代码和长时间干活的能力都在猛涨，工程层面的自动化拼图快齐了。但 Clark 自己也留了余地：前沿大模型的训练太贵，需要一堆人拼命调，短期内还很难完全甩开人类。正文没给出具体的成本模型或实验验证，更多是趋势外推。我会先打个折：代码能力饱和不等于研究能力到位，从“会写代码”到“能提出新研究方向”中间还隔着创造力这道坎。另外，METR 的任务时长测的是人类标注的通用任务，不是真实的 AI 研发流程，直接套用有水分。这篇最值钱的地方是把散落各处的公开数据点串成了一条清晰的趋势线，但结论本身还缺一次真正的端到端实验来撑腰。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:09

45d ago

FEATUREDr/LocalLLaMA· rssEN11:09 · 05·04

用 Hermes Agent 和 qwen3.6-35b 在本地跑深度研究，生成了 21 页报告

一位 Reddit 用户用 Hermes Agent 框架搭配 qwen3.6-35b-a3b 的 Q6_K 量化版，在单张 RTX 4060 上跑了 6 轮循环、超过 5 小时，生成了一份 21 页的研究报告。生成速度约每秒 28 个 token。仓库里放了提示词、脚本、中间产物和最终报告。正文没披露报告具体主题和结论质量，也没说这 5 小时里人工干...

#Agent#Tools#Code#Hermes Agent

精选理由

HKR 三项都站得住：这是一个带硬件型号、运行时长、生成速度和完整产物的本地 agent 实验。来源是 Reddit 个人分享，传播面有限，所以分数放在 72–77 的 featured 门槛区间，不往上拔。

一句话点评

单卡 4060 跑 5 小时生成 21 页报告，每秒 28 token，但正文没给报告主题和结论质量，先别太激动。

锐评

这条分享的价值在于把“本地跑深度研究”的成本和门槛摆出来了：一张 RTX 4060 消费级显卡，用 Hermes Agent 框架搭 qwen3.6-35b-a3b 的 Q6_K 量化版，6 轮循环、超过 5 小时，生成一份 21 页报告，速度约每秒 28 个 token。作者把提示词、脚本和中间产物都放进了仓库，对想复现的人比较友好。但正文没披露报告的具体主题，也没说结论靠不靠谱。5 小时里人工干了多少活、中间需不需要手动纠偏，这些都没提。每秒 28 token 的速度在本地跑 35B 模型算正常，但放到“深度研究”场景里，意味着出结果要等很久，实际用起来会有点磨人。还缺两个关键信息：一是报告质量有没有经过人工核对，二是这套流程能不能稳定复现。如果只是跑通了一次，参考价值就打折扣。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:09

45d ago

● P1r/LocalLLaMA· rssEN04:09 · 05·04

Mistral Medium 3.5 128B 与 Qwen 3.5 122B 在消费级显卡上性能对比

一位 Reddit 用户用 4 张 RTX 3080 20GB 显卡跑了两个大模型。Mistral Medium 3.5 128B 在 llama.cpp 里把张量拆分（tensor split）打开后，生成速度从每秒 10.37 个 token 翻倍到 21.59。但 Qwen 3.5 122B A10B 这个混合专家模型（MoE，把任务分给不同子模...

#Inference-opt#Benchmarking#Mistral#Qwen

精选理由

HKR 三项全中。4×RTX 3080 这个配置本身就是个好钩子，帖子给了 llama.cpp 和 vLLM 下两组实打实的吞吐变化，不是空谈。Mistral 张量切分后速度翻倍，Qwen MoE 反而降速，这个对比把并行策略对 MoE 架构的差异暴露得很清楚。不过数据来自 Reddit 单次跑分，没交代精度和上下文长度，所以分数压在 72–77 这个区间，不往上拔。

一句话点评

Reddit 帖子被屏蔽，正文内容没抓到，只有标题。性能对比的具体数据、推理速度、显存占用全看不到，没法判断谁更强。

锐评

这条消息来自 Reddit 的 LocalLLaMA 板块，标题说有人用 4 张 RTX 3080 20GB 跑 Mistral Medium 3.5 128B 和 Qwen 3.5 122B A10B 做对比测试。但文章正文被 Reddit 的安全策略拦住了，返回了 403 错误，我们拿到的只有标题和一张图片的占位符，没有任何实测数字。从标题能猜出几个信息点：测试环境是 4 张 RTX 3080，总显存 80GB，跑的是量化版模型——Mistral 那边用了 Q3_K_M 量化，Qwen 是 A10B 的 MoE 架构，激活参数只有 10B，理论上推理更快、显存压力更小。但具体谁在生成速度、回答质量、显存占用上赢了，正文没披露。这条对比对想在消费级显卡上跑大模型的人有参考价值，但前提是能看到原始数据。现在只能等 Reddit 帖子恢复或者有人搬运到其他平台。如果你手上有这两款模型在 3080 上的实测结果，欢迎补充。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:06

45d ago

FEATURED机器之心 · 公众号· rssZH04:06 · 05·04

ACL 2026：港理工开源“会思考”的手语翻译模型 SignThought，不用中间标注直接出文字

香港理工大学和四川大学搞了个叫 SignThought 的手语翻译模型，中了 ACL 2026 主会，还被推荐做口头报告。它最大的不同是不依赖“手语注释”（gloss），直接看视频出文字，省掉了中间那层人工标注。做法是让模型先在心里盘一遍大概意思（latent thoughts），再分两步走：先规划再落地（plan-then-ground），最后用双流...

#Multimodal#Reasoning#Vision#Hong Kong Polytechnic University

精选理由

ACL 2026 Main 接收并拟推荐口头报告，加上开源模型和新数据集，H、K、R 三项都站得住。方法有具体拆解，五个 benchmark 验证，不是空对空。手语翻译这个细分方向让它比通用多模态模型或开发者工具的关注度低一些，所以重要性没给更高。

一句话点评

港理工和川大做了个直接看手语视频出文字翻译的模型，不靠人工标注的中间层，在五个数据集上拿了最高分。但正文被微信验证页挡住了，具体效果和限制看不到。

锐评

SignThought 这个模型的核心思路挺直接：跳过手语注释（gloss）这层人工标注，让模型直接从视频里理解手语并输出文字。做法是让模型先在心里盘一遍大概意思，再分两步走——先规划再落地，最后用双流解码出结果。在五个手语翻译基准上拿了无注释条件下的最高 BLEU-4 分，还专门建了个 1311 小时、43 万多个片段、14 个手语者的香港手语数据集 LC-HKSLT。不过这篇推送的正文被微信环境验证页挡住了，我只能看到摘要里的技术路线和数字，看不到论文里的具体实验设置、错误分析、以及模型在真实场景下的表现。比如 BLEU-4 分数到底是多少、比第二名高多少、在不同手语类型上的稳定性怎么样，这些关键信息都缺失。另外，手语翻译的落地难点往往不在模型本身，而在视频采集质量、方言差异、实时性要求这些工程问题上，论文有没有讨论这些也看不到。如果只看公开信息，这个方向有意义，但具体有多好用，得等看到完整论文再判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:04

45d ago

FEATURED新智元 · 公众号· rssZH04:04 · 05·04

DeepMind 用 AI 挑战 700 道数学难题，结果有一题题干是错的，AI 还硬写了数十页证明

Google DeepMind 搞了个叫 Aletheia 的流程，拿 Gemini Deep Think 去啃 700 道 Erdős 数学猜想。流程是先让模型生成 200 个候选答案，再用验证器筛到 63 个，最后产出 13 个原创解答。乌龙出在 Erdős-75 这道题上：题干本身就有问题，但 Aletheia 没发现，照样洋洋洒洒推导了几十页。...

#Reasoning#Benchmarking#Safety#Google DeepMind

精选理由

我会先打个折：文章本身是媒体转述，原始论文细节得去看 arXiv，正文没披露验证器的具体设计和人类专家的复核标准。但选题确实抓人——一个题干有误的 Erdős-75 问题，AI 照样输出几十页证明，这比单纯报 benchmark 分数更能让人停下来想一下推理可靠性。700 个问题、13 个原创答案、200 到 63 的筛选管线，这些数字把流程讲清楚了，不是空泛的“AI 做数学”。对从业者来说，验证器能筛掉什么、筛不掉什么，才是真正关心的，文章至少把这个问题摆到了台面上。

一句话点评

题干错了，模型还一本正经写了几十页推导，这比答错更暴露问题：它不会质疑前提。

锐评

Google DeepMind 用 Aletheia 流程让 Gemini Deep Think 去解 700 道 Erdős 数学猜想，先海选 200 个候选答案，再筛到 63 个，最后产出 13 个原创解答。结果在 Erdős-75 这道题上翻了车——题干本身就有问题，但模型没发现，照样洋洋洒洒推导了几十页。这事比单纯答错严重。它说明模型在“给定前提”下推理能力很强，但缺乏跳出框框审视题目本身的能力。就像一个考试机器，你给什么题它就做什么，从不反问“老师，这题是不是出错了”。正文没披露那 13 个原创解答是否经过人工验证，也没说 Erdős-75 的错误前提是故意埋的还是意外发现的。如果连题干错误都检不出来，那其他 12 个解答的可信度也得打个问号。陶哲轩之前提过用 AI 辅助数学研究，但前提是 AI 得先学会说“这不对”。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:04

45d ago

FEATURED新智元 · 公众号· rssZH04:04 · 05·04

迪士尼员工9天狂调Claude 46万次，Meta一个月烧掉60万亿token

新智元这篇推文本身被微信环境拦截，正文没披露原始数据表，只能从标题和摘要反推。标题说迪士尼内部有个AI使用看板，一名员工在9个工作日内向Claude发起了约46万次调用，平均每天超5万次，频率高到像在跑自动化任务。另一组数字是Meta 30天消耗60万亿token，按公开API价格算大概值90亿美元，但实际内部成本肯定低得多。我会先打个折：token消...

#Code#Agent#Tools#Anthropic

精选理由

HKR三项都成立：钩子靠两个夸张的用量数字立住，知识部分有仪表盘截图和token折算，痛点踩在企业最关心的Claude成本控制上。分数维持74，因为数据都是二手转述，正文没给原始数据表，我会先打个折。

一句话点评

迪士尼一名员工9天调用Claude 46万次，Meta月烧60万亿token，但正文被微信拦截，原始数据表没披露，数字先打七折看。

锐评

这条消息最值得看的是两个极端：个人高频调用和企业级海量消耗。迪士尼内部AI看板显示，一名员工9个工作日内向Claude发起约46万次请求，平均每天超5万次，这个频率不像人工对话，更像在跑自动化脚本或批量任务。另一头是Meta，30天消耗60万亿token，按公开API价格毛估接近90亿美元，但内部成本肯定远低于此，这个数字更多说明大厂自用模型的规模，而不是实际账单。整篇推文被微信环境拦截，正文没披露原始数据表，也没说明调用类型、模型版本或实际用途。迪士尼那位“榜一大哥”到底是在做代码生成、内容审核还是数据清洗，完全不清楚。Meta的token量也没拆解是训练还是推理，没法判断效率。我会先打个折：调用次数高不等于用得好，token量大不等于产出高。这类内部看板数据往往缺少效果指标，比如任务完成率、错误率或人工修正比例。如果后续有更细的拆解，才能判断是真实生产力还是统计口径上的热闹。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:48

45d ago

FEATUREDr/LocalLLaMA· rssEN03:48 · 05·04

一个 4.5 亿参数的视觉模型在卫星上跑野火检测，瓶颈不是模型质量，是带宽

作者 PauLabartaBajo 搭了一套端到端的野火预防管线，把 4.5 亿参数的视觉语言模型 LFM2.5-VL 直接部署在卫星上做推理。核心约束是卫星下行带宽太窄，传不了大尺寸多光谱图像，所以方案反过来：在轨跑模型，只下传一份 JSON 格式的风险评估结果。管线用 Sentinel-2 的 RGB 和短波红外（SWIR）图像拼成输入——SWIR...

#Vision#Multimodal#Inference-opt#PauLabartaBajo

精选理由

我会先打个折：这是单人 PoC，只在 22 个地点跑过模拟轨道，正文没披露真实卫星上的延迟和误报率，所以别当成熟方案看。但它的思路很清晰——把算力留在天上，只传结论不传图，带宽省得不是一点半点。用 450M 小模型而不是大模型，也说明在轨推理的硬件约束有多硬。对关注边缘部署和遥感落地的从业者，这个方向值得跟，但验证还差得远。

一句话点评

把4.5亿参数的小模型塞进卫星直接看图判火险，只回传JSON结果，绕开了卫星带宽窄的硬伤。想法很聪明，但目前只是地面模拟，还没上星验证。

锐评

这个项目的核心思路是用小模型换带宽：卫星拍到的多光谱图像太大，全传下来不现实，干脆在轨道上跑一个4.5亿参数的视觉语言模型LFM2.5-VL，让它直接看懂RGB和短波红外图像，只把火险等级这类结构化结果传回地面。短波红外能反映植被水分压力，是判断火灾燃料状态的关键信号，比单纯看像素统计更有物理意义。作者用Docker模拟了卫星轨道，从Sentinel-2的真实数据源拉取图像，在本地跑推理，覆盖了22个火灾多发点。目前这还只是一个概念验证，模型是开箱即用的，作者自己也说效果远不如顶尖大模型，后续还需要专门收集数据、做标注和微调来补差距。正文没披露推理延迟、功耗和误报率这些上星部署的关键指标，也没说明4.5亿参数的模型在真实星载硬件上能不能跑得动。所以这套方案离真正上天还有距离，但“在边缘端用多模态小模型做结构化输出”这个方向，对带宽受限的遥感场景确实有参考价值。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

46d ago

FEATUREDOpenAI 博客· rssEN00:00 · 05·04

OpenAI 分享低延迟语音 AI 全球规模交付方案

OpenAI 为了支撑 9 亿周活用户的实时语音对话，重新设计了 WebRTC 传输层。核心是把传统的 SFU（多方媒体转发）换成了“中继+收发器”架构：边缘节点直接终结客户端连接，再把音频转成内部协议传给推理后端。这样做的目的是减少一次媒体跳转，让用户说话到模型响应之间的延迟更低、更稳定。文章详细讲了怎么在 Kubernetes 上跑 WebRTC、...

#Audio#Inference-opt#OpenAI#Product update

精选理由

HKR-H 和 HKR-R 通过：OpenAI 语音延迟是强实践钩子。HKR-K 不通过：文章提了 WebRTC 改造但没给延迟、架构和部署数据，所以分数落在 60–71 区间。

一句话点评

OpenAI 把语音 AI 的全球延迟压下来了，但正文没给具体延迟数字，这点先别太激动。

锐评

OpenAI 这篇工程博客讲的是他们怎么重新设计 WebRTC 架构，让全球 9 亿周活用户用上低延迟语音。核心思路是把传统的 SFU（选择性转发单元）方案换成“中继+收发器”模式：在边缘节点就把 WebRTC 连接拆掉，转成内部协议再传给模型，不再让 AI 作为一个 WebRTC 参与者加入。这样做的好处是避开了 Kubernetes 环境下“每会话一个端口”的部署噩梦，也把 ICE 和 DTLS 这些有状态会话的归属问题在边缘就解决掉，不用一路穿透到推理后端。文章把架构选择的原因讲得比较清楚：他们的场景大多是 1 对 1 的人机对话，对延迟极度敏感，不需要 SFU 那种为多人会议设计的多流转发能力。但全文只定性说了“低延迟”“快连接”，没有给出具体的全球平均 RTT、首字延迟或建连耗时数据，也没提这套方案在弱网下的表现和成本变化。还缺两块关键信息：一是从边缘拆掉 WebRTC 后，内部协议怎么保证和 WebRTC 同等的加密与拥塞控制，二是这套架构在跨大洲、跨运营商的真实场景下，延迟抖动和丢包率到底是多少。没有这些数字，很难判断它比直接用 SFU 到底省了多少延迟、付出了什么代价。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

热点聚合 · 2026-05-04

更多

频道

后台