热点聚合 · 2026-05-31

▸ 14 signals · updated 3m ago

live · 238 today·policy v2

AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

126 212 320 419 542 632 749 826 923 1017 1136 1248 1337 1454 1539 1630 1719 1849 1976 2045 2148 2249 2313 2415 2520 2637 2744 2848 2935 3022 3114

2026年6月

一二三四五六日

147 258 348 447 545 619 715 852 945 1031 1128 1221 1313 1415 1524 1635 1726 1824 1912021222324252627282930

2026-05-31 · 星期日2026年5月31日

20:35

18d ago

FEATUREDr/LocalLLaMA· rssEN20:35 · 05·31

有人把英伟达 Parakeet 语音转文字模型移植到了 ggml，不再需要 Python，还能量化压缩

开发者 mudler_it 把英伟达的 Parakeet 语音转文字模型用 C++ 和 ggml 重写了一遍，彻底甩掉了 Python 和 PyTorch。他测试下来，在 f32 和 f16 精度下输出结果和原版 NeMo 逐字节一致，但速度更快，大一点的 TDT 和混合模型在 GPU 上能跑到大约 5 倍加速。模型还支持 GGUF 量化，提供了 f1...

#Audio#Inference-opt#Tools#NVIDIA

精选理由

我会先打个折：这是个人移植项目，不是 NVIDIA 官方出品，长期维护和后续模型支持还得看社区。但亮点很明确——输出字节级对齐 NeMo，量化后跑得更快，而且不用碰 Python 环境。对想在树莓派、本地服务器或离线场景跑语音转文字的人来说，这是个省事的选择。正文没披露量化后的精度损失有多大，这点先别太激动。整体看，技术验证扎实，痛点打得准，放在 featured 低位合适。

一句话点评

有人把英伟达的 Parakeet 语音识别模型用纯 C++ 重写了，甩掉 Python 后 GPU 上能快 5 倍，还支持量化压缩，本地跑更省资源。

锐评

这条消息对想在本地或自有服务器上跑语音转文字的人来说是个实打实的好消息。开发者 mudler_it 把英伟达的 Parakeet 模型移植到了 ggml 框架上，用 C++ 重写，彻底告别了 Python 和 PyTorch 那套重型依赖。他测试的结果是，在 f32 和 f16 精度下，输出结果和原版 NeMo 能做到逐字节一致，但速度更快，大一点的 TDT 和混合模型在 GPU 上能跑到大约 5 倍加速。模型还支持 GGUF 量化，提供了从 f16 到 q4_k 多种精度，意味着你可以根据硬件显存大小自己选，低配机器也能跑。不过得先打个折。这条信息来自 Reddit 用户自述，正文因为网络限制没抓到完整内容，我们看不到具体的测试环境、硬件配置和延迟数据。5 倍加速是在什么显卡上跑的、对比的基线是什么版本，这些关键细节都缺失。另外，Parakeet 本身是英伟达的模型，这个移植版是社区行为，后续能不能跟上官方更新、有没有人长期维护，都是未知数。如果你打算用在生产环境，建议先拿自己的音频样本跑一遍，重点对比准确率和资源占用，别只看加速倍数就上头。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:07

18d ago

FEATUREDAI HOT 精选· aihot-apiZH16:07 · 05·31

OpenAI 成立机器人团队，由 Aditya Ramesh 带队，正在招硬件和系统工程师

OpenAI 发推宣布正式组建机器人团队，由 Aditya Ramesh 负责，目前开放全栈硬件、系统和 ML 工程师岗位。团队方向是软硬件协同设计，短期先帮技术工人干活，远期想给每个人配一台个人机器人。推文没写招聘规模和具体时间表，也没提预算或产品形态，我会先打个折——这更像是一个组队信号，离实际产品还有距离。

#Robotics#OpenAI#Aditya Ramesh#Personnel

精选理由

OpenAI 把机器人团队和负责人亮出来，是个明确的路线信号，所以 H/K/R 都成立。但产品形态、时间表和招聘规模正文都没提，我会先打个折，不放到 P1。

一句话点评

OpenAI 发推组机器人团队，但没给预算、规模和产品时间表，更像先占坑招人，离真机还远。

锐评

这条推文是 OpenAI 正式把机器人摆上台面的信号，但信息量很薄。团队由 Aditya Ramesh 带，方向是软硬件一起搞，短期说帮技术工人干活，远期画了个“每人一台个人机器人”的饼。正文没披露招聘多少人、投多少钱、有没有原型机，也没说跟之前解散又重启的机器人项目是什么关系。唯一能确定的是他们现在缺全栈硬件、系统和 ML 工程师，说明团队还在早期搭建阶段。这点先别太激动——从组队到出能用的硬件，中间隔着供应链、安全、成本一堆坑，OpenAI 之前也没跑通整机量产。还缺的关键信息：有没有合作厂商、目标场景是工厂还是家庭、软硬件协同设计具体指自研传感器还是只做大脑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:04

18d ago

FEATUREDHacker News 首页· rssEN15:04 · 05·31

PrismML 发布 Bonsai Image 4B 1-bit 图像生成模型，参数压缩至 1GB 以内

PrismML 发布了 Bonsai Image 4B，一个把 4B 参数扩散模型压到 1-bit 和 ternary（三值）权重的图像生成模型。1-bit 版模型文件只有 0.93 GB，是原版 FLUX.2 Klein 4B 的 1/8，iPhone 17 Pro Max 上生成一张 512x512 图片耗时 9.4 秒。ternary 版稍大（1...

#Vision#Inference-opt#Bonsai Image#Hacker News

精选理由

标题的1-bit 4B本地图像生成确实有钩子，但证据太薄：只有HN的33分和7条评论，没有许可证、目标硬件、跑分或发布细节。信息不够，只能给60-71这个区间。

一句话点评

PrismML 把 4B 图像模型压到 1GB 以内，能在 iPhone 上直接跑图了，但 1-bit 版画质打了 88 折，先别当主力用。

锐评

PrismML 这次发布的 Bonsai Image 4B，核心是把 FLUX.2 Klein 4B 这个 4B 参数图像模型里的扩散变压器（你可以理解为模型里反复干活的核心部件）做了极端的量化压缩。1-bit 版把变压器从 7.75GB 压到了 0.93GB，三元版压到 1.21GB，分别缩了 8.3 倍和 6.4 倍。这个压缩率让模型能直接塞进 iPhone 17 Pro Max 里跑，生成一张 512x512 的图大概 9.4 秒，而原版模型根本塞不进手机内存。压缩后的代价是画质和指令遵循能力。三元版保留了原版 95% 的综合评分，1-bit 版保留了 88%。这个折损在可接受范围内，但别指望它完全替代原版。正文没披露训练细节，比如用了多少数据、怎么做的量化感知训练，也没给用户主观评测，所以“画质到底差多少”还得自己跑跑看。另外，它依赖苹果 MLX 和 CUDA 的定制低比特计算库，其他硬件上的表现暂时未知。整体看，这条技术路线对端侧图像生成很有价值，把模型体积和内存占用打下来是实打实的进步。但现阶段更像一个技术验证，离“手机上的 Stable Diffusion 平替”还差一轮生态和工具链的完善。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:53

18d ago

FEATUREDHacker News 首页· rssEN13:53 · 05·31

用200英镑二手数据中心GPU改装游戏PC

作者花150英镑买了块英伟达Tesla V100 SXM2（16GB HBM2显存，带宽900GB/s，比RTX 4080还高22%），再花50英镑买了个SXM2转PCIe转接板，插进自己已有RTX 4080（16GB）的游戏PC里，总共32GB显存，用llama.cpp跑27B参数模型，速度32 tokens/s。原装风扇噪音82分贝（像垃圾处理器）...

#Inference-opt#Commentary

精选理由

H和R通过，因为200英镑的本地推理硬件角度有吸引力。K不通过：型号、配置、性能和功耗数据都没披露，所以这条只适合浏览，不值得推荐。

一句话点评

花200英镑给游戏电脑塞了块数据中心退役的V100显卡，显存翻倍到32GB，跑270亿参数模型能到每秒32个token。但风扇原厂设定82分贝，得自己改线才能住人。

锐评

这篇博文最实在的地方是算了一笔显存带宽的账。这块2017年的Tesla V100，用的是HBM2显存，带宽900 GB/s，比作者手里2022年的RTX 4080（736 GB/s）还高出22%，也压过了最新的苹果M5 Max（614 GB/s）。对于跑本地大模型来说，显存带宽直接决定生成速度，所以这块老卡在推理任务上依然能打。成本控制是另一个看点。卡150英镑，一块没官方支持的SXM2转PCIe转接板50英镑，总共200英镑凑出32GB显存。作为对比，单张32GB的RTX 5090要价超过2000英镑。当然，双卡通过PCIe总线拆分模型层，效率肯定不如单卡，但作者用llama.cpp跑270亿参数模型做到了每秒32个token，对个人实验来说完全够用。最大的坑在散热。原装风扇是给2U服务器机柜设计的，全速运转82分贝，相当于割草机在屋里响，而且软件根本控不住转速。作者最后是靠跳线把风扇接到主板风扇接口上，用PWM调速压在10%，温度没超过50度，噪音才降到能接受的程度。正文没披露长时间高负载下的稳定性数据，也没提转接板对PCIe信号完整性有没有影响，这点想抄作业的人得自己留个心眼。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

13:44

18d ago

FEATUREDr/LocalLLaMA· rssEN13:44 · 05·31

用 44 小时 RTX 5090 给 Gemma 4 E2B 做了 13 个“去限制”变体，有害指令成功率从 32% 飙到 82% 以上

这篇帖子来自 Reddit 的 r/LocalLLaMA，作者 Abliterlitics 用 44 小时的 RTX 5090 算力，对 Gemma 4 E2B 模型做了 13 种不同强度的“去限制”（abliteration）处理。简单说，就是通过修改模型内部参数，削弱它对敏感问题的拒绝回答倾向。结果很直接：原版模型在 HarmBench 有害指令测...

#Safety#Benchmarking#Reasoning#Google

精选理由

我会先打个折：这只是一次个人发起的去审查实验，不是官方发布，结论别直接当生产依据。但文章把 13 个变体的基准分、GPU 开销和有害指令通过率都列清楚了，读起来像朋友在群里甩了一份跑分记录。对想了解 Gemma 4 安全边界、或者自己动手做 abliration 的人，这份数据比泛泛的讨论有用得多。

一句话点评

用44小时RTX 5090把Gemma 4 E2B的拒绝回答率从67.8%几乎降到零，但正文没披露模型在正常任务上有没有变傻。

锐评

作者Abliterlitics对Gemma 4 E2B做了13种强度的“去限制”处理，把模型内部拒绝回答的倾向直接削掉。效果很猛：原版在有害指令测试里拒绝率67.8%，处理后攻击成功率飙到82%到100%，等于几乎不设防。数学推理倒没崩，GSM8K从83.5%微涨到84.8%，说明至少在这类任务上没被带偏。但这条信息缺两个关键点。第一，44小时RTX 5090的算力成本没折算，不知道是个人跑着玩还是能复现的流程。第二，只测了有害指令和数学题，日常对话、事实准确性、长文本理解这些更常用的场景完全没提。去限制往往会让模型在边界问题上胡说八道，这点没验证就下结论说“只影响安全不影响能力”还太早。另外，Reddit原文被网络屏蔽，摘要里的信息来自二手转述，具体实验设置和模型发布位置都不清楚。如果你是想拿这个做本地部署，建议先在自己业务场景里跑一圈，别只看这两个数字就上车。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:12

18d ago

FEATUREDAI HOT 精选· aihot-apiZH12:12 · 05·31

苹果 WWDC 要拿 Gemini 蒸馏出的小模型跑在 iPhone 上，复杂问题还是会甩给谷歌云

下个月 WWDC 苹果会展示 Siri 和端侧 AI 的升级，核心思路是把谷歌 Gemini 模型“蒸馏”成一个小号版本，直接在 iPhone 芯片上本地跑，主打隐私和省 token 费。但整个技术栈对外依赖很重：本地模型源自 Gemini 蒸馏，手机处理不了的复杂请求会路由到谷歌云，还用了英伟达的机密计算。苹果之前承诺的 Private Cloud ...

#Agent#Inference-opt#Tools#Apple

精选理由

这条消息我会先打个折，因为目前只有单一信源，正文没披露模型参数量、延迟、成本或合同细节。但它的信息量对从业者来说很实在：苹果在 WWDC 前被曝出用 Gemini 蒸馏模型救急，本地跑小模型保隐私，重活还是得走 Google 云和 Nvidia 机密计算，等于承认自研大模型没跟上。这个技术栈组合本身就说明苹果在端侧 AI 上选择了外部依赖，跟它一贯的全栈控制路线反差很大，所以给了 82 分，放在 featured 位置。

一句话点评

苹果把 Gemini 蒸馏后塞进 iPhone 本地跑，隐私和成本账面上好看，但技术栈从模型到云端都绑在谷歌和英伟达身上，自研故事打了折。

锐评

这条消息的核心矛盾在于：苹果一边讲端侧隐私，一边把技术命脉交给谷歌和英伟达。具体来说，Siri 的新大脑是把谷歌 Gemini 模型“蒸馏”成小号版本，直接在 iPhone 芯片上本地运行。蒸馏可以理解为让一个大学问家（大模型）教一个小学生（小模型），只学回答风格和关键知识，体积和算力需求都大幅缩减，所以能塞进手机、省 token 费。但复杂问题手机处理不了，会路由到谷歌云，还用了英伟达的机密计算。苹果之前承诺的 Private Cloud Compute 原计划用自研芯片，现在因为跑不动完整 Gemini 模型，部分转向谷歌云，名字却没改。正文没披露蒸馏后模型的具体参数量、延迟和准确率损失，也没说哪些请求会触发云端路由、用户是否知情。这些缺口直接决定“本地隐私”的成色。另外，苹果还在找小型端侧 AI 初创公司来加速模型缩减，说明内部工程进度有压力。整体看，这是一次务实的技术妥协，但对外讲隐私故事时，依赖外部技术栈的事实会让说服力打折。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:47

18d ago

FEATUREDr/LocalLLaMA· rssEN09:47 · 05·31

PolyRange：一个防考题泄露、专测 AI 攻击能力的靶场，每次出题都不一样

PolyRange v1.0 把 OWASP 测试指南里的 12 大类、84 种攻击手法做成了动态靶场。它不靠固定题库，而是每次部署时让一个大模型现场生成新靶机和防守策略，分两档难度，最后用“AI 提交攻击结果、裁判机验证”的方式打分。整套环境一条命令就能在 Fly.io 或 Docker 上跑起来。正文没披露具体评测数据和成本，但思路很明确：防止模型...

#Agent#Benchmarking#Safety#PolyRange

精选理由

PolyRange 把网页安全靶场做成了会自己换题的 agent 评测。每次部署由大模型新生成任务，不是死题库，防污染这点做得比较彻底。覆盖 84 个 WSTG 类、12 个 OWASP 类别，两档防御加 flag 判定，规则清楚。信息源单一，目前只有 Reddit 帖子，正文没披露实际跑分数据和 agent 通过率，所以分数先打 78，等有实测结果再往上调。

一句话点评

这个靶场每次部署都用大模型现场生成新题目，能防刷榜，但正文没给任何实测数据和跑一次的成本。

锐评

PolyRange 做了一件挺聪明的事：它不靠固定题库，而是每次部署时让一个大模型现场生成新的攻击靶机和防守策略，分两档难度，最后用裁判机验证攻击结果。这直接解决了安全评测里最头疼的“数据污染”问题——模型没法靠背题拿高分。它覆盖了 OWASP 测试指南里的 12 大类、84 种攻击手法，一条命令就能在 Fly.io 或 Docker 上跑起来，对想自己测模型攻击能力的人来说门槛很低。但正文没披露任何实测数据，比如用 GPT-4 或 Claude 跑一轮要花多少钱、裁判机的误判率是多少、不同模型在这个靶场上的得分差异。这些数字直接决定这东西是“能用”还是“好用”。另外，靶场本身依赖一个大模型来生成题目，那这个大模型的能力上限就会卡住整个评测的天花板。如果生成题目的模型自己就不擅长某些攻击类型，那它产出的靶子可能本身就偏简单。这点先别太激动，等有人跑出横向对比数据再看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:27

18d ago

FEATUREDr/LocalLLaMA· rssEN08:27 · 05·31

不用改代码，让 OpenAI Codex 桌面客户端接任意模型和供应商

Reddit 用户 thibautrey 分享了一个三步走的方法：编辑 Codex Desktop 的 config.toml 配置文件，存好 API 密钥，再用一个叫 multicodex 的代理别名把 gpt-5.3-codex 这个模型名映射到 MiniMax-Latest。代理跑在本地 127.0.0.1:1455，会把返回的模型名伪装成 gp...

#Agent#Code#Tools#OpenAI

精选理由

这是一条可复现的开发者操作流，不是官方发布。我会先打个折：正文没披露 MiniMax-Latest 的具体成本和延迟，也没说 proxy 稳定性如何，所以别急着在生产环境照搬。但 hook 很直接——不改代码就能在 Codex 桌面端用别的模型，配置细节也够落地，对想省钱或换模型的人有实际参考价值。

一句话点评

有人用代理伪装模型名，把 MiniMax 塞进 OpenAI Codex 桌面端，不改代码就能换模型。但帖子正文被屏蔽，具体步骤和稳定性未知。

锐评

这条分享的核心思路很直接：在本地跑一个叫 multicodex 的代理，把 Codex 桌面端原本要发给 gpt-5.3-codex 的请求，转发给 MiniMax-Latest，再把返回的模型名伪装回去。好处是不用改客户端代码，还能同时保留官方模型。代理监听 127.0.0.1:1455，配置写在 config.toml 里。但 Reddit 原文被网络策略屏蔽，我们看不到完整的操作细节、错误处理方式，也不知道代理本身是否开源、有没有维护。这种“换模型”的做法在本地部署圈子里不算新鲜，但用在官方桌面端上，稳定性和合规风险都得打个问号。如果代理只是简单转发请求，那工具调用、流式响应这些功能能不能正常跑，正文也没交代。对想省 API 费用或者试其他模型的人来说，这个思路值得看一眼，但在没看到完整代码和长期使用反馈之前，别急着把它当正式方案用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:08

18d ago

FEATURED机器之心 · 公众号· rssZH05:08 · 05·31

微软开源 SkillOpt：像训练神经网络一样，自动优化给 AI 智能体看的技能说明书

微软放出了一个叫 SkillOpt 的开源框架，一周就在 GitHub 上拿了 3300 多颗星。它的思路挺直接：不改模型本身的参数，而是像做文本版梯度下降一样，自动迭代优化那些写给 AI 智能体看的“技能文档”。论文里的实验覆盖了 7 个目标模型、6 个评测基准和 3 种执行环境，总共 52 种组合，结果要么最好，要么并列最好。不过正文因为访问限制没...

#Agent#Tools#Benchmarking#Microsoft

精选理由

微软开源的 SkillOpt 把 agent 技能文档当成可训练的文本参数，像训神经网络一样去优化技能描述，这个思路挺新鲜。我会先打个折：论文说在 52 个组合里做到最优或并列最优，但正文没披露具体对比基线和误差范围，这点先别太激动。不过一周 3.3k star 说明 agent 工程圈确实被技能维护和评估成本折磨很久了，一个能自动优化技能文档的工具，哪怕只是省掉一部分手工调 prompt 的活，也值得关注。

一句话点评

微软开源了一个叫 SkillOpt 的框架，不调模型参数，而是像做文本版梯度下降一样自动优化给 AI 看的技能文档，一周拿了 3.3k 星。

锐评

SkillOpt 的思路是把给 AI 智能体用的“技能说明书”当成可训练的文本来优化，不改模型本身。论文在 7 个模型、6 个基准、3 种执行环境共 52 种组合上跑出了最好或并列最好的结果，说明这套方法在不同模型和任务上都有点普适性。不过目前能看到的只有摘要和星数，正文因为微信页面需要验证没读到。具体怎么实现“文本梯度下降”、优化后的技能文档长什么样、对模型本身能力有没有隐性依赖，这些关键细节都还缺。3.3k 星说明社区对“不调模型就能让智能体变强”这个方向很感兴趣，但实际效果得等看到完整论文和代码才能判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:08

18d ago

FEATURED机器之心 · 公众号· rssZH05:08 · 05·31

人大高瓴发了一篇40页综述，专门讲怎么给大模型打分

这篇综述把“评分标准（Rubrics）”这件事拆成了五个部分来讲：定义、怎么构建、怎么用来训练、怎么用来评估、以及还没解决的难题。它想回答一个很实际的问题：在模型能自己调用工具、走流程干活的 Agent 时代，光看答案对不对已经不够了，得有一套更细的尺子来衡量“好答案”到底好在哪里。正文没披露具体的实验数据，更像是一张研究地图，帮从业者快速看清这个方向...

#Agent#Alignment#Benchmarking#Renmin University of China

精选理由

这篇综述没发布新模型或产品，但 40 页的框架对 agent 评测很有用，我会先打个折，放在 featured 档。正文没披露具体实验数据，更像文献梳理，但问题意识够强，从业者能直接拿来对照自己的评估流程。

一句话点评

人大这篇综述把评分标准拆成五块讲，但正文没给实验数据，更像一张研究地图，帮你快速看清方向。

锐评

这篇综述来自人大高瓴人工智能学院，40页篇幅把“评分标准”这件事从头捋到尾：怎么定义、怎么构建、怎么用来训练模型、怎么用来评估、还有哪些坑没填。它想解决一个很实际的问题——模型现在能自己调工具、走流程干活了，光看最终答案对不对已经不够，得有一套更细的尺子来衡量“好”到底好在哪里。不过正文没披露任何实验数据或对比结果，更像一份文献梳理和方向指南。它告诉你这个领域有哪些主流做法、各自卡在什么地方，但没有给出“哪种方法更好”的结论。如果你正在做 Agent 评测或想用评分标准来微调模型，这篇可以当索引用，但别指望直接拿到可复现的方案。还缺的东西挺明显：没有实际案例展示一套评分标准怎么落地，也没讨论不同领域（比如医疗、法律）的评分标准差异有多大。这些恰好是工程落地时最头疼的部分。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:07

18d ago

FEATURED新智元 · 公众号· rssZH05:07 · 05·31

复旦系团队发布时空一体世界动作模型STI-WM

这篇文章来自微信公众号，但页面被环境验证挡住了，正文内容完全看不到。标题和摘要里提到的“复旦铁三角”和“最优物理 AI 路径”都是原文的说法，具体技术细节、实验数据和模型架构都没法核实。已知信息是：一个叫 STI-WM 的模型，主打时空一体的世界动作建模，用在机器人上，支持 RGB 图像、点云和机器人自身状态感知三种输入，能做上百秒的任务规划。另外还提...

#Robotics#Multimodal#Agent#MouShen Intelligence

精选理由

这篇东西我会先打个折——全是公司自己说的，没给公开 benchmark 也没说模型能不能复现。但信息量确实不小：STI-WM 把视觉、点云和机器人自身状态揉进一个模型里，号称一次能规划上百秒的动作，这比现在多数 demo 里几秒的规划长得多。半年融了 5 轮、Pre-A 轮 3 个亿，还拉了 NVIDIA 站台，资本侧的信号比技术侧更实。对做机器人落地的人，这条至少能看出一条技术路线和资源密度，所以放在 featured 门槛上。

一句话点评

复旦系团队发布了一个叫STI-WM的世界动作模型，把时间和空间信息放在一起处理，想让机器人更自然地干活。但正文被微信验证页挡住了，具体效果和实验数据都看不到，先别太激动。

锐评

这条消息说的是复旦系团队搞了个时空一体的世界动作模型STI-WM，号称是“机器人原生”的，意思大概是这个模型天生就为机器人动作设计，不是拿语言模型改的。核心卖点是把时间和空间信息统一建模，让机器人理解动作时能同时考虑“什么时候在哪干什么”，理论上比分开处理更连贯。但问题在于，我能看到的文章正文被微信环境验证页挡住了，等于只有标题和媒体转述。量子位和新智元两家都用了“首创”“最优路径”这种词，但没有具体数字——不知道在什么任务上测的、样本量多大、比现有方法好多少、延迟和成本怎么样。团队背景说是“复旦铁三角”，但成员构成、论文链接、是否开源，正文没披露。对从业者来说，这个方向本身值得关注，因为统一时空表征确实是机器人学习里的硬骨头。但现阶段缺实验细节和可复现材料，没法判断是实打实的突破还是概念先行。建议等论文或代码公开了再看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:00

18d ago

FEATURED量子位 · 公众号· rssZH05:00 · 05·31

复旦和通义搞了个 ToolCUA，专门教 Agent 在屏幕上选对工具

现在给 Agent 塞一堆工具，它经常不知道该点哪个。复旦和通义实验室提出了一套叫 ToolCUA 的训练方法，核心是用约 4000 个合成工具和 18 万步的“屏幕操作+工具调用”交叉轨迹来训练模型。他们训出来的 ToolCUA-8B 在 OSWorld-MCP 基准上跑到了 46.85% 的准确率。不过正文因为微信环境验证没抓到，具体训练细节和对比...

#Agent#Tools#Fine-tuning#Fudan University

精选理由

这篇文章抓了一个实际工程里的矛盾：工具越多，Agent 越不会选。我会先打个折，46.85% 的准确率不算高，但考虑到是 4k 工具的环境，这个数字说明问题确实难。18 万步合成轨迹是亮点，意味着训练数据不用全人工标，成本上友好一些。正文没披露推理延迟和实际部署的资源消耗，这点先别太激动。整体是一篇有痛点的研究发布，不是大模型或产品级发布，所以放在 featured 里合适。

一句话点评

给模型塞一堆工具它反而不会选了，复旦和通义用4000个合成工具和18万步操作轨迹教模型学会挑工具，准确率冲到46.85%，但正文被微信验证墙挡了，具体怎么训的没看到。

锐评

这条研究解决了一个很实际的痛点：现在大家拼命给智能体加工具，但模型面对一堆按钮和菜单经常点错。复旦和通义实验室的思路不是继续堆工具，而是专门训练模型“怎么选工具”。他们造了约4000个合成工具，生成18万步的屏幕操作和工具调用交叉轨迹来训练，最终在OSWorld-MCP基准上把准确率拉到46.85%。这个数字本身不算高，但考虑到任务是在真实操作系统界面上完成多步操作，已经比之前的方法强不少。不过这条新闻有个硬伤：微信环境验证把正文拦住了，我没看到具体训练细节、消融实验和对比基线。46.85%这个数字是ToolCUA-8B跑出来的，但不知道对比的其他模型是多少，也不知道这4000个合成工具覆盖了哪些场景。如果工具种类太窄，换到真实应用里可能掉得厉害。另外18万步轨迹听起来不少，但摊到4000个工具上，每个工具平均才45步，样本量偏薄。还缺一个关键信息：这套方法对基座模型有没有要求。他们用的是8B参数模型，如果换成更小的模型或者不同架构，效果会不会崩？这些都得等论文放出来才能判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:00

18d ago

FEATURED量子位 · 公众号· rssZH05:00 · 05·31

英伟达、微软、Arm 同发预告，传老黄自研 CPU 笔记本 N1X 要来了

三家公司在同一天发了同一张“PC 新纪元”的预告图，指向一台传闻中由英伟达主导设计的笔记本 N1X。目前流出的配置是 20 核 Arm 架构 CPU、Blackwell GPU、6144 个 CUDA 核心和 128GB LPDDR5X 统一内存，听起来像一台给 AI 开发者准备的移动工作站。不过正文没披露具体跑分和实测数据，内存带宽和 x86 转译效...

#Inference-opt#Agent#NVIDIA#Microsoft

精选理由

我会先打个折：这目前是三家同一天发暗示拼出来的硬件传闻，发布日期、价格、量产计划正文都没给。但“英伟达自研 CPU 塞进笔记本”这个组合拳，加上 128GB 统一内存这种能跑大模型的规格，确实值得当一条强信号来看。先别太激动，等实锤。

一句话点评

英伟达、微软、Arm 同一天发了同一张预告图，指向一台 20 核 Arm CPU + Blackwell GPU 的笔记本，但正文没给任何跑分和实测数据，先别太激动。

锐评

这条消息最值得关注的点不是配置表，而是三家巨头在同一天用同一张图造势，说明这不是某个小厂的试水机，而是英伟达认真想推的“AI 开发者移动工作站”。目前流出的规格听起来很猛：20 核 Arm 架构 CPU、Blackwell GPU、6144 个 CUDA 核心、128GB LPDDR5X 统一内存。统一内存这个设计对跑大模型很友好，不用在 CPU 和 GPU 之间来回搬数据，理论上本地推理会快不少。但正文没披露任何实测数据，连内存带宽都没提。Arm 架构跑 x86 软件要靠转译，效率打几折完全未知。128GB 内存看着大，如果带宽跟不上，跑大模型照样卡在数据搬运上。另外，这台机器到底卖多少钱、续航怎么样、软件兼容性如何，正文一概没说。这些才是决定它能不能用的关键，不是 CUDA 核心数。我会先打个折看待这条消息。三家联合预告说明产品是真的，但“PC 新纪元”这种说法得等实测出来再判断。目前缺跑分、缺带宽、缺价格、缺续航，缺的东西比给的东西多。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:30

19d ago

FEATUREDAI HOT 精选· aihot-apiZH01:30 · 05·31

特斯拉 FSD V14.3.3 用 4 天 21 小时横穿加拿大，6051 公里全程没让人碰方向盘

一群电动车爱好者开着搭载 FSD V14.3.3 的特斯拉，从温哥华一路跑到哈利法克斯，6051 公里零接管、零退出。变道、过施工路段、甚至每次进超充站自动倒车泊车，全是系统自己干的。这个版本放宽了对驾驶员盯路的判定，长途开下来没那么累。不过得说清楚，这仍是 L2 级辅助驾驶，法规上要求人随时准备接管。正文没提途中遇到的极端天气具体有多糟，也没交代是否...

#Agent#Robotics#Tesla#Product update

精选理由

我会先打个折：这是特斯拉自己放出来的单次行程，没有第三方验证，也没说清路线里高速和城市比例、天气变化、有没有施工路段这些容易翻车的细节。但 6051 公里零干预这个数字本身够硬，版本号也明确，对从业者来说是个可复现可质疑的靶子。分数停在 82 是因为它给了结果却没给边界条件，没法判断这到底是常态水平还是挑了个好天气跑出来的。

一句话点评

6051公里零接管听着吓人，但这是民间爱好者的一次性路测，不是官方认证。FSD还是L2，手不能离方向盘，别当无人驾驶看。

锐评

一群电动车爱好者用特斯拉FSD V14.3.3从温哥华开到哈利法克斯，6051公里没碰方向盘和踏板，连进超充站倒车都是系统自己干的，花了4天21小时。这个版本放宽了对驾驶员盯路的判定，长途开起来没那么累。数字很漂亮，但得打几个折。首先这是民间团队的单次路测，不是特斯拉官方测试，也没有第三方监督，数据全靠参与者自己说。其次，正文没提途中遇到的极端天气具体有多糟，也没交代是否刻意避开了复杂路况。FSD在官方定义里仍是L2辅助驾驶，法规要求人随时准备接管，这次“零干预”更多是参与者选择不干预，不代表系统真的能应对所有突发状况。还缺什么：没有对比数据说明V14.3.3相比旧版本到底提升了多少，也没有披露途中系统犹豫、减速或接近退出的次数。光看一次成功的案例，没法判断这套系统在普通用户手里能复现到什么程度。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-05-31

更多

频道

后台