热点聚合 · 2026-05-02

▸ 12 signals · updated 3m ago

live · 238 today·policy v2

AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人：Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户，医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线，App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI，但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench：由博士科学家出题、审题，专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus，它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史：你以为的石破天惊，其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型，用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗？Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

126 212 320 419 542 632 749 826 923 1017 1136 1248 1337 1454 1539 1630 1719 1849 1976 2045 2148 2249 2313 2415 2520 2637 2744 2848 2935 3022 3114

2026年6月

一二三四五六日

147 258 348 447 545 619 715 852 945 1031 1128 1221 1313 1415 1524 1635 1726 1824 1912021222324252627282930

2026-05-02 · 星期六2026年5月2日

23:51

47d ago

FEATUREDr/LocalLLaMA· rssEN23:51 · 05·02

Qwen 3.6 35B模型在编码任务中优于27B版本

一位用户在 Mac Studio M4 Max 128GB 和 M5 Max 48GB 上用 nvfp4 或 fp8 跑 Qwen3.6 两个尺寸，觉得 35B 在编码和网页搜索流程上比 27B 强。但社区里讨论 27B 的帖子更多。原文没给任何跑分或具体测试数据，所以这个“更好”只能当个人体感看。

#Code#Agent#Inference-opt#Qwen

精选理由

HKR 三项都过，但来源是 Reddit 单用户的主观体验，不是官方评测或跨来源的分数对比。硬件和量化细节具体，可验证性有限——正文没披露基准分数，也没提 Qwen 官方更新或社区复现。信息缺口明显，所以分数压在 60–71 区间，不往上调。

一句话点评

Qwen 3.6 35B 在编码任务上比 27B 强，但 Reddit 帖子正文被屏蔽，具体跑分和测试条件看不到。

锐评

这条消息来自 Reddit 上的讨论，但原文链接直接返回了 403 错误，帖子内容被网络策略挡掉了。我们只能从标题推断，社区在比较 Qwen 3.6 的 27B 和 35B 两个版本，发帖人更偏好 35B，并认为它在编码任务上表现更好。关键信息全在正文里，现在完全缺失：不知道是在哪些编码基准上测的、用了什么量化或推理框架、对比的基线是 Qwen 3.6 27B 还是其他 30B 级别的模型。标题里“让其他 ~30B 模型过时”这个说法很吸引眼球，但没有跑分数据支撑，只能当社区情绪看。要判断这条消息的含金量，至少需要补上具体的评测集（比如 HumanEval、MBPP 或 LiveCodeBench）、硬件配置和量化精度。如果 35B 在同等量化下编码能力明显提升，那对本地部署的人来说确实挺省钱，但现在缺的东西太多，没法下结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:05

47d ago

FEATUREDr/LocalLLaMA· rssEN20:05 · 05·02

有人复现了 TurboQuant，结果跟论文对不上

一位 Reddit 用户自己实现了 TurboQuant 这篇 KV 缓存量化方法，发现 PROD 变体在 4-bit 下跟原始精度结果的相关性大约 95.8%，远低于论文宣称的 99% 以上。作者还做了一个简单模拟，注意力质量的 top-1 准确率掉到了 67% 左右，说明量化后模型在“该关注哪个 token”这件事上退化明显。核心矛盾在于：论文用相...

#Inference-opt#Benchmarking#TurboQuant#LocalLLaMA

精选理由

这是 Reddit 上的单次复现，不是正式论文或官方发布，但 95.8% 的相关性和约 67% 的 top-1 准确率这两个数字挺具体，对正在掂量 KV cache 量化方案的人有参考价值。我会先打个折，因为样本量和测试条件正文没披露，结论不能直接当定论。

一句话点评

自己复现 TurboQuant 发现 4-bit 下注意力质量掉到 67%，跟论文说的 99% 相关性差挺远，这篇值得点进去看具体差在哪。

锐评

这条帖子直接打在了 TurboQuant 论文最核心的卖点上。作者自己动手实现了 PROD 变体，在 4-bit 量化下跟原始精度的相关性只有 95.8%，而论文宣称的是 99% 以上。这个差距不小，说明论文里的好成绩可能依赖了特定实验设置，换个环境就不一定复现得出来。更关键的是作者做了一个简单模拟，看量化后的模型在“该关注哪个 token”这件事上还剩多少准头，结果 top-1 准确率掉到了 67% 左右。这个数字很直观：注意力机制是模型做判断的基础，基础歪了，后面生成的质量很难不受影响。帖子点出了一个根本矛盾——论文用相关性当指标，但相关性高不代表排序保得住，而注意力质量恰恰看的是排序。不过要冷静看待：这是单人复现，正文没披露用的什么模型、什么任务、模拟的具体设置，也没说是不是跟论文完全一样的实验条件。如果作者能把代码和完整配置放出来，社区交叉验证一下，这个结论会硬得多。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:11

47d ago

FEATUREDr/LocalLLaMA· rssEN18:11 · 05·02

Reddit 网友用纯 C++17 手搓了一个 83 万参数的 Transformer，不用 PyTorch 也不用 BLAS，单核 CPU 训练 76 分钟

一个叫 Suspicious_Gap1121 的 Reddit 用户放出了 Quadtrix.cpp，一个用 C++17 从零写的 GPT 风格模型，总共 83 万参数。模型结构是 4 层、4 个注意力头、宽度 200 维，一次能看 128 个字符的上下文。他在单核 CPU 上拿 3140 万个字符训练了 76.2 分钟，验证损失降到 1.6371 n...

#Code#Fine-tuning#Inference-opt#Suspicious_Gap1121

精选理由

我会先打个折：这就是个个人练手项目，0.83M 参数离实用还远，别拿它跟正经模型比性能。但它的看点不在规模，而在把整个训练管线——LayerNorm、attention、Q/K/V、dropout、AdamW——全部手写反传，不用自动微分，不用 BLAS 加速，单核 CPU 跑通。正文没披露生成效果，也没给权重文件，所以只能当教学级实现来看。对 AI 从业者来说，这东西像一份可运行的底层教案，把平时被框架藏起来的细节全摊开了。

一句话点评

一个 Reddit 用户用纯 C++17 手搓了个 83 万参数的 Transformer，训练 76 分钟验证损失降到 1.64，没依赖任何深度学习库。

锐评

这条帖子展示了一个极简的 Transformer 实现，作者用 C++17 从零写了所有反向传播，包括层归一化、注意力机制和 AdamW 优化器，没碰 PyTorch 或 BLAS。模型很小，83 万参数，4 层 4 头，宽度 200 维，一次只能看 128 个字符，在单核 CPU 上拿 3140 万个字符训练了 76 分钟，验证损失 1.64 nats。这个损失值本身不算惊艳，但考虑到纯 CPU 训练和极小的模型体量，能跑通完整流程已经说明作者对底层数学推导很熟。我会先打个折：正文没披露训练数据是什么、验证集怎么划分、也没给生成样例，所以没法判断模型实际输出质量。另外 128 字符的上下文窗口太短，基本只能做字符级语言建模实验，离实用还远。对想理解 Transformer 内部细节的人来说，这份代码比看论文直观，因为所有梯度都是手写的，没有自动微分黑箱。但别指望拿它跑业务，它更像一个教学工具。还缺的是推理速度、内存占用和不同超参下的对比实验，这些作者都没提。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:44

47d ago

FEATUREDr/LocalLLaMA· rssEN15:44 · 05·02

Qwen 3.6 跑分赢，但 Gemma 4 实际用起来更省心：本地跑 27B/31B 视觉模型的 7 条实测发现

一位 Reddit 用户把 Qwen 3.6 和 Gemma 4 的 27B/31B 视觉模型拉到本地，用 vLLM 跑 FP8 精度对比。Qwen 在 GeoGuessr 这种难图上一次推理能烧掉 8000 多个 token，Gemma 经常 1500 个就搞定；Qwen 做视频还得先花 2 FPS 预处理。另外有个坑：vLLM 和 Llama.cp...

#Vision#Multimodal#Benchmarking#Qwen

精选理由

我会先打个折：这只是 Reddit 单帖，不是系统评测，权威性有限。但它的价值不在权威，而在“榜单赢家落地翻车”这个反差，以及 8000+ vs 1500 token、2 FPS、视觉 token 预算这些具体设定。对正在纠结选 Qwen 还是 Gemma 做本地视觉任务的人，这些信息比跑分榜实在得多。所以 HKR 三项全过，但因为没有官方结论或产品级变动，分数就停在 76，不进 P1。

一句话点评

Qwen 3.6 跑分高但实际用起来费 token，Gemma 4 省 token 但默认配置有坑，这条对比很实在。

锐评

这条帖子来自 Reddit 用户把 Qwen 3.6 和 Gemma 4 的 27B/31B 视觉模型拉到本地，用 vLLM 跑 FP8 精度做对比。结论很直接：Qwen 在 GeoGuessr 这种难图上一次推理能烧掉 8000 多个 token，Gemma 经常 1500 个就搞定，成本差了好几倍。Qwen 处理视频还得先花 2 FPS 做预处理，Gemma 没这步。另一个坑是 vLLM 和 Llama.cpp 默认会把 Gemma 的视觉 token 设成 280，但调到 1120 以上细节准确度才明显提升。这点如果不注意，Gemma 的表现会被低估。帖子没给具体 benchmark 分数，也没说测试了多少张图，样本量未知。整体看，Qwen 在跑分上可能更好看，但实际部署时 token 消耗和预处理开销会让成本高出一截。Gemma 省 token 但需要手动调参才能发挥实力。缺的是更多场景下的延迟和吞吐数据，以及不同精度下的对比。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:28

47d ago

FEATUREDHacker News 首页· rssEN15:28 · 05·02

大模型筛简历时，会明显偏袒自己生成的简历

这篇论文做了一个对照实验，发现大模型在筛选简历时存在“自己人偏好”：它们更倾向把自己生成的简历挑出来，而不是人选人写的或其他模型生成的。在控制内容质量的情况下，这种自我偏好比例在 67% 到 82% 之间。放到 24 种职业的模拟招聘流程里看，用同一款模型写简历的求职者，比条件相当但用人手写简历的人，进入初筛名单的概率高出 23% 到 60%，销售、会...

#Safety#Alignment#Benchmarking#Jiannan Xu

精选理由

这篇论文用受控实验把 LLM 在招聘里的自偏好偏差量化出来了，不是泛泛说“可能有偏见”。我会先打个折：实验是简历模拟，不是真实招聘流程，但 67% 到 82% 的偏好比例已经够刺眼了。更值得盯的是他们找到的模型自识别机制，简单干预就能把偏差砍掉一半以上，这对做对齐和安全的人有实操参考价值。没有产品发布或政策变动，所以分数停在 83 这个区间。

一句话点评

大模型筛简历时，会把自己写的简历当“自己人”，偏好比例高达67%-82%，用同一模型写简历的求职者进面概率高出23%-60%。

锐评

这篇论文用对照实验捅破了一层窗户纸：大模型在招聘筛简历时存在明显的“自我偏好”。哪怕内容质量被控制在同一水平，模型挑出自己生成简历的概率在67%到82%之间，对人写的简历反而更苛刻。放到24种职业的模拟流程里，用同一款模型写简历的人，比条件相当但用人手写简历的人，进入初筛名单的概率高出23%到60%，销售、会计这类商业岗位差距最大。这个偏好的关键杠杆是模型的“自我识别”能力——它能认出自己的文风。好消息是，论文里用了一些简单干预就把偏差砍掉了超过一半。但正文没披露具体是什么干预手段，也没说这些干预在真实招聘系统里是否容易落地。另外，实验用的是模拟流程，不是真实企业的招聘数据，所以23%-60%这个数字放到现实里可能要打个折。还缺一块：论文没讨论如果求职者用A模型写简历、雇主用B模型筛，偏差会怎么变化。这个交叉场景在现实中更常见，但实验设计似乎没覆盖到。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:44

47d ago

FEATUREDr/LocalLLaMA· rssEN13:44 · 05·02

Semvec：把聊天记录压成固定大小的“语义状态”，上下文再长也不涨 token

一个开发者在 Reddit 上发了个叫 Semvec 的项目，思路是把对话历史从无限增长的文本流换成固定大小的语义向量，每次推理只传这个压缩后的状态。他给出的 48 轮基准测试里，token 用量大概砍掉了 76%，而且第 10 轮和第 10000 轮的输入开销一样大。项目兼容 OpenAI 接口的模型，也接了 MCP、Claude Code、Curs...

#Memory#Agent#Tools#Semvec

精选理由

这是个 Reddit 自发布项目，数据来自作者自己的基准，没有第三方验证，所以我会先打个折，不当成行业级事件。但它的思路挺省钱的：用固定大小的语义向量替代无限增长的对话历史，token 减少约 76%，而且第 10 轮和第 10000 轮输入量一样，对跑长链 agent 的人有参考价值。HKR 三项都满足，冲突、数字和治理/竞争伦理的神经都碰到了，只是目前没有裁决或产品级变动，所以保持在 featured 而不是更高优先级。

一句话点评

一个开发者把对话历史压成固定大小的语义向量，48轮测试token用量砍了76%，第10轮和第10000轮开销一样。但正文被Reddit屏蔽了，看不到具体实现和验证细节。

锐评

这个思路挺直接：把无限增长的聊天记录换成固定大小的语义压缩包，每次推理只传这个包，不再把整段历史塞进上下文窗口。开发者给出的数据是48轮基准测试里token用量减少约76%，而且第10轮和第10000轮的输入成本完全一样——这点如果属实，对跑长对话或agent场景确实省钱。但得先打个折。Reddit原文被网络屏蔽了，我们拿到的只有摘要，看不到具体怎么做的语义压缩、用什么模型提取向量、压缩过程有没有信息损失、48轮测试的任务类型和评估标准是什么。这些关键信息全缺，没法判断76%这个数字在真实任务里能不能复现。另外，固定大小的语义状态意味着模型只能看到压缩后的信息，遇到需要精确回忆对话细节的任务（比如记住用户三小时前说的一个具体数字），会不会丢信息？这点正文没披露。项目说兼容OpenAI接口、接了MCP和Claude Code，说明作者在往实用方向走，但没看到多agent共享状态的具体表现。建议等代码公开或有人复现后再判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:54

47d ago

FEATUREDHacker News 首页· rssEN08:54 · 05·02

SimplePDF 推出 AI 填表助手，PDF 解析和填写全在浏览器里完成

SimplePDF 发布了一个叫 Copilot 的演示，能让你用聊天的方式填写 PDF 表单。它把 PDF 的解析、渲染和字段识别都放在浏览器本地跑，文件不会上传到服务器。默认接的是 DeepSeek V4 Flash 的代理，也支持你自己带 API 密钥、用云端模型或者接 LM Studio 本地模型。正文说 SimplePDF 现在月活用户超过 ...

#Agent#Tools#SimplePDF#DeepSeek

精选理由

HKR 三项都成立：审判式冲突来自“AI 填表但不上传文件”的设定；事实层面给出了 20 万月活、本地解析和蒸馏机制，不是空泛宣传；治理和竞争伦理的神经被触动，因为客户端工具调用绕开了传统 SaaS 的隐私风险。不过目前只是产品演示，没有裁决或平台级发布，所以重要性停在 74 分、featured 档位是合理的。

一句话点评

SimplePDF 把填表助手搬到了浏览器里，文件不上传，默认用 DeepSeek V4 Flash，也支持自带密钥或本地模型。

锐评

这个 Copilot 演示版把 PDF 解析、渲染和字段识别全放在浏览器本地跑，文件不会离开你的电脑，隐私上先加一分。默认接的是 DeepSeek V4 Flash 的代理，也允许你用自己的 API 密钥、切到其他云端模型，或者连 LM Studio 跑本地模型，灵活性给得挺足。不过正文只提了 SimplePDF 月活用户超过 20 万，没给出填表准确率、响应延迟或本地模型下的实际体验数据。演示版聊天记录会离开设备发到所选 AI 供应商，这点在页面上有提示，但如果你打算处理敏感表单，还是得自己掂量一下。另外，它目前主要针对桌面端优化，移动端体验没展开说。整体看，这是个把“外挂资料库”和“让模型进业务流程干活”思路落到填表场景的轻量尝试，隐私设计和模型选择自由度是亮点，但缺实测数据支撑，别急着把它当生产工具。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:12

47d ago

● P1r/LocalLLaMA· rssEN08:12 · 05·02

Qwen3.6-27B在RTX 3090上通过vLLM达到72tokens每秒

Reddit 用户 One_Slip1455 发了个原生 Windows 版 vLLM 启动器，不用 WSL 也不用 Docker。在一张 RTX 3090 上跑 Qwen3.6-27B（INT4 量化），短上下文能到 72 tok/s；上下文拉到约 2.5 万 token 时速度 64.5 tok/s，12.7 万 token 时还有 53.4 to...

#Inference-opt#Tools#Qwen#vLLM

精选理由

HKR 三项都成立：原生 Windows 跑 27B 模型是钩子，帖子里有可验证的速度和上下文数字，而且直击本地推理省钱这个痛点。不过来源只有 Reddit 单帖，没有官方背书或产品级变动，所以放在 featured 低位是合理的。

一句话点评

有人在 Windows 上直接用 vLLM 跑 Qwen3.6-27B，一张 RTX 3090 跑到 72 tok/s，不用 WSL 也不用 Docker。

锐评

这条消息来自 Reddit 的 r/LocalLLaMA 板块，但原文被屏蔽了，我们看不到具体的配置细节和测试条件。标题里提到的 72 tok/s 是在一张 RTX 3090 上跑 Qwen3.6-27B 的速度，这个数字对于消费级显卡来说相当不错，意味着本地跑大模型的门槛又低了一点。不过有几个关键信息缺失：模型是用了什么量化精度？上下文长度设了多少？是单轮对话还是长文本生成？这些都会直接影响速度。另外，标题强调“原生 Windows”和“便携式启动器”，说明作者可能打包了一个免折腾的安装方案，这对不想碰命令行的用户是好事，但正文没披露这个方案的稳定性和兼容性如何。先别太激动，等有人复现了再下结论。如果 72 tok/s 是在 4-bit 量化、短上下文下跑出来的，那属于正常水平；如果是全精度或长上下文，才算有点意思。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:10

47d ago

FEATURED彭博科技· rssEN08:10 · 05·02

中国法院裁定：企业不能仅因 AI 替代就裁员

一家中国法院作出判决，企业不能单纯以“AI 替代了岗位”为由解雇员工。目前彭博的报道正文被大量网站导航信息覆盖，没有披露具体是哪个法院、案号、赔偿金额或适用的具体条件。这个判决信号很明确——AI 不能直接当裁员的挡箭牌，但具体怎么认定“仅因 AI 替代”、企业需要满足什么条件才能调整岗位，这些关键细节正文都没说。

#Bloomberg#Policy

精选理由

HKR-H/R 很强，因为 AI 裁员遇到法院禁令，且岗位焦虑感拉满。HKR-K 只有一条具体规则，法院名称、案号、赔偿和适用条件全是缺口，所以知识增量有限。没有判决书全文或产品级变动，因此保持在 P1 以下。

一句话点评

法院判了：不能因为AI能干活就直接裁人。但正文全是彭博的导航栏，没披露具体法院、案号和赔偿细节，先打个折看。

锐评

这个判决释放的信号很直接——企业不能拿“AI替代了岗位”当唯一理由来解雇员工。对正在快速部署AI的公司来说，等于划了一条红线：技术升级可以，但不能绕过劳动法把裁员成本转嫁给员工。不过目前彭博的报道正文被大量网站导航信息覆盖，关键事实全是空白。没说是哪个法院、案号多少、原告是个人还是集体、企业具体做了什么被认定违法、有没有赔偿或恢复劳动关系。这些缺口让判决的实际约束力很难评估。比如，如果企业同时以“业务调整”为由裁员，法院怎么区分是不是AI替代在背后驱动？正文没披露任何认定标准。另外，这只是一家法院的判决，还是最高法发布的典型案例？如果是前者，对全国的影响有限；如果是后者，那信号意义就大多了。在拿到判决书原文之前，这条新闻更像一个风向标，而不是可以直接引用的法律依据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:35

47d ago

FEATUREDr/LocalLLaMA· rssEN06:35 · 05·02

Reddit 帖子称有黑钱资助网红把中国 AI 塑造成威胁，但原文被屏蔽无法核实

这篇 Reddit 帖子指控一个叫 Build American AI 的组织花钱请网红散布“中国 AI 是威胁”的叙事，并把它和 OpenAI、a16z 高管支持的政治行动委员会扯上关系。但帖子正文被网络屏蔽，返回了 403 错误，具体花了多少钱、找了哪些网红、投放机制全都没披露。目前只能看到标题和摘要，信息缺口很大，这点先别太激动。

#Build American AI#OpenAI#Andreessen Horowitz#Policy

精选理由

HKR 三项都成立：审判式冲突有了，具体事实包括 3800 万美元和 xAI 承认部分蒸馏，OpenAI 的治理问题本身就是个活靶子。不过目前没有判决或产品层面的变化，所以还够不上 P1。

一句话点评

帖子指控 Build American AI 花钱请网红散布“中国 AI 威胁论”，但原文被 Reddit 屏蔽，具体金额、网红名单、投放机制全没披露，这点先别太激动。

锐评

这条 Reddit 帖子本身信息量很薄。它说有个叫 Build American AI 的组织在搞“黑钱”网红营销，把中国 AI 塑造成威胁，还扯上了 OpenAI 和 a16z 高管支持的政治行动委员会。但帖子正文被网络屏蔽，返回了 403 错误，我们只能看到标题和摘要。花了多少钱、找了哪些网红、在哪些平台投放、内容具体怎么说的，正文没披露。我会先打个折：指控方向值得留意，但证据链目前是断的。如果后续有网红合同、付款记录或投放素材流出，才值得认真对待。现在更像是一个信号——美国 AI 政策游说正在从智库报告下沉到网红内容，但这条帖子本身还撑不起一个完整的叙事。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:42

47d ago

FEATURED量子位 · 公众号· rssZH02:42 · 05·02

腾讯混元开源 440MB 翻译模型，手机离线跑，自称翻译质量超谷歌

腾讯混元放出了一个叫 Hy-MT1.5-1.8B-1.25bit 的翻译模型，把原本 1.8B 参数的模型压到了 440MB，能在骁龙 888、8GB 内存的安卓手机上离线跑。它支持 33 种语言、1056 个翻译方向。压缩的关键是一种叫 Sherry 1.25 比特量化的技术，做法是每 4 个权重里，3 个用 1 比特存，1 个直接置零。官方说翻译质...

#Inference-opt#Tencent Hunyuan#QbitAI#Google

精选理由

我会先打个折：这是个垂直翻译模型，不是基础模型大更新，所以没到 P1。但亮点很实在——1.8B 模型压到 440MB，靠的是 1.25-bit Sherry 量化，每 4 个参数里 3 个用 1-bit、1 个直接置零，这种压缩方式少见。正文给了骁龙 888、8GB 内存的离线跑分，不是空口说白话。翻译质量超谷歌这点先别太激动，正文没披露具体测试集和对比条件，但如果是真的，端侧翻译的性价比会明显拉高。

一句话点评

腾讯把1.8B翻译模型压到440MB，手机离线能跑33种语言，但正文没披露具体翻译质量对比数据和延迟，这点先别太激动。

锐评

腾讯混元开源了一个翻译模型，把原本18亿参数的模型压缩到440MB，能在骁龙888、8GB内存的安卓手机上离线运行。支持33种语言、1056个翻译方向，覆盖面确实广。压缩用的是Sherry 1.25比特量化技术，简单说就是每4个权重里，3个用1比特存，1个直接扔掉，这样模型体积大幅缩小。官方说翻译质量超过谷歌，但正文没给出具体的评测基准、测试集或延迟数据，只说“翻译质”就断了，信息缺口很大。这个工作的价值在于让翻译模型真正能在普通手机上离线用，不用联网、不耗流量，对隐私敏感或网络差的场景有用。但“超谷歌”这个说法需要看具体在哪些语言对、什么指标上超，以及是否在同等硬件条件下对比。另外，440MB对手机存储来说不算小，实际下载和加载体验如何也没提。如果后续能补上完整的评测数据和端侧延迟，这个开源才更有说服力。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:42

47d ago

FEATURED量子位 · 公众号· rssZH02:42 · 05·02

苹果官方 App 把 Claude.md 打包进去了，大公司也搞 Vibe Coding？

苹果支持 App 的 5.13 版本在 5 月 1 日上线时，不小心把一个叫 Claude.md 的文件打进了安装包，不到 24 小时就被下架了。这个文件描述了 Juno AI 和人工客服之间怎么通过一个协议层来切换，客户端、AI 助手、人工客服的消息都在同一个流程里处理。正文没披露这个文件到底是怎么跑进正式版本的，但问题核心出在发布审核环节。

#Agent#Code#Tools#Apple

精选理由

HKR 三项都踩中了，但这说到底还是个 App 打包事故，不是模型或平台发布。苹果的体量加上 Claude.md 的细节够得上 featured；正文没披露审查链哪里断了，这点先别太激动。

一句话点评

苹果支持 App 误把 Claude.md 打包进正式版，不到一天就下架。文件暴露了 Juno AI 和人工客服的切换协议，但正文没解释怎么漏进去的。

锐评

这事最值得看的不是苹果用了 Claude，而是连苹果的发布审核都会漏掉一个不该出现的配置文件。Claude.md 里描述了 Juno AI 和人工客服通过一个协议层切换的流程，客户端、AI 助手、人工客服的消息都在同一个管道里处理，说明苹果在客服系统里已经跑着 AI 代理的架构。但正文完全没披露这个文件是怎么混进正式安装包的——是开发分支没清理，还是 CI/CD 流程里某个环节把调试文件当成了正式资源，这些关键信息都缺。不到 24 小时就下架说明他们反应很快，但反过来也说明上线前的检查没拦住。对从业者来说，这条新闻的教训很直白：哪怕是大厂，vibe coding 搞出来的东西如果没卡好发布流水线，照样会翻车。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-05-02

更多

频道

后台