ax@ax-radar:~/feed $ tail -f signal.log
40 srcsignal 12%cycle 04:32

热点聚合 · 2026-06-02

58 signals · updated 3m ago
live · 238 today·policy v2
AI HOT 精选OpenAI 上市前连挖两人:Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户,医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线,App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI,但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench:由博士科学家出题、审题,专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus,它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史:你以为的石破天惊,其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型,用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗?Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人:Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户,医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线,App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI,但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench:由博士科学家出题、审题,专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus,它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史:你以为的石破天惊,其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型,用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗?Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人:Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户,医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线,App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI,但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench:由博士科学家出题、审题,专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus,它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史:你以为的石破天惊,其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型,用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗?Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·
RSS live
2026-06-02 · 星期二2026年6月2日
23:02
16d ago
● P1FT · 科技· rssEN23:02 · 06·02
英国议员呼吁政府限制Palantir在NHS数据系统中的角色
英国下议院科技委员会直接建议政府,启动 NHS 合同里的中断条款,把 Palantir 从国家数据基建的核心位置挪开。议员们担心这家美国公司对敏感公共数据的控制太深,但正文没披露合同金额、期限,也没说清楚 Palantir 目前在 NHS 系统里到底管到哪一层。
#Palantir#UK Parliament#NHS#Policy
精选理由
HKR 三项全中:FT 报道、NHS 合同、Palantir 和公共数据冲突,话题够硬。正文只披露了委员会施压,没写合同金额、期限和 Palantir 具体能碰哪些数据,信息有缺口,所以放在 featured 偏低的位置。
一句话点评
英国议员直接点名,让 Palantir 别在 NHS 数据系统里当主角,这笔 3.3 亿英镑的合同正面临政治阻力。
锐评
英国议会一个跨党派委员会发报告,认为 Palantir 不该在英国公共数据基础设施里扮演“重要角色”,矛头对准的是 NHS 那笔 3.3 亿英镑(约 4.45 亿美元)的合同。议员担心的是,把全国最敏感的医疗数据交给一家美国科技公司长期运营,会锁死供应商、削弱公众信任。报告没说要立刻废约,但态度很明确:政府得把数据控制权攥在自己手里,不能依赖单一商业平台。 目前两篇报道都来自付费墙媒体,看不到报告原文和 Palantir 的正式回应。议员具体建议用什么替代方案、合同有没有退出条款,正文都没披露。另外,NHS 内部对这套系统的实际使用反馈也完全没提——是确实不好用,还是纯粹出于地缘政治和数据主权的顾虑,这点先别急着下判断。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
22:00
16d ago
● P1NVIDIA 博客· rssEN22:00 · 06·02
NVIDIA 发布 NemoClaw 框架 为工业软件部署安全自主 AI 代理
NVIDIA 在 GTC 台北上展示了 NemoClaw,一个能让 AI 模型像安全的长跑代理一样,自动跑通 CAE(计算机辅助工程)和 EDA(电子设计自动化)工作流的框架。Cadence 用它演示了 RTL 验证——一个原本需要几周的芯片数字电路设计关键步骤,现在缩短到几小时。说白了,就是让模型进业务流程干活,而且能长时间稳定运行,不出安全岔子。
#Agent#Tools#Code#NVIDIA
精选理由
HKR三项都过,但来源是NVIDIA自家博客,内容偏向产品合作宣传;没有独立基准测试、定价或可复现的配置信息,所以不上精选。
一句话点评
NVIDIA 给工业软件厂商发了一套叫 NemoClaw 的工具箱,让他们能自己搭会干活的 AI 工程师,但正文没给出任何实际部署数据或客户案例。
锐评
NVIDIA 这次发布的 NemoClaw 不是一个现成的 AI 产品,而是一套给工业软件厂商用的开发框架,目标是让他们能在自己的软件里嵌入能自主执行任务的 AI 代理——比如自动做仿真、调参数、出报告。官方博客点名了 Ansys、Cadence、Siemens 这几家巨头都在用,但没披露任何一家具体怎么用、效果如何。 框架主打两点:一是安全,强调 AI 代理的操作权限可以被精细控制,不会在工业环境里乱来;二是自主,代理能自己拆任务、调工具、走完整个工程流程。这听起来比简单的聊天机器人进了一步,相当于让模型直接进业务流程干活。但整篇博客都是能力描述,没有性能基准、没有延迟数据、也没有客户自己的验证结论。 对从业者来说,这条消息的价值在于确认了 NVIDIA 在工业 AI 代理这个方向上的产品化动作,但现阶段还缺最关键的东西:实际跑起来的案例和量化结果。如果只是框架发布而没有落地证据,先当路线图看比较稳妥。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
21:16
16d ago
● P1AI HOT 精选· aihot-apiZH21:16 · 06·02
Claude Code支持动态工作流,可并行协调多个子代理执行任务
Claude Code 新增了动态工作流,核心是让它在运行时执行 JavaScript 文件,按需创建并协调多个子代理(subagent)。每个子代理有自己的上下文窗口,互不干扰,可以同时跑研究、安全分析和代码审查这些任务。官方举的例子是让一个子代理查漏洞、另一个审代码逻辑,主代理最后汇总结果。正文没披露子代理数量上限和额外费用怎么算,这点先别太激动。
#Agent#Code#Tools#Anthropic
精选理由
HKR 三项全中:Claude Code 用运行时 JS 编排带独立上下文的子代理,这是个实打实的新功能。Anthropic 的品牌有加分,但这次是功能更新而非模型或平台级发布,所以分数落在 78–84 区间。正文没提具体性能数据和价格变化,这点先别太激动。
一句话点评
Claude Code 现在能自己拆任务、派给多个子代理并行干活了,但官方没给性能对比数据,实际提速多少还得自己测。
锐评
Anthropic 给 Claude Code 加了个动态工作流能力,简单说就是模型接到一个复杂任务后,不再一条路走到黑,而是先分析任务结构,自动拆成几个子任务,然后同时启动多个子代理去并行执行。这比之前靠人写死流程或让模型一步步串行做要灵活得多。 官方博客把这个机制比喻成“给每个任务定制一套马具”,意思是工作流不是预设模板,而是根据任务现场生成的。但正文没披露任何基准测试数据,比如并行后到底省了多少时间、token 消耗是增是减、子代理之间的协调失败率有多高。这些数字直接决定这个功能是真实用还是看着酷。 另外,博客也没说子代理之间怎么通信、共享上下文,以及出错时怎么回滚。对开发者来说,这些实现细节比概念重要。建议等社区跑出实测数据再判断是否值得切过去。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
19:57
16d ago
● P1FT · 科技· rssEN19:57 · 06·02
特朗普签署AI行政令要求模型上线前接受政府审查
特朗普签署了一项力度被削弱的 AI 审查行政令,核心是让美国政府机构能提前拿到前沿 AI 模型进行安全评估。不过正文没披露具体的审查标准、覆盖多少模型,也没给执行时间表。这事是在 MAGA 内部吵了一架之后才落地的,所以最终版本比最初设想的要温和。
#Safety#Trump#US government#Policy
精选理由
FT 报了一条美国 AI 审查令,核心是让政府提前看前沿模型。我会先打个折:正文只说了“能提前接触”,没给审查标准、模型数量和落地时间,所以信息量有限。但“缩水版”和 Maga 内斗这两个点让政策故事有了冲突感,对从业者来说,政府提前介入意味着合规和发布节奏可能被卡,这点先别太激动,等具体细则出来再看。
一句话点评
特朗普签了份缩水版AI审查令,公司可自愿在模型上线前30天提交给政府做安全评估,不交也没事。起因是Anthropic的模型自己找出了几千个系统漏洞,把安全问题摆上了台面。
锐评
这份行政令说白了就是给AI公司开了个“自愿体检”通道,不是强制审批。和之前被拦下的版本比,最大的变化是把提交窗口从最长90天砍到了最多30天,监管力度明显打折。文件里特意写明“不构成准入许可”,算是给行业吃了定心丸,也符合特朗普政府一贯的宽松思路。 政策转向的直接导火索是Anthropic今年4月推出的模型Mythos,它自己扫出了数千个高危系统漏洞,覆盖主流操作系统和浏览器。这个事让一贯淡化AI安全风险的白宫不得不做出回应。谷歌、微软和xAI已经同意在模型上线前让政府机构做安全核验,但整个机制目前全靠企业自觉。 正文没披露如果企业不提交会有什么后果,也没说政府评估完发现问题后能做什么。行业机构已经在呼吁国会立法把这事变成强制要求,说明现在的自愿框架更像是一个表态,离真正管住还有距离。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
19:00
16d ago
● P1NVIDIA 博客· rssEN19:00 · 06·02
NVIDIA与Microsoft发布统一Agentic AI部署技术栈
微软 Build 大会上,两家宣布把 AI 部署的底层打通了。简单说,就是同一个 AI 应用,既能在你笔记本的 RTX 显卡上跑,也能无缝切到 Azure 云或者公司本地的 DGX 工作站上,不用重写代码。现场还亮了两款新硬件:RTX Spark 是个小盒子,能提供 1 petaflop 的 AI 算力(大概相当于每秒一千万亿次计算);DGX Stat...
#Agent#Inference-opt#Safety#NVIDIA
精选理由
HKR 三项都过了。NVIDIA 和微软这次合作,把 agent 部署从 Windows 到 Azure 再到本地串成一条线,还亮出了 1 petaflop 和 20 petaflops FP4 两个硬件规格,对从业者来说有信息增量。不过消息源是厂商自己,正文没给定价、跑分和迁移细节,所以分数没往上拉。
一句话点评
NVIDIA 和微软联手搞了一套统一技术栈,让同一个 AI 智能体能在 Windows 电脑、云端和本地 DGX Spark 上跑,不用重写代码。
锐评
这条消息的核心是“一次开发,到处部署”。NVIDIA 和微软把各自的家底拼在一起:微软提供 Windows 上的 AI 运行时和开发工具,NVIDIA 提供从 RTX 显卡到 DGX Spark 小主机的本地算力。对开发者来说,最直接的好处是省事——不用为不同环境维护三套代码。 但正文没给出具体的性能对比数据,比如同一个智能体在云端和本地跑,延迟差多少、功耗如何。也没说这套统一栈对模型格式有什么限制,是不是只支持 NVIDIA 自家优化的模型。 另外,本地跑智能体的安全更新被单独拎出来说,说明他们知道企业用户最担心数据泄露和权限失控。不过具体的安全机制(沙箱隔离、权限粒度)正文只提了概念,没展开。这点先别太激动,等后续的技术白皮书出来再看实际落地到什么程度。
HKR 分解
hook knowledge resonance
打开信源
91
SCORE
H1·K1·R1
18:19
16d ago
● P1Hacker News 首页· rssEN18:19 · 06·02
Microsoft 发布 Scout 自主 AI Agent 基于 OpenClaw 框架
微软在 Build 大会上推出了 Scout,一个基于 OpenClaw 框架的“自动驾驶”式 AI 代理。它拥有独立的 Entra 身份,可以全天候自动执行 Microsoft 365 里的任务,比如处理邮件、安排会议、整理文档。正文没有披露 Scout 的具体能力边界、发布时间、定价或部署条件,所以目前只能知道它是个“一直在线、替你干活”的代理,但...
#Agent#Microsoft#OpenClaw#Product update
精选理由
HKR-H 和 HKR-R 靠微软 Agent/OpenClaw 平台钩子通过,但 HKR-K 不通过——RSS 正文没给任何功能、时间线或部署条件。分数卡在 60–71 低段合理。
一句话点评
微软把年初爆火的开源项目 OpenClaw 包装成了 M365 里的个人助手 Scout,让它能记住你的工作习惯并持续干活。
锐评
微软这次动作很快,直接把 OpenClaw 这个年初在圈内炸开的自主 agent 框架做成了产品。Scout 的核心卖点是“持久化”——它会记住你的工作偏好和反馈,慢慢变成你的专属助手,而不是每次对话都从零开始。从 VP 的表述看,微软想让它融入 M365 生态,在办公场景里自动处理任务。 不过文章只提了概念和一次 demo 体验,没给任何性能数据、错误率或者实际能自动完成哪些具体工作。OpenClaw 当初火是因为它够野、够开放,但也出过乱搞用户邮箱的事故。微软把它收进企业套件里,安全边界和权限控制怎么做,正文完全没提。这点先别太激动,等看到它能稳定处理报销单或者排日程而不翻车,再判断它是不是真有用。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K0·R1
18:12
16d ago
● P1The Verge · AI· rssEN18:12 · 06·02
Microsoft发布首个高级推理AI模型MAI-Thinking-1
微软在 Build 2026 上推出了 MAI-Thinking-1,这是他们第一个自研的“高级推理”模型,定位为中等体量的旗舰。公司声称它在几项关键的软件工程基准测试上能打平顶尖模型,并且是从头用干净数据训练的,没有拿第三方模型做蒸馏。不过,具体参数量、推理成本、延迟和更多基准细节正文都没披露,所以实际水平还得等第三方跑分再看。
#Reasoning#Code#Benchmarking#Microsoft
精选理由
这条消息我会给 84 分,放在 featured 里。微软终于亮出自己的推理牌,MAI-Thinking-1 这个名字和“中型旗舰”的定位本身就值得从业者看一眼。文章说它在关键软件工程基准上匹配了领先模型,但没给具体分数、没提访问权限,也没说价格,所以先别太激动——有 benchmark 声明但缺数据,验证不了。HKR 三项全中:微软 vs OpenAI 的戏码有热度,模型名和基准声明够具体,推理+代码这个组合也戳中一线需求。信息缺口明显,所以分数没往上拉。
一句话点评
微软发了自家第一个推理模型 MAI-Thinking-1,还附了109页技术报告,没拿别家模型蒸馏,这点挺硬气。
锐评
微软在 Build 大会上正式推出了 MAI 系列模型,其中 MAI-Thinking-1 是他们的首款高级推理模型。最值得关注的是,微软发了一份 109 页的技术报告,明确说这个模型在训练时没有用任何合成数据,也没从第三方模型(比如 GPT 或 Gemini)那里做蒸馏,数据血缘很干净。这对于一个成立才两年的团队来说,是个挺实在的交代。 模型本身定位在推理和软件工程任务上,同时发布的还有代码、图像、语音等另外六个模型,看得出微软想快速铺开一个自有模型矩阵。不过,目前公开的信息主要来自微软官方和社交媒体的正面反馈,缺少独立的第三方基准测试对比。报告里写了什么训练技巧、具体成本多少、推理延迟如何,这些关键细节正文都没展开。 如果报告里的数据经得起推敲,那微软在“不靠蒸馏做推理模型”这件事上确实往前走了一步。但实际能力能不能对标现在市面上的头部推理模型,还得等更多人跑完测试再说。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
18:00
16d ago
● P1FT · 科技· rssEN18:00 · 06·02
微软发布新AI模型直接对标Anthropic
微软发布新模型,目标直指 Anthropic。AI 负责人 Mustafa Suleyman 说重点是企业用户。但正文被付费墙挡住,没披露模型名称、参数量、定价和发布时间,信息缺口很大。
#Microsoft#Anthropic#Mustafa Suleyman#Product update
精选理由
FT 来源和微软 vs Anthropic 的竞争角度支撑 HKR-H 和 HKR-R。HKR-K 不成立,因为模型名称、规格和时间都没披露,所以这条不上精选。
一句话点评
微软嫌 Anthropic 模型太贵,自己下场做平替,但新模型具体性能和成本数字都没公布,先别太激动。
锐评
微软 AI 负责人直接点名 Anthropic 的模型太贵,所以他们正在自研更便宜的替代品。这个动作很直白:与其一直给别家模型付高额调用费,不如自己做一个成本更低的,用在自家产品里。 不过,目前公开信息里没有给出新模型的具体跑分、参数量,也没有对比 Anthropic 模型到底便宜了多少。FT 的原文被付费墙挡住,我们只能看到标题和摘要,核心的性能和定价细节都看不到。 对从业者来说,这事的信号意义大于实际参考价值。它说明大厂在加速摆脱对单一外部模型供应商的依赖,但微软这个“平替”到底能不能打,还得等具体技术报告和定价出来再看。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K0·R1
17:44
16d ago
● P1Hacker News 首页· rssEN17:44 · 06·02
Anthropic 将 Claude Mythos 部署至 15 国关键基础设施
Anthropic 周二宣布,把它的安全漏洞发现项目 Project Glasswing 和背后的模型 Mythos 扩展到 15 个以上国家、约 150 家机构,覆盖电力、水务、医疗和通信这些一旦被攻击就可能影响上亿人的关键领域。这是 Mythos 首次大规模进入国家级基础设施,但文章没披露具体是哪些客户、模型怎么部署、收费方式、上线时间表,也没提安...
#Anthropic#Product update
精选理由
Anthropic 把 Claude Mythos 铺到了 15 个国家的关键基础设施里,这个动作本身信号很强,但正文只给了国家和“关键基础设施”这个笼统说法,没列具体行业、客户、模型参数,也没提安全机制怎么跟上的。我会先打个折:部署规模是实打实的新闻,可信息缺口太大,没法判断是电网调度还是客服系统在用。基于现有披露,重要性给到 75 是合理的,先 featured 出来,等后续细节再调整。
一句话点评
Anthropic 把自家安全模型 Claude Mythos 塞进了 15 国的电网、医院和通信系统,但正文没披露实际部署效果和误报率,这点先别太激动。
锐评
Anthropic 把 Claude Mythos 这个专门找代码漏洞的模型,连同它的“玻璃翼计划”,推给了 15 个国家约 150 家关键基础设施机构,覆盖电力、水务、医疗和通信。按他们的说法,这些地方一旦被黑,可能影响上亿人。这不再是实验室里的攻防演练,而是直接让 AI 进到现实世界的命脉系统里干活。 不过,文章只说了扩张的规模和涉及的行业,没给出任何具体的性能数据。比如 Mythos 在这些真实的老旧工业系统里,漏洞检出率是多少,会不会频繁把正常配置标成高危,这些关键指标全是空白。而且,把 AI 嵌进这么敏感的系统,一旦模型本身出问题或者被对抗样本攻击,后果比漏报几个漏洞严重得多。 目前看,这更像是一次大规模的公测部署公告。要判断它到底靠不靠谱,还得等这些合作方后续会不会公开分享实际使用中的准确率和事故记录。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
17:00
16d ago
● P1彭博科技· rssEN17:00 · 06·02
Uber 限制员工 AI 工具使用以控制成本
Uber 开始限制员工在 Claude Code 这类 AI 编程工具上的开销。公司今年早些时候 AI 预算就超支了,所以现在直接设了使用上限。具体上限是多少、哪些团队受影响、总预算是多少,正文都没披露。
#Code#Tools#Uber#Claude Code
精选理由
这条消息好读,因为讲的是大公司用 AI 工具用到超预算,不得不踩刹车。Uber 设上限这个动作本身就是一个信号:编程助手类产品在企业里推,成本不是小数目。正文没给预算数字、上限规则和受影响人数,所以我会先打个折,不往大了吹。但对企业采购和工具定价的人来说,这个案例比很多技术评测更直接——它告诉你,就算工具好用,财务那边也会喊停。
一句话点评
Uber 给员工用 AI 编程工具设了每月 1500 美元上限,因为预算四个月就花光了。这个数字本身比工具好坏更值得看,它直接标出了大公司愿意为单人 AI 辅助付多少钱。
锐评
Uber 不是不让用 AI,是花太快了。内部预算四个月就见底,于是给每人每月设了 1500 美元的上限,主要针对 Claude Code 这类 AI 编程助手。这个动作比任何定价分析都实在——它直接亮出了一家大型科技公司对单人 AI 工具成本的容忍线。1500 美元一个月,放在工程师薪资里不算高,但要是全公司几千人都在用,账单就很吓人了。 目前报道没披露 Uber 内部到底有多少人在用、用的频率多高,也没说这个上限是硬封顶还是超额要审批。另外,这个数字只反映 Uber 一家的账,不代表行业均价。其他公司如果效仿,AI 工具厂商的定价策略可能会被这条线锚定。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
16:22
16d ago
● P1AI HOT 精选· aihot-apiZH16:22 · 06·02
OpenAI Codex 推出 Sites 功能,可将想法转化为交互式网页
Codex 现在可以把你的工作内容、想法和计划直接转成一个交互式网站或应用,团队通过一个链接就能打开、使用和分享。这个功能会先推给 Business 和 Enterprise 用户,正文没提价格,也没说什么时候开放给其他套餐。
#Agent#Code#Tools#OpenAI
精选理由
我会先打个折:正文没披露定价、权限边界,也没给实际效果案例,所以别急着把它当成成熟的生产力工具。但 Codex 从写代码延伸到直接出可交互站点,这个方向本身挺省钱——省掉了从代码到可演示原型中间的那一步。对企业和团队用户来说,一个 URL 就能让非技术人员上手试用,协作摩擦会小很多。这点先别太激动,等看到具体质量表现和计费方式再说。
一句话点评
OpenAI 给 Codex 加了个“一键生成网页”的功能,但只给企业版用,个人用户还摸不着。
锐评
OpenAI 在 Codex 里塞进了一个叫 Sites 的功能,简单说就是让 AI 直接把你的想法、表格或者文档变成一个可以点来点去的网页应用,比如项目看板、情景规划器。这比之前光给代码前进了一大步,直接省掉了部署和上线的环节,通过链接就能分享给团队。 目前这个功能还是预览版,只对 Business 和 Enterprise 订阅用户开放。IT 之家的报道主要复述了官方博文,没提生成页面的代码质量、复杂交互的完成度,也没给任何用户实测案例。所以“将想法转化为交互式网站”这个说法,上限和下限差距很大——生成一个能看的仪表盘和生成一个能跑业务逻辑的工具,完全是两码事。 还缺几个关键信息:生成一个站点要等多久,能不能手动改代码,以及免费版和 Plus 用户什么时候能用上。如果这些都不清楚,现在只能说它给企业用户多了一个快速出原型的路子,但离“构建应用从未如此简单”还差很多验证。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
16:00
16d ago
● P1TechCrunch AI· rssEN16:00 · 06·02
OpenAI Codex 推出数据分析、创意、销售等六个岗位专用插件
OpenAI 给 Codex 应用上线了六个新插件,分别瞄准数据分析、创意产出、销售、产品设计、股票投资和投行业务。每个插件都打包了工具集成、操作指令和上下文,让 Codex 能模拟特定岗位的工作流。正文没提定价和开放范围,我会先打个折——没看到实际跑通的效果和成本之前,别急着把它当正式员工用。
#Agent#Code#Tools#OpenAI
精选理由
OpenAI 把 Codex 从程序员工具扩成白领插件包,六个方向覆盖了数据、创意、销售、产品、股票和投行,动作不小。但正文没提定价、实际效果和推送范围,所以我会先打个折,把它放在中等权重的产品更新档。
一句话点评
OpenAI Codex 开始打包岗位专用插件,直接瞄准白领工作流,但正文没给具体功能细节和定价。
锐评
OpenAI 这次把 Codex 拆成了六个岗位插件,覆盖数据分析、创意、销售等场景,思路很直白:不让用户自己琢磨怎么用模型,而是把模型塞进现成的岗位流程里。TechCrunch 的标题点出了“白领工作”这个靶心,但正文是空的,我们只能从标题和事件标题推断方向。 目前能确认的是,这不再是通用编程助手,而是按角色切分的工具包。好处是上手门槛低,坏处是灵活度可能打折。关键信息全缺:每个插件具体能做什么、怎么收费、跟现有 Codex 或 ChatGPT 插件体系是什么关系、有没有客户案例或效果数据。这些没公布之前,先别把它当成成熟的岗位替代方案,更像是一次产品打包实验。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
13:29
16d ago
● P1Ben's Bites· rssEN13:29 · 06·02
Claude Opus 4.8 发布,Claude Code 学会写脚本派子任务并行干活
Anthropic 发了新模型 Claude Opus 4.8,主要卖点是 Claude Code 现在能先写一个调度脚本,再同时拉起多个子代理并行处理复杂任务。不过有开发者提醒,这并不证明松散的 multi-agent 架构靠谱,反而是围绕小代理循环的确定性工作流更稳。模型本身被 Simon Willison 评价为“温和但有用的升级”,更诚实、更少...
#Agent#Code#Benchmarking#Anthropic
精选理由
HKR 三项都成立,因为这是一次有实质内容的 Anthropic/Claude 发布和 Claude Code 代理更新。文章没给基准测试、定价和上下文窗口数据,所以分数压在 85–94 这个区间。
一句话点评
Opus 4.8 在 Claude Code 里能写脚本并行派活给子代理了,但别急着吹多智能体架构,确定性工作流更稳。
锐评
Anthropic 发了 Claude Opus 4.8,核心卖点是 Claude Code 现在能先写一个调度脚本,再同时拉起多个子代理并行干活。这听起来像多智能体协作,但有开发者直接泼冷水:松散的 multi-agent 架构并不靠谱,反而是围绕小代理循环的确定性工作流更稳。模型本身被评价为“温和但有用的升级”,主要进步是更诚实,对自己代码里的缺陷没那么瞎。Every 的体感更积极,认为比 4.7 跳了一大步,在内部高级工程师基准上能和 GPT-5.5 掰手腕。但有个硬伤:Claude 的应用端体验还是比 Codex 乱。 跑分方面,它在 ARC-AGI-3 上拿了第一,分数是 GPT-5.5 的三倍,但 Datacurve 的新基准又把它排在 GPT-5.5 下面,只比 5.4 好一丢丢,而且消耗的 token 多得多,成本更高。这种基准打架的情况说明,模型强不强很看你测什么任务。另外,Anthropic 同时提交了机密 S-1 文件,并完成了 650 亿美元 H 轮融资,投后估值 9650 亿,今年很可能 IPO。 这条新闻缺的是 Opus 4.8 在真实生产环境里的延迟和成本数据,以及那个并行子代理功能在复杂项目里的失败率。基准分数看看就好,别急着下结论。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1

更多

频道

后台