ax@ax-radar:~/feed $ tail -f signal.log
40 srcsignal 12%cycle 04:32

热点聚合 · 2026-05-20

45 signals · updated 3m ago
live · 238 today·policy v2
AI HOT 精选OpenAI 上市前连挖两人:Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户,医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线,App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI,但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench:由博士科学家出题、审题,专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus,它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史:你以为的石破天惊,其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型,用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗?Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人:Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户,医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线,App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI,但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench:由博士科学家出题、审题,专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus,它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史:你以为的石破天惊,其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型,用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗?Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人:Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户,医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线,App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI,但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench:由博士科学家出题、审题,专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus,它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史:你以为的石破天惊,其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型,用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗?Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·
RSS live
2026-05-20 · 星期三2026年5月20日
21:54
29d ago
● P1彭博科技· rssEN21:54 · 05·20
Anthropic与SpaceX达成450亿美元三年算力采购协议
根据一份证券文件,Anthropic 跟马斯克的 SpaceX 签了份大单:未来三年支付差不多 450 亿美元,换取计算资源来支撑它的 Claude 模型。这笔钱摊下来每年约 150 亿美元,说明头部 AI 公司抢算力的成本已经拉到天文数字级别。不过正文被 Bloomberg 的机器人验证挡住了,具体是租 GPU 还是包数据中心、交付节奏和退出条款都没披露。
#Inference-opt#Anthropic#SpaceX#Elon Musk
精选理由
我会先打个折:450 亿美元是三年总承诺,不是一次性付款,但数字大到足以让任何 AI 公司重新算账。Anthropic 把算力押在 SpaceX 身上,说明它不想只靠 AWS 或 Google Cloud,分散供应商是明牌。不过正文没披露具体算力规格、交付时间表,也没说 SpaceX 的算力基础设施到底建到什么程度,这点先别太激动。Bloomberg 拿证券文件报出来,可信度比 PR 稿高,值得写。
一句话点评
Anthropic 三年要付给 SpaceX 近 450 亿美元买算力,年均 150 亿,这个数字比它自己的年收入还高,先别太激动,正文没披露具体 GPU 数量和交付节奏。
锐评
这条消息的核心就一个数字:三年 450 亿美元,折合每年 150 亿。放在 AI 行业里,这个采购规模是顶级的,说明 Anthropic 对算力的需求还在急剧膨胀,而且愿意把筹码押在马斯克的体系上。但 Bloomberg 原文被付费墙挡住,我们只能看到标题,正文没披露合同细节——比如用的是 SpaceX 自研芯片还是英伟达 GPU、算力以什么单位计价、交付时间表是什么。这些信息直接决定这笔交易是“真省钱”还是“溢价锁资源”。另外,Anthropic 目前的年收入大概在几十亿美元量级,一年光算力就花 150 亿,资金缺口怎么补、是不是靠新一轮融资撑着,正文也没提。我会先打个折:450 亿是合同上限还是固定承诺,这个区别很大。如果是真的,对 OpenAI 和 Google 的算力竞争格局会有直接冲击,但眼下缺的细节太多,只能当个信号看。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
21:29
29d ago
● P1TechCrunch AI· rssEN21:29 · 05·20
Anthropic 每月要付给 xAI 12.5 亿美元买算力
Anthropic 租下了 xAI 在孟菲斯 Colossus 1 数据中心的全部算力,每月账单 12.5 亿美元,合同签到 2029 年 5 月。头两个月有折扣,因为 xAI 那边还在爬坡。这笔钱来自 SpaceX 的上市文件,xAI 自己说这是在把闲置算力变现。说白了,Grok 用户量最近掉得厉害,服务器空出来了,正好租给竞争对手回血。不过正文没披...
#Inference-opt#Anthropic#xAI#Elon Musk
精选理由
TechCrunch 爆出 Anthropic 每月要给 xAI 付 12.5 亿美元买算力,对手方和价格都挺意外。正文只给了金额,没写买了多少卡、签了多久、跑在什么环境里,所以信息缺口不小。我会先打个折:金额够大,但缺关键细节,没法给到 90 分以上。
一句话点评
Anthropic 每月付 12.5 亿美元包下 xAI 整个数据中心,合同签到 2029 年。这笔钱来自 SpaceX 上市文件,但正文没披露具体算力规模和部署条件,先别急着算性价比。
锐评
Anthropic 租下了 xAI 在孟菲斯 Colossus 1 数据中心的全部算力,每月账单 12.5 亿美元,合同签到 2029 年 5 月。头两个月有折扣,因为 xAI 那边还在爬坡。这笔钱来自 SpaceX 的上市文件,xAI 自己说这是在把闲置算力变现。说白了,Grok 用户量最近掉得厉害,服务器空出来了,正好租给竞争对手回血。不过正文没披露具体有多少张 GPU、什么型号,也没说这 300 兆瓦的电力对应多少浮点运算能力。12.5 亿一个月的数字看着吓人,但不知道单位算力成本就没法判断是贵了还是便宜了。另外,Anthropic 拿这批算力是训练还是推理也没交代,两种场景对硬件要求差别很大。合同细节比如中途退出条款、算力交付标准也都没提,这些缺口让这笔交易的含金量暂时只能打个问号。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
21:12
29d ago
● P1彭博科技· rssEN21:12 · 05·20
Anthropic营收增长加速,预计迎来首个盈利季度
彭博这条消息说 Anthropic 正朝着公司第一个盈利的季度迈进,主要驱动力是市场对它的 AI 软件需求猛涨。不过正文被付费墙挡了,没披露具体收入规模、利润区间,也没说是哪个季度。我会先打个折:盈利趋势是真的,但数字和细节都看不到,这点先别太激动。
#Anthropic#Funding
精选理由
我会先打个折:正文没给具体数字,营收多少、利润多少、哪个季度都不清楚,所以这条消息更像一个方向性信号,不是实锤。但 Bloomberg 的报道本身有信息量——Anthropic 靠卖 AI 软件把营收拉起来了,可能第一次不亏钱。这对一直烧钱的 AI 实验室来说是个转折点,从业者会盯着后续财报验证。
一句话点评
Anthropic跟投资人说自己下季度营收要翻倍到109亿美元,并且首次实现运营盈利。但别急着开香槟,后面算力账单太大,全年不一定能守住盈利。
锐评
Anthropic预计在2026年第二季度营收达到约109亿美元,比上一季度翻了一倍多,并且会首次出现运营利润。这个数字来自它发给投资人的融资材料,由华尔街日报先报出来,TechCrunch等媒体跟进。翻倍增长确实猛,说明Claude在专业用户里的口碑转化成了真金白银,公司也在推小企业服务和律所工具来分散客户群。 但这条消息有两个地方要打折。第一,盈利只是“运营利润”,不是净利润,而且公司自己预警说后面几个季度会因为巨大的算力支出重新掉回亏损。第二,所有数据都是Anthropic单方面给投资人的说法,没有经过审计,公司也拒绝公开评论。同一天OpenAI传出要在九月IPO,这个时间点放盈利消息,多少有点给竞争对手上眼药的意思。 还缺什么?我们看不到成本结构,不知道这109亿营收里推理成本、模型训练成本各吃掉多少,也不知道客户留存率和企业合同的具体条款。没有这些,单季运营盈利更像一个融资节点上的里程碑,而不是商业模式已经跑通的铁证。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
20:55
29d ago
● P1彭博科技· rssEN20:55 · 05·20
SpaceX 2025年资本开支207亿美元用于AI和航天器
SpaceX 在 2025 年花了 207 亿美元,主要用于 AI 和航天器。这个数字比很多国家一年的科技预算都高,说明马斯克在同时押注两条线:一边用 AI 优化火箭发射和卫星网络,一边加速星舰等航天器量产。正文没披露具体哪些 AI 项目在烧钱,也没说 IPO 时间表,所以这点先别太激动——钱花得多不等于马上上市。
#SpaceX#Funding
精选理由
HKR 的 H 和 K 靠体量和具体数字 207 亿美元通过,但 R 弱,因为 AI 关联缺少项目、算力和融资细节。落在 60–71 区间。
一句话点评
SpaceX 上市文件显示 2025 年资本开支 207 亿美元,AI 和航天器是两大烧钱方向,但没拆开各自占多少。
锐评
SpaceX 在 IPO 文件里把 2025 年的资本开支定在 207 亿美元,主要投向 AI 和航天器。这个数字本身很大,但正文没披露 AI 和航天器各自分到多少预算,也没说 AI 这部分是给 Starlink 做网络优化,还是跟 xAI 有算力上的往来。xAI 去年亏了 64 亿美元,SpaceX 这边又在大笔投 AI,钱是不是在两家公司之间流转、怎么流转,文件里看不出来。对想判断 SpaceX 估值的人来说,缺的就是这笔 AI 投入到底能换来什么——是自用降本,还是对外卖算力,目前都只能猜。
HKR 分解
hook knowledge resonance
打开信源
94
SCORE
H1·K1·R0
20:49
29d ago
● P1彭博科技· rssEN20:49 · 05·20
英伟达公布一季度财报 每股收益超预期营收指引910亿
英伟达刚发了 2026 财年第一季度的财报,每股收益 1.87 美元,比华尔街预期的 1.77 美元高出一截。公司对截至 7 月的当季营收指引是 910 亿美元,也明显高于市场预估的 874 亿左右。这条视频本身是彭博的报道片段,正文没披露各业务线的具体表现和毛利率细节,所以没法判断增长是数据中心业务继续拉动的,还是有别的板块在补位。
#Inference-opt#Nvidia#Bloomberg#Wedbush Securities
精选理由
Nvidia 财报是观察 AI 基础设施热度的关键节点,910 亿的指引给 HKR 三项都提供了实打实的信号。这不是模型或功能发布,所以放在 featured 档位没问题,信息质量够硬。
一句话点评
英伟达一季度每股收益超预期,下季营收指引给到910亿美元,但正文没披露具体利润数字和增长结构,先别急着算估值。
锐评
英伟达这份一季报,目前能确认的是两个点:每股收益比市场预期好,以及公司自己对下个季度的营收指引是910亿美元。这个910亿的数字挺关键,它直接反映了英伟达对接下来芯片需求的判断,尤其是数据中心业务能不能继续猛跑。 不过,现在能看到的信息来自一段视频报道,正文里没有给出本季度的具体营收、净利润、毛利率,也没提各业务线的增速。这就意味着我们没法判断超预期是靠主业拉动,还是有一次性收益。另外,910亿的指引是公司自己给的,市场原本的预期是多少、差距有多大,报道里也没说。 对从业者来说,这份财报最大的信号是需求端还没踩刹车,但缺了成本结构、库存水平和客户集中度的数据,还看不清这轮增长的安全边际有多厚。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
20:25
29d ago
● P1AI HOT 精选· aihot-apiZH20:25 · 05·20
英伟达2027财年Q1净利润583亿美元同比增长211%
英伟达 2027 财年第一财季(截止到 2026 年 4 月 26 日)总收入 816.15 亿美元,净利润 583.21 亿美元,同比直接翻了两倍多。增长主要靠数据中心业务,单这一块就进账 752 亿美元,同比涨了 92%。毛利率也拉到了 75% 左右,比去年同期高了 14 个百分点。公司预计下个季度收入能到 910 亿美元,上下浮动 2%。另外,董...
#Inference-opt#Nvidia#Product update
精选理由
英伟达这份财报就是AI基础设施景气度的温度计。数据中心752亿美元的收入说明大厂还在疯狂囤卡,211%的利润增速比很多AI公司的营收涨得还快。我会先打个折:这是财务数据,不是新模型或新功能发布,所以重要性停在82分。但数字本身已经足够让关注算力成本和供应链的人必须看一眼。
一句话点评
英伟达一个季度净赚583亿美元,同比涨了211%,但股价反而跌了2%,说明市场对它的预期已经高到离谱。
锐评
英伟达这个季度的财报数字确实夸张。总收入816亿美元,其中数据中心业务就占了752亿,同比涨了92%,基本是靠卖AI芯片撑起来的。净利润583亿,比去年同期翻了两倍多,毛利率也提到了75%左右,赚钱效率很高。公司还一口气批了800亿美元的回购计划,股息也涨了25倍,回馈股东的手笔很大。 但有个细节值得注意:下季度营收指引是910亿,只比这季度多了不到100亿,增速在放缓。而且财报这么好,股价反而跌了2%,说明市场之前已经把预期打得太满,现在看到增长没超预期就开始犹豫了。 正文没提具体是哪款芯片卖得最好,也没说竞争对手的情况。如果想知道这波增长还能撑多久,还得看后续大客户的订单是不是在减少,以及有没有更便宜的替代方案冒出来。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
17:21
29d ago
● P1FT · 科技· rssEN17:21 · 05·20
OpenAI 准备最快九月提交 IPO 申请
FT 这篇报道的正文被付费墙和安全验证挡住了,只拿到了标题和摘要。已知信息是:OpenAI 正在准备 IPO 文件,最快今年 9 月挂牌,目标估值冲到 1 万亿美元。承销商名单里有高盛、摩根士丹利和 Cooley 律所。但具体的发行条款、上市交易所、财务数据这些关键信息,正文没披露——或者说我们拿不到。1 万亿这个数字我先打个折看,毕竟现在连 S-1 ...
#OpenAI#Goldman Sachs#Morgan Stanley#Funding
精选理由
我会先打个折:1 万亿估值目标听着很吓人,但正文没披露这个数字是怎么算出来的,也没说收入、利润或用户增长的具体支撑,这点先别太激动。不过,FT 的报道把时间点、承销商和律所都点出来了,信息颗粒度够细,不是捕风捉影。一家基础模型公司走到 IPO 提交这一步,本身就是行业顶格的信号,所以重要性给到 95 没问题。
一句话点评
OpenAI 最快本周提交 IPO 申请,目标九月上市。赢了马斯克的官司后,它立刻把战场转向了华尔街。
锐评
OpenAI 准备上市了,时间点卡得很紧。在马斯克输掉那场威胁公司架构和融资的官司后第二天,消息就放出来了,目标是最快九月挂牌。据华尔街日报的消息源,它已经在跟高盛和摩根士丹利合作,可能几天或几周内就会秘密提交招股书。 这个节奏说明 OpenAI 想趁热打铁,把法律上的胜利直接转化成资本市场的信心。但报道里没提任何财务数据,比如营收、亏损、用户增速,这些才是决定它是不是“重磅 IPO”的关键。另外,SpaceX 的招股书也快公开了,两家公司会在融资能力上直接竞争,这比打官司更考验 Sam Altman。 现在最缺的信息是 OpenAI 的盈利模型到底长什么样。烧钱换规模的故事在 2026 年还能不能讲通,得等招股书出来才知道。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
15:45
29d ago
● P1Hacker News 首页· rssEN15:45 · 05·20
字节跳动开源Lance:用单个模型实现图像视频理解与生成编辑
Lance 是字节跳动放出的一个多模态研究项目,把看图、看视频、生成图片、生成视频和编辑这些事塞进了同一个模型里。模型激活参数只有 3B,个头不大,训练用了不到 128 张 GPU,对想复现或微调的人来说门槛不算高。代码、论文和模型权重都公开了,但项目页没写具体的 benchmark 跑分和商用许可条款,这点先别太激动,得自己去翻论文和 HF 页面确认。
#Multimodal#Vision#ByteDance#Lance
精选理由
字节跳动的 Lance 把图像和视频的生成、理解塞进一个模型,激活参数 3B,训练用了不到 128 块 GPU。我会先打个折:正文没披露 benchmark 成绩、没放真实生成样本,授权协议也没说清楚,所以现在只能当研究发布看,别急着对标成熟产品。但单模型覆盖多模态这个方向,对想省部署成本的小团队确实有吸引力。
一句话点评
字节开源了一个3B参数的模型Lance,能同时做图片和视频的理解、生成和编辑,但实际效果和限制正文没细说。
锐评
字节跳动把Lance放出来了,一个模型干三件事:看懂图片/视频、生成新内容、还能编辑。参数量只有3B,属于小模型,好处是本地跑得动,成本低。但正文主要是个GitHub仓库的导航页,没给技术报告、没给评测分数,也没说训练数据怎么来的。光看Star数(445)和Fork数(27),社区还在早期围观阶段。 “统一多模态”这个方向是对的,但小模型同时做理解和生成,通常会在某个任务上妥协——要么生成质量打折扣,要么理解不够细。这点先别太激动,等他们放出论文或demo再看。另外,仓库里Issues只有6个,Pull requests是0,说明外部贡献还没起来,代码成熟度待观察。 目前缺的关键信息:在标准测试集上和专用模型的对比、推理延迟、显存占用,以及生成内容的版权和安全性说明。如果这些不补上,暂时只能当个有趣的研究预览,不适合直接往产品里塞。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
03:49
29d ago
● P1机器之心 · 公众号· rssZH03:49 · 05·20
Google I/O 发布 Gemini 3.5 Flash,搜索框接入 AI 智能体
谷歌在 I/O 大会上发布了 Gemini 3.5 Flash,并把 AI 模式直接嵌进了搜索框。公司说现在它的 AI 服务每月要处理超过 3200 万亿个 token,已经有超过 850 万开发者在使用 Gemini。不过这篇文章因为微信平台的环境验证问题,正文内容没能加载出来,所以具体的模型参数、性能对比和实际体验细节都没法确认。
#Agent#Multimodal#Code#Google
精选理由
谷歌 I/O 这次把模型更新和搜索入口绑在一起推,AI Mode 直接嵌进搜索框,比普通功能发布重得多。Gemini 3.5 Flash 是新的轻量模型,月 token 消耗 3.2 千万亿说明用量已经很大,850 万开发者这个数字也够扎实。我会先打个折:正文没披露 3.5 Flash 的具体 benchmark 对比和定价,实际性价比还得等实测。但就凭搜索框变智能体这一条,当天必须写。
一句话点评
谷歌把搜索框变成了一个能看图、读文件、替你盯信息的AI助手,但后台智能体功能要付费订阅才能用。
锐评
这次改版把谷歌搜索从“输关键词找链接”直接推到了“让AI替你干活”的阶段。用户现在可以丢图片、视频甚至浏览器标签页进去提问,AI概览也支持连续追问,交互更像聊天。底层跑的是新发布的Gemini 3.5 Flash模型,谷歌说AI模式月活已经破了10亿,查询量每季度翻倍,这个增速说明用户对AI搜索的接受度很高。 比较激进的是“搜索智能体”,它能在后台24小时帮你盯房价、球鞋发售等信息,但正文明确写了,这个功能今年夏天只对Google AI Pro和Ultra付费用户开放。免费用户能拿到的“生成式界面”功能,可以生成交互图表来讲解复杂知识,这点倒是全员可用。 文章没提新版搜索的广告会怎么变,也没说AI生成的回答里引用来源的透明度如何。在搜索这种靠广告吃饭的业务上大改,商业影响和内容生态的冲击都还是未知数。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
02:00
30d ago
● P1AI HOT 精选· aihot-apiZH02:00 · 05·20
通义千问发布 Qwen3.7-Max,主打长时间自主干活和跨平台编程
Qwen 团队推出了 Qwen3.7-Max,一个专为智能体场景设计的闭源模型。它最显眼的能力是能长时间自主执行任务,官方演示了一个连续跑 35 小时、调用上千次工具的内核优化任务。在编程方面,它在 Terminal Bench 2.0 上拿了 69.7 分,超过了 DeepSeek-V4-Pro Max 的 67.9 分;在 SWE-Pro 这类复杂...
#Agent#Multimodal#Tools#Qwen Studio
精选理由
Qwen Studio 发了 Qwen3.7,一口气覆盖聊天、图像视频理解、图像生成、文档处理、网页搜索、工具调用和工件生成,摆明要往智能体方向走。我会先打个折:正文没给任何 benchmark、定价、上下文窗口或延迟数据,所以没法判断实际可用性和成本。亮点是工具调用和工件生成这两项,说明模型不只是聊天,而是被设计成能进业务流程干活。这点先别太激动,等看到具体评测和接入方式再说。
一句话点评
Qwen3.7-Max 在 Terminal Bench 2.0 上拿了 69.7 分,比 DeepSeek-V4-Pro Max 高 1.8 分,但正文没披露上下文长度、定价和 API 开放时间,这些先打问号。
锐评
Qwen3.7-Max 把自己定位成“智能体专用模型”,最抓眼球的证据是官方演示了一个连续跑 35 小时、调用上千次工具的内核优化任务。这个数字说明模型能在长时间自主执行中保持连贯推理,不是那种跑几步就断片的玩具。编程智能体方面,它在 Terminal Bench 2.0 上拿了 69.7 分,超过 DeepSeek-V4-Pro Max 的 67.9 分;SWE-Pro 这类复杂软件工程任务上 60.6 分,比对手高 1-2 分,属于小幅领先。通用智能体基准如 MCP-Mark 和 Skillbench 也都有 2-5 分的优势,但幅度不算碾压。 要注意的是,这篇博客是产品发布文,不是技术报告。正文没披露上下文长度上限、API 定价、具体开放时间,也没说明 35 小时任务是否可复现、有没有人工干预。所有基准测试用的都是内部脚手架或特定框架(如 Claude Code),跨框架泛化能力虽然提了,但没给量化对比。STEM 推理部分,GPQA Diamond 92.4 分、HLE 41.4 分确实高,但 CritPT 只有 11.4 分,说明模型在批判性推理这种需要挑错的任务上还有明显短板。 整体看,Qwen3.7-Max 在智能体场景上确实往前拱了一步,尤其是长程自主执行和跨框架兼容性。但缺少上下文长度、成本和可复现细节,让这些数字的实用参考价值打了折扣。等 API 上线后看实际延迟和费用,才能判断是不是真能进生产流程。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
00:00
30d ago
● P1OpenAI 博客· rssEN00:00 · 05·20
OpenAI 模型推翻了一个 80 年的离散几何猜想
OpenAI 发了一篇博文,说他们内部一个通用推理模型自己解决了一道叫“平面单位距离问题”的数学难题,推翻了大家信了几十年的主流猜想。这道题是 Erdős 在 1946 年提出的,简单说就是平面上放 n 个点,最多能有多少对点距离刚好是 1。之前学界普遍认为正方形网格那种摆法已经接近最优了,但这个模型给出了一族新构造,把单位距离对的数量往上提了一个多项...
#Reasoning#OpenAI#Research release
精选理由
我会先打个折:正文没披露模型名称、证明机制和可复现条件,所以没法给更高分。但 OpenAI 模型推翻 80 年几何猜想这件事本身够新、够具体,也够有争议性,HKR 三项全中,85 分放在 P1 合理。
一句话点评
OpenAI 一个通用推理模型自己推翻了 80 年的离散几何猜想,成本不到 1000 美元,但模型细节和训练数据都没说。
锐评
这条新闻最值得看的是:一个没专门为数学定制的通用推理模型,自己找到了反例,推翻了 Erdős 在 1946 年提出的平面单位距离问题猜想。之前学界普遍认为正方形网格的构造已经接近最优,模型却从代数数论里搬来了意想不到的工具,给出了一个多项式级别的改进。Tim Gowers 说如果这是人写的,他会毫不犹豫推荐顶刊接收,这个评价分量很重。 成本方面,Latent Space 提到整个过程花了不到 1000 美元,如果是真的挺省钱。但 OpenAI 官方正文没披露具体用了哪个模型、参数量多大、推理时用了多少算力,也没说训练数据里是否包含过相关数学文献。这点先别太激动——模型可能见过类似思路的论文,只是人类没把它们和这个猜想连起来。 还缺的关键信息:外部数学家验证的范围有多大,是完整验证了证明还是只检查了关键步骤;模型产生这个证明之前失败了多少次、有没有人类在循环里做筛选。这些会直接影响“自主解决”这个说法的含金量。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1

更多

频道

后台