ax@ax-radar:~/feed $ tail -f signal.log
40 srcsignal 12%cycle 04:32

热点聚合 · 2026-05-15

39 signals · updated 3m ago
live · 238 today·policy v2
AI HOT 精选OpenAI 上市前连挖两人:Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户,医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线,App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI,但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench:由博士科学家出题、审题,专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus,它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史:你以为的石破天惊,其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型,用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗?Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人:Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户,医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线,App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI,但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench:由博士科学家出题、审题,专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus,它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史:你以为的石破天惊,其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型,用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗?Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人:Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户,医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线,App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI,但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench:由博士科学家出题、审题,专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus,它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史:你以为的石破天惊,其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型,用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗?Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·
RSS live
2026-05-15 · 星期五2026年5月15日
22:38
34d ago
● P1Hacker News 首页· rssEN22:38 · 05·15
Orthrus-Qwen3模型推理速度提升至7.8倍
Orthrus 号称能让 Qwen3 模型一次前向传播多生成 7.8 倍的 token,而且输出分布和原始模型一模一样。这意味着推理速度可能大幅提升,但正文没披露具体用了什么机制,也没给基准测试条件和复现步骤。GitHub 和 Hacker News 链接里也没有更多细节。所以这点先别太激动,等看到可复现的 benchmark 再说。
#Inference-opt#Qwen#Orthrus-Qwen3#Open source
精选理由
标题的7.8倍和“输出分布相同”两个点都很抓人,但正文没披露具体机制、基准条件或复现步骤,信息缺口太大,没法直接信。先打个折,放在60–71分档,等更多细节出来再调。
一句话点评
Qwen3-8B 推理速度最高提到 7.8 倍,且输出分布数学上可证明不变,不是近似加速。
锐评
这个项目给 Qwen3-8B 装了一套叫“双视角扩散解码”的加速方案,不动原模型参数,直接把每次前向能处理的 token 数拉到原来的 7.8 倍。最硬的一点是它声称输出分布完全一致,不是那种牺牲精度换速度的近似方法。 目前信息全来自 GitHub 仓库和社区帖子,没看到论文或第三方基准测试。7.8 倍这个数字是在什么硬件、什么 batch size、什么序列长度下跑出来的,正文没披露。另外,方法是否只对 8B 这个尺寸有效、对长文本生成会不会掉速,也都还是未知数。 如果这个“无损加速”在更多模型和场景下能复现,推理成本会直接打骨折。但现阶段只能把它当一个很有潜力的开源实验,等更多验证出来再激动。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
17:56
34d ago
● P1AI HOT 精选· aihot-apiZH17:56 · 05·15
杨立昆播客访谈:LLM 走不远,他离开 Meta 去赌世界模型
杨立昆在 Unsupervised Learning 播客里把大语言模型的底牌翻了个遍。他直接说 LLM 这条路有天花板,劝博士生别再往里扎。他预测到 2027 年,纯靠堆语言数据做不出真正的智能。他离开 Meta 后创立的 AMI 公司,核心押注在“世界模型”上——让 AI 像人一样通过观察和互动去理解物理世界,而不是只读文本。访谈里他还跟老搭档 H...
#Reasoning#Robotics#Safety#Yann LeCun
精选理由
我会先打个折:这是播客访谈,不是论文或产品发布,信息密度高但验证性弱。杨立昆的核心判断是当前大语言模型路线走不到人类级 AI,他把宝押在世界模型和 AMI 上,还给了 2027 这个时间点——这点先别太激动,正文没披露他具体依据什么数据或实验得出这个年份。他离开 Meta 的原因和与 Hinton、Bengio 的分歧是这次的新料,尤其是安全观上的对立,直接关系到行业资源往哪投。整体看,这篇访谈把一位关键人物的技术判断、职业选择和路线分歧打包在一起,对从业者判断风向有帮助,但很多结论还缺公开验证。
一句话点评
杨立昆劝博士生别搞LLM了,说这条路到2027年会撞墙。他新公司押注“世界模型”,让AI像人一样观察物理世界,但正文没披露具体技术方案和验证数据。
锐评
杨立昆这次把话说得很直:纯靠堆语言数据做不出真正的智能,到2027年这条路就到头了。他离开Meta后创立的AMI,核心思路是让AI通过观察和互动理解物理世界,而不是只读文本。这个判断跟他一贯的立场一致,但访谈正文没给出“世界模型”的具体架构、训练方式或任何实验数据,所以目前更像是一个方向性表态。 他还把OpenAI和Anthropic比作当年的Sun Microsystems——技术上有声量但商业模式可能撑不住。这个类比挺狠,但同样缺少展开论证。另外,他和Hinton、Bengio在图灵奖观点上的分歧,正文只提了一句,具体争什么、谁对谁错都没说。 整体来看,这篇访谈的价值在于一个顶级研究者的方向判断,但细节严重缺失。如果你在考虑要不要跟注“世界模型”这条路线,建议先等AMI拿出可复现的结果再说。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
16:04
34d ago
● P1Dwarkesh Patel 播客· rssEN16:04 · 05·15
Eric Jang 用现代工具从零复现AlphaGo
Eric Jang 在播客里聊了他休假期间干的一件事:用现在的 AI 工具从零搭一个 AlphaGo。他选这个项目不是因为怀旧,而是觉得 AlphaGo 至今仍是把“搜索、从经验里学习、自我对弈”这三件事揉得最清楚的例子。节目里他一步步拆了蒙特卡洛树搜索是怎么给神经网络当老师的——每一步都直接给出一个更优的落子建议,绕开了大语言模型强化学习里最头疼的问...
#Reasoning#Agent#Code#Eric Jang
精选理由
Eric Jang 这篇文章不是发新模型,而是用 Cursor 这类现代工具重新搭了一遍 AlphaGo,然后拿蒙特卡洛树搜索(MCTS)跟大模型在超长 token 轨迹里的强化学习信用分配做对比。我会先打个折:正文没给出具体实验数据,更像一篇带技术深度的工程复盘。但它的价值在于把两个看似不相关的东西——下棋的搜索算法和 LLM 的 agent 工作流——拉到同一个问题框架下聊。对正在折腾长程推理和 agent 的人来说,这种对比比论文更直接。
一句话点评
Eric Jang 用现代工具重写了 AlphaGo,不是为了刷榜,而是想搞懂“一个十层网络怎么把深到离谱的搜索给学进去”。
锐评
Eric Jang 在播客里聊了他休假期间的项目:用现在的工具从零复现 AlphaGo。他不是要造一个更强的围棋 AI,而是想亲手拆解 AlphaGo 里“搜索、从经验中学习、自我对弈”这几个智能原语是怎么配合的。他提到一个很反直觉的点:一个只有十层的神经网络,居然能把游戏树里极深的搜索过程给“压缩”进去,这让他一直很好奇。 对话里最有意思的对比是,AlphaGo 用的蒙特卡洛树搜索(MCTS)能直接给出每一步的改进方向,绕开了“功劳分配”这个难题;而现在的语言模型做强化学习,得从十万多个 token 里猜到底是哪一步做对了,学习效率低得多。Jang 还试了让 AI 自动做研究,发现模型在跑实验、调参数上已经挺顺手,但在“选什么新问题去研究”和“从死胡同里退出来”这两件事上还很吃力。 正文没披露他复现的具体算力成本和最终棋力,也没给出自动研究环节的量化成功率。如果想知道这套思路能不能直接搬到语言模型上,还得看他后续会不会放出代码和实验记录。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
15:50
34d ago
● P1彭博科技· rssEN15:50 · 05·15
Apple 与 OpenAI 联盟关系紧张 合作陷入困境
Bloomberg 报道,苹果和 OpenAI 在 2024 年签的那份两年合作协议现在关系紧张。OpenAI 觉得合作没带来当初说好的好处,已经在准备法律行动。具体是哪些条款有争议、什么时候会正式起诉,正文都没披露。
#Apple#OpenAI#Anurag Rana#Partnership
精选理由
Bloomberg 说苹果和 OpenAI 的两年合作变味了,OpenAI 觉得没拿到该得的好处,已经在准备法律动作。我会先打个折:正文没披露具体争议条款和财务数字,所以没法判断到底是谁违约还是单纯分赃不均。但光是“可能起诉”这个信号,就够让依赖大厂渠道的 AI 团队紧张一下。
一句话点评
苹果和 OpenAI 的 iPhone 合作可能要黄,甚至闹到打官司。这事如果真崩了,对手机端 AI 的落地节奏影响不小,但先别急着下结论,目前只有媒体爆料,双方都没正式回应。
锐评
Bloomberg 等几家媒体都在说,苹果和 OpenAI 围绕 iPhone 上的 AI 功能合作出了大问题,OpenAI 甚至在考虑起诉苹果。报道没披露具体合同条款,但矛盾核心很可能跟钱和用户数据控制权有关——苹果向来要把用户隐私攥在自己手里,而 OpenAI 需要更多数据和使用场景来训练模型。如果合作破裂,苹果要么换供应商,要么加速推自己的端侧模型,但短期内 Siri 的体验可能会受影响。目前信息全来自匿名信源,两家公司都没公开表态,所以具体闹到什么程度、有没有挽回余地,都还不清楚。
HKR 分解
hook knowledge resonance
打开信源
96
SCORE
H1·K1·R1
11:48
34d ago
● P1r/LocalLLaMA· rssEN11:48 · 05·15
用魔改 RTX 2080 Ti 跑通 Qwen 27B 模型达 38 token/s
有人把两张老款 RTX 2080 Ti 各改了 22GB 显存(原版只有 11GB),用 IQ4_XS 量化跑 Qwen3.6 27B 模型,配合 f16 KV cache 和 tensor split,把生成速度从 14 token/s 拉到 38 token/s,每张卡还限了 150W 功耗。成本很低,两张二手卡加改装费可能不到 4000 块,就能...
#Inference-opt#Code#Qwen#NVIDIA
精选理由
这是一个Reddit用户的单次硬件实验,38 token/s确实让人眼前一亮——两张改过显存的RTX 2080 Ti(每张22GB)跑27B模型,IQ4_XS量化加f16 KV cache,tensor split下从14跳到38。但正文没披露功耗、稳定性、是否持续跑满,也没说量化后的质量损失。数字可信但验证弱,适合当参考案例,不够上推荐位。
一句话点评
Reddit 帖子正文被屏蔽,只看到标题。单卡 3090 跑 Qwen 27B 加 MTP 推测解码的配置优化,具体数据没拿到。
锐评
这条信息本身是个半成品。来源是 Reddit 的 LocalLLaMA 版,但原文被网络策略挡了,返回 403,我们拿到的只有标题。标题透露的信息是:有人在用 llama.cpp 的新版本(b9200 更新)测试 Qwen 3.6 27B 模型,开了 MTP(多令牌预测,一种让模型一次猜好几个词来加速生成的推测解码技术),目标是给 Hermes Agent 用,而且是在单张 RTX 3090 上跑。这配置挺极限的,27B 模型塞进 24GB 显存,通常得靠量化,MTP 还会额外吃显存。但正文没披露,我们不知道他用了什么量化等级、实际推理速度多少、MTP 到底提了多少速、显存占用稳不稳。标题里“优化”这个词现在只能当个方向看,别当结论。想复现的人得自己去翻 llama.cpp 的更新日志和社区讨论,或者等楼主补数据。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
02:39
35d ago
● P1彭博科技· rssEN02:39 · 05·15
OpenAI首席财务官称公司面临算力短缺可能需要继续融资
OpenAI 的首席财务官 Sarah Friar 公开表示,公司刚完成她所说的“史上最大私募融资”之后,可能还需要继续找钱,原因是算力缺口还在扩大,跟不上 AI 需求的增长速度。不过这篇报道的正文没有披露上一轮的具体金额、下一轮的目标规模和时间表,所以“最大”到底有多大、这次要融多少,目前都还不清楚。
#Inference-opt#OpenAI#Sarah Friar#Bloomberg
精选理由
我会先打个折:正文没披露具体金额、投资方和时间表,所以这不是一个落地的融资消息,更像 CFO 在放风试探市场。但 OpenAI 这种体量的公司,在拿到最大一笔私募钱之后还公开说不够用,本身就说明算力缺口比外界想的还大。对从业者来说,这意味着模型训练和推理的成本短期内不会降,算力租赁和自建集群的账要重新算。分数留在 featured 低位是合理的,因为信息不够实,但信号够强。
一句话点评
OpenAI的CFO出来说,公司算力不够用,还得继续找钱。这话从管钱的人嘴里说出来,比技术团队喊缺卡更直接——说明烧钱速度已经追不上扩张计划了。
锐评
OpenAI首席财务官公开承认公司正面临算力短缺,可能需要继续融资。这不是技术层面的抱怨,而是财务负责人对现金流压力的预警。CFO的原话指向一个很现实的问题:现有的资金和基础设施,撑不起他们想跑的模型规模和用户增长。 报道没有披露具体的资金缺口有多大,也没说新一轮融资的目标金额。但能让CFO主动对外放风,说明内部测算的结果不太乐观。算力短缺在AI行业通常意味着两件事:一是买不到足够的高端GPU,二是云服务账单涨得比收入快。OpenAI两样都占。 这条消息的参考价值在于,它来自公司最高财务决策层,不是分析师猜测。但正文没提他们打算怎么解决——是找微软加码,还是引入新投资者,或者压缩研发管线。这些信息缺口让判断只能停在“他们很缺钱”这一步。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
02:06
35d ago
● P1机器之心 · 公众号· rssZH02:06 · 05·15
亚马逊员工为达成AI使用指标而刷量
亚马逊内部要求超过 80% 的开发者每周必须用 AI 工具,还搞了个 token 消耗排行榜。员工为了达标,直接用内部 MeshClaw agent 刷量。目前这些统计数据只有员工本人和直属上级能看到,正文没披露具体刷了多少、有没有处罚措施。
#Agent#Tools#Safety#Amazon
精选理由
这事不是产品发布或技术突破,但把大厂内部怎么把 AI 工具用量做成 KPI、员工怎么应付,讲得很具体。我会先打个折:正文没披露刷量规模有多大、是否影响业务指标,所以冲击力还到不了头条级别。但“超 80% 开发者每周必须用 AI 工具”和“Token 消耗榜”这两个细节,足够让同行会心一笑,也反映出 AI 落地时管理动作跑偏的典型问题,放在 featured 合适。
一句话点评
亚马逊员工为了凑 AI 使用指标,拿内部工具干没必要的活刷量,KPI 把好经念歪了。
锐评
这事说白了就是典型的“指标一上来,动作就变形”。亚马逊给员工定了 AI 工具的使用指标,结果员工为了达标,开始用内部工具生成一些根本不需要的文本,纯粹为了刷 token 消耗量。FT 的原文被付费墙挡了,看不到具体是哪个工具、指标怎么定的、涉及多少员工,但机器之心的转述印证了这个方向。 值得留意的是,这发生在亚马逊自己力推 AI 的背景下。如果连自家员工都把 AI 当负担而不是帮手,说明落地方式可能出了问题——要么工具没真正嵌入工作流,要么考核只看用量不看效果。 现在还缺几块关键信息:管理层对这个指标的定义是什么、刷量行为被发现了怎么处理、以及员工真实的使用意愿到底有多低。没有这些,很难判断这是个别团队的土政策,还是整个公司 AI 推广策略的系统性翻车。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
00:23
35d ago
● P1FT · 科技· rssEN00:23 · 05·15
Anthropic获30亿美元融资估值达9000亿美元
FT 报道,Anthropic 已谈妥一笔 300 亿美元的融资,投后估值达到 9000 亿美元。领投方包括 Dragoneer、Greenoaks、红杉资本和 Altimeter Capital。不过正文被付费墙挡住,具体的交易结构、资金分批到账时间、各家机构分别出多少钱都没披露。9000 亿这个数字放在当下 AI 公司里属于顶格水平,但没看到收入或...
#Anthropic#Dragoneer#Sequoia Capital#Funding
精选理由
Anthropic 谈妥了一轮 300 亿美元的融资,估值给到 9000 亿美元。牵头的是 Dragoneer、Greenoaks、红杉和 Altimeter Capital 四家。我会先打个折:交易还没正式关闭,正文也没披露资金用途、到账节奏和有没有对赌条款,所以别直接当成落地的估值。但即便按意向来算,这个数字也把大模型公司的估值天花板又往上顶了一截,说明顶级资本还在往头部集中。
一句话点评
Anthropic 正谈一笔 300 亿美元融资,估值冲到 9000 亿。这个估值倍数高得离谱,先别太激动,正文没披露具体营收和利润支撑。
锐评
Anthropic 正在谈一轮 300 亿美元的融资,投前估值超过 9000 亿美元。这个数字什么概念?它直接把 Anthropic 推到了全球未上市科技公司估值的第一梯队,甚至超过了不少上市巨头。但正文只说了估值和融资额,没有给出任何营收、利润或用户增长数据来支撑这个价格。Bloomberg 和 FT 都确认了谈判在进行,可资金来源、具体条款、资金用途一概没提。我会先打个折:这种体量的融资谈判变数很大,最终金额和估值都可能调整。真正值得盯的是后续披露——Anthropic 到底有多少实际收入,以及这笔钱是拿去烧算力还是填商业化的坑。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
00:02
35d ago
● P1新智元 · 公众号· rssZH00:02 · 05·15
Google DeepMind发布Gemini驱动的AI指针交互技术
谷歌 DeepMind 放出了一个叫“AI 指针”的实验项目,核心是把 Gemini 模型直接挂在鼠标指针上。你在屏幕上指一个区域,AI 就能理解上下文并执行操作,比如修图或在地图上找地点。目前有两个 Demo 在 Google AI Studio 里能玩:一个是图片编辑,另一个是地图地点查找。文章还提到 Chrome 的指针选中功能和“Googleb...
#Agent#Multimodal#Tools#Google DeepMind
精选理由
我会先打个折:目前只是 Demo 级别,正文没披露延迟、成功率或 API 细节,所以分数停在 78 而不是更高。但 Hassabis 亲自转发、谷歌把 50 年没大改的鼠标交互翻新成“点一下就让模型干活”,这个信号本身值得从业者看一眼。两个 Demo 都放在 AI Studio 里,说明谷歌在试探把 Gemini 塞进更轻量的操作入口,而不是只堆聊天框。这点先别太激动,但如果后续有性能数据和开放接口,分量会明显上去。
一句话点评
Google DeepMind 把鼠标指针变成了一个能看懂屏幕的 AI 助手,指哪就能直接操作,连提示词都不用写。但正文没披露延迟和误触率,实际体验先打个折。
锐评
Google DeepMind 这次把 Gemini 模型塞进了鼠标指针里,思路很直接:你指到什么,AI 就理解什么,然后帮你完成下一步操作。这不再是传统的“点一下打开”,而是“指着一段文字让它总结、指着图片让它修图”。从交互上看,它把“打字提需求”这一步省掉了,对不习惯写提示词的用户确实更友好。 但官方博客目前只放了概念和演示,关键指标一个没给。比如从你指到 AI 给出反馈的延迟是多少?如果每次都要等一两秒,那效率还不如快捷键。另外,误触率也没提——屏幕上元素密集,AI 怎么判断你指的是按钮还是按钮旁边的文字?这些直接决定这东西是“真有用”还是“演示酷”。 Hassabis 在社交平台上很兴奋,但产品化落地还需要更多细节。我会先关注它后续有没有放出实测数据或开放试用,否则目前更像一个交互原型,离改变 50 年鼠标习惯还有距离。
HKR 分解
hook knowledge resonance
打开信源
90
SCORE
H1·K1·R1
00:00
35d ago
● P1OpenAI 博客· rssEN00:00 · 05·15
OpenAI 推出 ChatGPT 个人理财体验功能
OpenAI 在 ChatGPT 里上线了一个个人理财功能的预览版,目前只对美国 Pro 用户开放。你可以绑定自己的银行或金融账户,ChatGPT 会拉取你的收支、投资组合、订阅和待付账单,生成一个仪表盘,然后结合你告诉它的目标(比如“明年年初想买车”)来回答理财问题。账户连接走的是 Plaid,后续会支持 Intuit,覆盖超过 12000 家金融机...
#Tools#OpenAI#ChatGPT#Product update
精选理由
OpenAI 让 ChatGPT 开始碰个人财务了,目前只对美国 Pro 用户开放预览,能连金融账户,再结合你的财务背景和目标给建议。正文没写什么时候正式上线、跟哪些机构合作、要不要额外付费,所以先别太激动。我会打个折给 77,因为这事敏感度高,但信息缺口也大,暂时只能算中等分量的产品更新。
一句话点评
ChatGPT 开始直接读你的银行流水了,能看账单、做预算、规划买房,但别把它当理财顾问,正文也说了它不替代专业建议。
锐评
OpenAI 给美国 Pro 用户开了个新功能:让 ChatGPT 直接连你的银行账户和信用卡,通过 Plaid 支持超过 12000 家金融机构,Intuit 的接入也快了。连上之后,ChatGPT 会同步并自动归类你的收支,生成一个仪表盘,展示投资组合表现、消费、订阅和待付账单。你可以问它“我明年想买车,怎么存钱”或者“分析我上个月的旅行开销”,它会结合你的实际流水和之前告诉它的目标来回答。 这个功能的底气来自 GPT-5.5 更强的推理能力,以及每月已有 2 亿人用 ChatGPT 问理财问题。但要注意,目前只是小范围预览,先给 Pro 用户用,后面才推给 Plus,目标是所有人能用。OpenAI 强调数据由你控制,也做了准确性和质量评估,但正文没披露具体的评估方法、错误率或延迟数据。 它解决了一个真实痛点:以前你得在好几个 App 和表格里拼凑自己的财务状况。现在 ChatGPT 能帮你把账户、目标和消费习惯串起来看。不过,它给出的规划更像一个聪明的计算器,不是持牌顾问。如果你真用它做重大财务决策,最好还是再找个真人专家看一眼。
HKR 分解
hook knowledge resonance
打开信源
100
SCORE
H1·K1·R1
00:00
35d ago
● P1OpenAI 博客· rssEN00:00 · 05·15
Databricks将GPT-5.5集成企业智能体工作流
Databricks 宣布将 OpenAI 的 GPT-5.5 接入自家企业级 agent 工作流(让模型进业务流程干活)。GPT-5.5 在 Databricks 的 OfficeQA Pro 基准上拿了 SOTA,准确率首次超过 50%(之前 GPT-5.4 不到这个数),错误率比 5.4 降了 46%。这个基准专门测模型处理扫描 PDF、老旧文件...
#Agent#Benchmarking#Databricks#OpenAI
精选理由
硬排除-纯营销:已知事实读起来像是 OpenAI 的合作伙伴/客户用例宣传。HKR-H 和 HKR-R 都成立,但 HKR-K 缺分数、范围和上线时间,所以重要性上限卡在 39。
一句话点评
GPT-5.5在企业文档解析上比前代少犯46%的错,但50%的准确率说明一半任务还是会翻车,别急着全自动。
锐评
Databricks把GPT-5.5接进了自己的企业智能体工作流,主要用来处理扫描件、老旧文件和长文档这类容易让系统卡壳的任务。他们自己搞了个OfficeQA Pro测试,GPT-5.5在这个测试上把错误率比GPT-5.4压低了46%,准确率首次超过50%。这个数字说明模型在解析扫描PDF和提取数字时确实比上代强,用他们研究员的话说是个“台阶式提升”,而且多步任务里乱兜圈子的情况也少了。 不过得冷静看:50%的准确率意味着还有一半的复杂企业文档任务会出错。文章是OpenAI官方发的客户案例,没有第三方验证,也没提成本、延迟和具体场景的失败分析。Databricks是通过自己的AI Unity Gateway向客户提供这个能力,实际效果还得看不同行业落地时的表现。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K0·R1

更多

频道

后台