2024-02-19 · 星期一 2024年2月19日
Hugging Face 博客 · rss EN 00:00 · 02·19
Hugging Face PEFT 新增 LoRA 合并方法
Hugging Face 在 PEFT 库中加入了多种 LoRA 适配器合并方法,包括拼接、线性加权、SVD、TIES、DARE 和幅度剪枝。这些方法允许用户在不下载完整模型权重的情况下,直接在内存中合并来自同一基座模型的多个 LoRA 适配器,从而节省显存和磁盘空间。正文没有披露每种方法在具体任务上的性能对比或推荐配置,所以选哪个方法还得自己试。
#Fine-tuning #Tools #Hugging Face #PEFT
精选理由
正文为空:能确认的只有 PEFT 加了合并方法,方法名称、适配器支持、版本范围、指标全没披露。HKR 三项全挂,分数低于 40,归入 excluded。
HKR 分解
hook — knowledge — resonance —
2024-02-14 · 星期三 2024年2月14日
FEATURED OpenAI 博客 · rss EN 08:00 · 02·14
OpenAI封了五个国家背景黑客的账号,但说AI帮不了他们太多
OpenAI跟微软合作,封了五个国家背景黑客组织的账号,涉及中国、伊朗、朝鲜和俄罗斯。这些团伙主要拿ChatGPT干翻译、查资料、写代码、找漏洞这些基础活,没搞出什么高级攻击。OpenAI自己承认,GPT-4在恶意网络任务上能帮的忙很有限,不比公开的免费工具强多少。正文没披露具体封了多少账号、怎么发现的,也没说这些团伙到底造成了多大破坏。
#Safety #OpenAI #Safety/alignment #Incident
精选理由
HKR-H和HKR-R成立:国家背景攻击者滥用AI是强钩子,且能引发平台治理风险的共鸣。HKR-K不成立:这篇帖子只确认了处置动作,但缺少攻击者名称、样本、封禁数量和检测机制等关键细节,所以归入all而非featured。
一句话点评
OpenAI 封了一批国家背景黑客的号,但结论是自家模型对恶意网络任务的帮助“有限且增量”,别被标题唬住。
锐评
OpenAI 和微软联手,端掉了五个国家背景的黑客组织的账号,分别来自中国、伊朗、朝鲜和俄罗斯。这些组织用 ChatGPT 干的事主要是查公开资料、翻译、找代码 bug 和写基础脚本,比如生成钓鱼邮件内容或研究怎么让恶意软件躲过检测。OpenAI 自己说,根据之前的红队测试,GPT-4 在这些恶意网络任务上能提供的额外能力很有限,没比网上已有的非 AI 工具强多少。
这个判断挺实在,没吹牛也没甩锅。但文章没给出具体封了多少个账号、阻止了多少次攻击,也没说这些攻击到底成没成功。所以“有限”这个结论,目前只能基于他们自己的测试和这次发现的用法。我会先打个折:这更像是一次公开表态,告诉大家他们有在盯、有在管,但实际威胁有多大,正文没给量化数据。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-02-13 · 星期二 2024年2月13日
FEATURED OpenAI 博客 · rss EN 00:00 · 02·13
ChatGPT 加上了记忆功能,能跨对话记住你的偏好,你也可以随时关掉或让它忘掉
OpenAI 给 ChatGPT 加了一个记忆功能,不再每次对话都像第一次见面。它会记住你主动告诉它的事,也会自己从聊天里抓取细节,比如你喜欢的会议纪要格式、你开的咖啡店、你家小孩喜欢水母。这些记忆会跨对话保留,用越多越懂你。控制权在你手里:可以在设置里关掉整个记忆,也可以直接对话让它忘掉某件事,或者用临时对话模式完全不记。正文提到免费和付费用户都在小...
#Memory #Tools #OpenAI #ChatGPT
精选理由
OpenAI 官方发了个标题,说 ChatGPT 要有记忆和新控制项,但正文是空的。我会先打个折:记忆能让 ChatGPT 记住你的偏好和上下文,用久了会更顺手,这点挺抓人。可真正该盯的是控制机制——用户能不能随时关掉、能不能按会话或按话题设权限,这些全没披露。没有这些信息,标题里的“新控制项”还只是一句口号,产品影响暂时没法判断。
一句话点评
ChatGPT 能记住你之前聊过的事了,不用每次都重复说一遍。但别太激动,它记的东西可能不准,而且你的聊天记录会被用来训练模型,除非你手动关掉。
锐评
OpenAI 给 ChatGPT 加了个记忆功能,简单说就是它能跨对话记住你的偏好和背景信息,比如你喜欢的会议纪要格式、你的职业、甚至你家小孩喜欢水母。这能省掉很多重复解释的麻烦。但这里有几个点得打折看。第一,记忆分两种:你明确让它记的“已保存记忆”,和它自己从聊天记录里扒出来的“聊天历史”。后者听起来智能,但正文没给出它判断相关性的准确率,很可能会自作聪明记错。第二,隐私和训练数据的问题。OpenAI 明确说,你提供的内容包括记忆,默认会被用来改进模型。如果你不想被当成训练素材,得自己去数据控制里关掉。Team 和 Enterprise 用户的数据不会被训练,这点对商业用户是颗定心丸。第三,控制权在你手里,可以随时关掉记忆、删掉特定记忆,或者用临时聊天模式。但删除对话记录并不会自动清除相关记忆,你得专门去记忆管理里删,这个逻辑有点绕,容易让人误以为自己已经删干净了。整体看,功能方向是对的,让对话更连贯,但信息准确度和隐私边界还需要更多实测验证。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-02-08 · 星期四 2024年2月8日
Hugging Face 博客 · rss EN 00:00 · 02·08
Hugging Face 推出 Messages API,让你用 OpenAI 的客户端直接调用开源大模型
Hugging Face 在 TGI 1.4.0 版本里加了一个 Messages API,兼容 OpenAI 的 Chat Completion API。简单说,你原来用 OpenAI 的 Python 或 JavaScript 客户端写的代码,现在改个地址就能调用 Hugging Face 上的开源模型,比如 Mixtral 8x7B。迁移成本很低...
#Tools #Hugging Face #OpenAI #Product update
精选理由
HKR-H 和 HKR-R 都扣在 OpenAI 兼容迁移这个钩子上,但 HKR-K 不成立,因为模型覆盖范围、定价、延迟、API 限制全部未披露。这本质上是一篇厂商 API 推广稿,按硬排除规则「云厂商推广」封顶 40 分,所以重要性 35 合理。正文没披露任何实测数据或迁移成本对比,建议等具体模型列表和价格出来再重新评估。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-01-31 · 星期三 2024年1月31日
OpenAI 博客 · rss EN 08:00 · 01·31
OpenAI 发了一篇生物威胁预警系统的论文,但正文是空的
OpenAI 发了一篇博客,标题是《为 LLM 辅助的生物威胁制造建立早期预警系统》,但正文只有导航栏和一张图,没有任何机制、指标或部署条件。唯一能读到的信息来自摘要:他们找了 50 个生物学博士和 50 个学生,让一半人只用互联网、另一半人额外用 GPT-4,然后完成生物威胁制造的五个环节任务。结果 GPT-4 组在准确率和完整性上只有微弱提升(专家...
#Safety #OpenAI #Safety/alignment #Commentary
精选理由
标题有钩子,但正文为零。H 和 R 靠生物威胁+预警系统的组合能过,K 因为零信息源直接挂掉。结论维持 excluded,等后续披露可复现的阈值和误报数据再考虑升级。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-01-30 · 星期二 2024年1月30日
Hugging Face 博客 · rss EN 00:00 · 01·30
英特尔在至强CPU上把StarCoder推理加速7倍:Q8/Q4量化+投机解码
Hugging Face和英特尔发了一篇博客,讲怎么在第四代至强CPU上把StarCoder-15B这个代码生成模型跑得更快。核心手段是两个:一是量化,把模型精度压到8位或4位(INT8/INT4),减少计算量;二是assisted generation(投机解码),让一个小模型先快速生成候选token,大模型再验证,减少串行推理步数。最终号称推理速度...
#Code #Inference-opt #Hugging Face #Intel
精选理由
打分 34 且排除。HKR 三项全不满足:帖子确认了 Xeon + Q8/Q4 + 投机解码,但没给任何基准、延迟、CPU 代际、StarCoder 版本或复现配置,读起来像面向特定厂商的优化,对多数人价值有限。
HKR 分解
hook — knowledge — resonance —
2024-01-29 · 星期一 2024年1月29日
Hugging Face 博客 · rss EN 00:00 · 01·29
幻觉排行榜:开源模型谁最爱编瞎话,Hugging Face 给排了个名
Hugging Face 联合多位研究者推出了一个公开的“幻觉排行榜”,专门测大模型有没有胡编乱造。他们把幻觉分成两类:一类是事实性幻觉,比如把登月第一人说成是林德伯格;另一类是忠实性幻觉,比如总结新闻时把日期从 2023 年 10 月改成 2006 年。排行榜覆盖了问答、指令跟随、摘要、阅读理解、幻觉检测几个维度,用的是上下文学习(in-contex...
#Benchmarking #Safety #Benchmark #Open source
精选理由
HKR-H 和 HKR-R 通过:公开的幻觉排行榜确实能吸引眼球,可靠性也是真问题。HKR-K 不通过,因为正文为空——没有方法、数据集大小、模型覆盖或发布细节,所以只能放在 low-tier all。
一句话点评
Hugging Face 搞了个幻觉排行榜,用问答、摘要等任务测模型编造事实的程度。目前看,小模型不一定更爱瞎说,但排行榜只测英文,且依赖自动评估,不能完全替代人工检查。
锐评
Hugging Face 这次只公布了一个“幻觉排行榜”方向,正文未披露评测方法、样本规模、覆盖模型和发布时间;在这些空白补上前,这条消息的信息量其实很有限。
我先把立场摆明:我支持有人去系统测幻觉,但我对“排行榜”这个包装天然有戒心。幻觉不是 MMLU 那种单轴分数,先问的是定义,再问的是数据,最后才轮到排名。一个模型在闭卷事实问答里答错,和它在缺上下文时硬编引用,和它在工具调用失败后编造执行结果,这三类问题根本不是一回事。标题只说 measure hallucinations,没说测哪一种,也没说是 binary judgment、pairwise preference,还是基于 citation verification。定义没立住,榜单就会把不同失误揉成一个分数,读者看到名次,团队却不知道该怎么改模型。
这件事我为什么比较敏感,因为过去一年行业已经吃过几次“指标先行、定义落后”的亏。TruthfulQA 很早就被拿来当“抗幻觉”代表,但它更像是特定问答分布下的 truthfulness 测试,不足以覆盖长文总结、RAG、agent 行为。HaluEval 也常被引用,我记得它主要依赖 ChatGPT 生成和标注一部分数据,这类基准的好处是快,问题是模型会学会 benchmark style,而不一定学会少胡编。再往后看,很多厂商开始拿 RAGAS、faithfulness、groundedness 这类指标评估检索问答;这些指标至少把“有没有依据上下文说话”单独拎出来,比一个总榜更接近真实部署场景。回到 Hugging Face 这条,如果它最后只是做一个跨模型总排名,我会觉得方向有点旧;如果它把 hallucination 拆成封闭问答、上下文忠实度、引用一致性、工具执行真实性几条子榜,这件事才站得住。
我还有一个疑虑:开放参与听起来很好,但开放榜单最容易被 prompt engineering 污染。模型厂商只要知道评测模板,就会专门优化 refusal pattern、答案长度、引用格式,最后得到的是“会考模型”,不是“稳模型”。这在 Open LLM Leaderboard 上已经见过很多次了:大家先追公开基准分,分数上去,真实使用里的稳定性和成本却不一定同步改善。幻觉评测更脆,因为它高度依赖评判器。若用 GPT-4 一类模型当 judge,要交代 judge prompt、温度、复核机制;若用人工标注,要交代一致性和成本;若混合使用,也要给出 conflict resolution。标题没给这些,我只能先把它当一个倡议,不把它当结果。
说真的,我反而更想看它怎么处理“回答或拒答”的权衡。很多模型压幻觉的方法很直接:提高拒答率。你问一个边界模糊的问题,它不编了,但开始频繁说“我不确定”。从安全角度看这有价值,从产品角度看未必。Anthropic、OpenAI、Google 这两年都在 system prompt 和 policy 上做过类似调节,结果常常是 hallucination 降了,helpfulness 也一起掉。一个像样的榜单不能只奖励“少说错话”,还得同时约束“别把该答的也全拒了”。标题没有提 calibration、coverage 或 abstention cost,我自己会把这当成最大的信息缺口之一。
还有个上下文不能忽略:Hugging Face 的角色决定了它做这件事既有优势,也有局限。优势是社区分发能力强,能把评测模板、数据集、复现脚本做成公开基础设施;局限是社区榜单天然会被“谁更容易接入、谁更愿意提交”影响,闭源前沿模型的覆盖可能长期不完整。一个 hallucination leaderboard 如果主要覆盖开源模型,它对研究很有用;如果外界拿它当“全行业最可靠模型排行”,那就会失真。标题现在没说纳入标准、提交机制、是否允许私有评测,我没法替它补完这层叙事。
所以我现在的判断很简单:方向对,包装危险,成败全看方法公开到什么程度。要让我认真参考,至少得看到四样东西:一,幻觉类型拆分,不要单分;二,数据来源和规模,尤其是否含多轮、RAG、长上下文;三,评判协议,含 judge 和人工复核;四,拒答率与有用性一起报。没有这些,榜单只会把一个本来就定义混乱的问题,再做成一张更好传播的图。
HKR 分解
hook ✓ knowledge — resonance ✓
2024-01-19 · 星期五 2024年1月19日
Hugging Face 博客 · rss EN 00:00 · 01·19
用 Hugging Face 微调 W2V2-Bert 做低资源语音识别
Hugging Face 发了一篇博客,讲怎么用 Transformers 微调 W2V2-Bert 做低资源语音识别(ASR)。W2V2-Bert 是 Meta 去年发布的,参数量 5.8 亿,预训练用了 450 万小时、143 种语言的未标注音频——比之前的 XLS-R(50 万小时、128 种语言)和 MMS(50 万小时、1400 种语言)数据...
#Audio #Fine-tuning #Hugging Face #Commentary
精选理由
只有标题确认了模型名 W2V2-Bert 和“低资源”方向,正文完全空白,没给数据集、训练步骤、评测指标或硬件配置。标题看起来像常规教程,但信息缺口太大,不能当可复现实验看。HKR 三项全不满足,按规则归为 excluded,重要性保持 34。
HKR 分解
hook — knowledge — resonance —
2024-01-18 · 星期四 2024年1月18日
Hugging Face 博客 · rss EN 00:00 · 01·18
Hugging Face 实测三种偏好调优方法:DPO、IPO、KTO 谁更稳?
Hugging Face 发了一篇博客,对比了三种不用强化学习也能对齐模型偏好的方法:DPO、IPO 和 KTO。简单说,它们都是拿“好回答 vs 差回答”的配对数据直接训练模型,省去了 RLHF 里那个又贵又不稳定的奖励模型。实验用了两个已经做过监督微调但没做过偏好对齐的 7B 模型(Zephyr-7b-beta-SFT 和 OpenHermes-7...
#Fine-tuning #Alignment #Hugging Face #Commentary
精选理由
正文只有标题,连摘要都是空的。HKR 三项全挂:没有具体结果(h),没有数据和基线(k),没有成本或替代 RLHF 的讨论点(r)。这更像一篇技术方法介绍,对从业者来说信息量约等于零,所以归为 excluded。
HKR 分解
hook — knowledge — resonance —
2024-01-15 · 星期一 2024年1月15日
OpenAI 博客 · rss EN 08:00 · 01·15
OpenAI 公布 2024 大选应对方案:防滥用、标来源、引官方投票信息
OpenAI 发了一篇 2024 年全球大选应对方案,但正文大部分是更新日志,没有一次性讲清楚规则、检测流程和执行门槛。核心动作有三块:一是防滥用,比如拒绝生成政治人物图像(选前一个月拒了超 25 万次 DALL·E 请求),并打击隐蔽影响力操作;二是给 AI 内容打标签,加入了 C2PA 溯源标准;三是引导用户去官方投票网站(美国导到 CanIVot...
#Safety #Alignment #OpenAI #Policy
精选理由
HKR-R 成立,因为选举诚信治理确实是行业敏感神经。HKR-H/K 不成立:RSS 正文为空,只确认了主题,没有给出政策机制、产品范围、执法阈值或时间表,因此归入 all 层级。
一句话点评
OpenAI 在2024全球大选前发布安全措施:ChatGPT 拒绝生成政治人物图像,超25万次请求被拦截;引导用户至官方投票网站 CanIVote.org,约100万次回复;选举日当天约200万次回复建议查美联社或路透社。正文未披露这些拦截的误报率或对模型其他能力的影响。短评:防滥用动作扎实,但效果评估缺第三方验证。
锐评
OpenAI 这篇文章只挂出了“2024 年全球选举”主题,正文却没有披露政策文本、产品范围、执法阈值和上线时间。我的判断很直接:这不是一条能让从业者据此更新风险模型的安全公告,更像一条先表态、后补细则的公司声明。
问题不在标题,问题在缺口。选举相关治理至少要回答四件事:哪些内容直接禁止,哪些内容允许但要加上下文,检测是走模型内拦截还是后置审核,误杀和漏放由谁兜底。这里一项都没展开。没有这些,你没法判断 ChatGPT、API、图像生成、语音生成是不是同一套规则,也没法判断 OpenAI 是按国家法律分区执行,还是给全球统一口径。
我对这种“先讲方向”的写法一直有点警觉。2024 年初各家平台都在抢先占位 election integrity 叙事:Meta 当时还在推进 AI 生成政治广告披露规则,Google 也在 YouTube 和 ads policy 上补合成内容标签,Anthropic 后来在高风险场景里也反复强调 usage policy,但真正决定效果的从来不是原则清单,而是阈值和执行频率。比如“阻止生成误导性投票信息”这句话谁都会写,难的是边界:候选人讽刺内容算不算,二创视频算不算,地方语言和方言怎么判,人工复核 SLA 是几小时还是几天。标题没回答,摘要也没回答。
还有个现实问题,OpenAI 当时的主要分发面已经不只是自家 ChatGPT。API 接入、第三方应用封装、再加上后来一整波 agent 产品,都会把同一条政策拉成多层执行链。公司自己写了规则,不等于生态里每一层都按同样标准落地。我还没查到这篇原文是否覆盖了开发者责任分配;如果没有,这条信息就缺得很关键。
所以这条我不会高估。它能说明 OpenAI 知道 2024 是高压年,也知道“选举”是必须单列的风险域;它不能说明 OpenAI 已经拿出了一套可审计、可复现、跨产品一致的治理机制。对 AI 从业者来说,后续如果没有具体 policy language、appeals 流程、误报数据和区域化执行口径,这篇东西基本只提供姿态,不提供操作性。
HKR 分解
hook — knowledge — resonance ✓
2024-01-10 · 星期三 2024年1月10日
FEATURED OpenAI 博客 · rss EN 08:00 · 01·10
OpenAI 推出 ChatGPT Team,面向团队的自助套餐
OpenAI 今天上线了 ChatGPT Team,一个面向团队的自助订阅方案,介于个人版和企业版之间。每月 25 美元(年付)或 30 美元(月付),每人。包含 GPT-4(32K 上下文)、DALL·E 3、高级数据分析等工具,以及一个团队专属工作区和管理后台。OpenAI 承诺不会用你的业务数据训练模型。注意:这个套餐没有披露最低席位要求,也没有...
#OpenAI #Product update
精选理由
这是OpenAI正式推出的团队级产品,所以HKR-R在采购和治理层面有参考价值。HKR-H和HKR-K不通过,因为正文只确认了产品名和团队定位,价格、最低席位、模型权限和管理细节都没披露。
一句话点评
OpenAI 给中小团队开了个自助套餐,每人每月 25 刀就能用 GPT-4 和 DALL·E 3,还承诺不拿你的数据训练模型。
锐评
这条消息的核心是 OpenAI 在 ChatGPT Enterprise 之后,补上了一块面向中小团队的自助拼图。ChatGPT Team(现在改名叫 ChatGPT Business)定价每人每月 25 美元年付,或者 30 美元月付,给团队开了一个共享工作区,能用 GPT-4、DALL·E 3 和高级数据分析,还能自己捏定制版 GPT 并只在团队内发布。比较实在的一点是,OpenAI 明确说不会用你的业务数据和对话来训练模型,这对在意数据隐私的团队是个定心丸。
文章引了哈佛商学院的一个研究,说波士顿咨询的人用 GPT-4 后完成任务快 25%,工作质量高 40%。这个数字可以参考,但别直接当成自己团队的预期收益——咨询公司的任务类型和普通中小团队不一定一样,而且研究是 2023 年的,模型和产品形态已经变了不少。Sourcegraph 和波士顿儿童医院的案例也只是定性背书,没有给出具体怎么用、省了多少成本。
还缺什么?正文没提 32K 上下文在实际业务里够不够用,也没说消息上限具体是多少。对于想拿它跑长文档分析或高频调用的团队,这两点会直接影响体验。另外,和 Enterprise 版在安全管控、SAML SSO 这些企业级功能上的差距也没展开,选型时得自己去翻详细对比页。
HKR 分解
hook — knowledge — resonance ✓
OpenAI 博客 · rss EN 08:00 · 01·10
OpenAI 正式上线 GPT 商店,已有超 300 万个自定义 ChatGPT
OpenAI 今天开始向 ChatGPT Plus、Team 和 Enterprise 用户逐步开放 GPT 商店,距离首次公布 GPTs 功能刚过去两个月。目前社区已经创建了超过 300 万个自定义版本的 ChatGPT,这个数字说明用户对定制化聊天机器人的需求很大。商店里按 DALL·E、写作、编程、教育等分类展示热门 GPT,每周还会推荐精选应用...
#OpenAI #Product update
精选理由
标题确认 OpenAI 要搞 GPT 商店,所以 HKR-H 落在商店/分发这个钩子上,HKR-R 落在开发者赚钱焦虑上。HKR-K 不成立,因为正文只披露了名字;上架规则、分成比例、开放范围全都没说,所以这条只能给 all。
一句话点评
OpenAI 正式上线 GPT Store,用户已创建超 300 万个自定义 GPT。商店按类别展示热门 GPT,每周推荐精选,并计划 Q1 推出创作者收入计划(按用户参与度付费)。目前仅对 Plus、Team 和 Enterprise 用户开放,企业版后续支持。审核引入人工+自动机制。
短评:GPT 生态从工具走向平台,但收入计划细节未披露,分成比例和参与度标准未知。
锐评
OpenAI 这次只公布了 GPT Store 这个名字,正文为 0,发布时间、上架规则、分成比例都没披露。我的判断是,这一步先抢的是分发叙事,不是平台完成度。
我一直觉得,AI 应用层到 2024 年初最缺的不是“再来一个商店”这三个字,而是可持续分发。ChatGPT 在 2023 年底周活已经是亿级量级,我没在这篇条目里看到具体数字,但入口价值本来就摆在那里。谁把自定义 agent、工作流、提示词模板塞进默认入口,谁就先拿到发现机制。标题本身已经说明 OpenAI 想把“自定义 GPT”从创作工具,往双边市场推进一步。
但我对这条叙事有保留。商店模式在移动互联网里成立,前提是审核、排序、支付、反作弊四件事一起到位。这里 4 项都没给。没有上架规则,开发者不知道什么能卖;没有分成机制,创作者没法算 ROI;没有排名逻辑,商店大概率先被头部品牌和 SEO 式包装占满;没有安全边界,低质套壳和提示词搬运会很快出现。标题给了一个很大的词,正文没有给最关键的可复现条件。
外部参照其实不少。OpenAI 在 2023 年 11 月 DevDay 先推了 GPTs,当时就已经把 Builder 和分享页铺好,所以 GPT Store 更像第二段,不是突然起意。再往前看,苹果 App Store 和微软 Office 插件市场都证明过,入口分发可以养出生态,也会把审核权和抽成权集中到平台手里。AI 这边的问题更棘手,因为“应用”很多时候只是一层 prompt 包装,差异比移动 App 更薄。我还没看到 OpenAI 准备用什么机制区分一个真有工具调用和私有知识库的 GPT,和一个换皮 prompt 集合。
还有一层是战略位置。OpenAI 如果把 GPT Store 做成 ChatGPT 内的默认分发层,它抢的就不只是开发者时间,也是在卡 Anthropic、Google、Character.AI 这类对手的应用入口。问题在于,平台要成立,至少要有结算、搜索、推荐、风控这几套系统联动。现在只有标题,我不会把它当成完成发布,更像一次先把旗插上。这个说法我还是买一半:名字有了,市场会自己补完想象;但在分发规则出来前,它离“App Store for AI”还差最硬的那部分。
HKR 分解
hook ✓ knowledge — resonance ✓
Hugging Face 博客 · rss EN 00:00 · 01·10
Unsloth 联手 Hugging Face TRL,微调速度翻倍
Unsloth 是一个轻量库,通过重写模型底层计算(把 PyTorch 模块换成 Triton 内核)来加速大模型微调,官方称最高能快 2.7 倍、省 74% 显存,且精度不掉。它兼容 Hugging Face 全家桶(transformers、PEFT、TRL),支持 Llama 和 Mistral 架构,从 GTX 1070 到 H100 都能跑。...
#Fine-tuning #Tools #Hugging Face #Unsloth
精选理由
标题说 Unsloth 和 TRL 能把微调速度翻倍,但正文一个字都没有,硬件、模型、数据、显存、复现步骤全没披露。H 靠‘2倍提速’这个明确承诺能吸引训练方向的人,K 因为信息缺口太大直接挂掉——没有可复现条件,这个速度数字就是空话。R 也弱,因为没提成本或质量折损,没法引发有效讨论。整体就是个低价值的‘all’级内容,不值得推荐。
一句话点评
Unsloth 把微调速度翻倍,显存省 40%,精度不掉。实测 Llama-2 7B 在 T4 上快 1.95 倍、显存降 43%。原理是手动重写反向传播和 Triton 内核,没做近似。目前只支持 Llama 和 Mistral 架构,其他模型得等。正文没披露训练步数或收敛曲线,加速比可能因任务波动。
锐评
Hugging Face 这篇博客只给出了“Unsloth + TRL 微调提速 2 倍”这个结论,训练硬件、基准模型、数据集、batch size、序列长度、显存占用都没披露。我的判断很直接:这条现在还不能当性能结论看,只能当渠道分发。标题先把“2x”打出去,目的是把 Unsloth 从社区技巧抬到 Hugging Face 官方工作流的一部分。
说真的,微调提速这种话题我一直很警觉,因为它太容易被口径操作。把 LoRA 和全参训练混着讲,2 倍很常见;把 packing、Flash Attention、bf16、梯度检查点、paged optimizer 一起开掉,再和一个没调好的 baseline 比,2 倍也不稀奇。问题不在于 2 倍有没有可能,问题在于这 2 倍是从哪一层省出来的:是 Triton kernel 重写了前向反向,是减少了 VRAM 碎片,是更激进的 checkpoint 策略,还是单纯换了默认超参。正文没给,所以现在没法判断这是不是“同等质量下更快”,还是“损一点稳定性换吞吐”。
文章外的上下文其实很清楚。2023 年那波开源微调栈,QLoRA 先把“单卡可训”打出来,Axolotl、LLaMA-Factory、FastChat、TRL 再把配方工程化;到 2024 年,竞争点已经不是“能不能训”,而是“同一张 24GB 或 48GB 卡,谁能塞更长上下文、谁更稳、谁更省时间”。Unsloth 当时能冒出来,靠的就是把这件事做成几乎即插即用。我没去逐条核过它最早那版 benchmark,但我记得社区里不少对比都是拿 Mistral 7B 或 Llama 2 7B 做 LoRA/QLoRA,速度提升通常伴随更低显存占用一起宣传。这里我想要的不是一句“更快”,而是至少一张表:A100 40GB 还是 T4?7B 还是 70B?SFT 还是 DPO?tokens/s 提了多少,step time 降了多少,eval loss 有没有偏移。
我对这条叙事还有个 pushback:Hugging Face 把 Unsloth 接进 TRL,价值未必先体现在绝对性能,反而更像生态防守。原因很简单,训练框架一旦脱离官方接口,用户就会往自带 launcher、自带 recipes、自带 hub integration 的整包工具流失。TRL 过去更强的是对齐训练流程,像 SFTTrainer、DPOTrainer 这些抽象;它不是大家默认认知里的“最快训练器”。这次把 Unsloth 放进来,本质上是在说:你不用离开 Hugging Face 体系,也能拿到社区里那批更激进的 kernel 优化。这个动作比“2 倍”本身更有信息量。
但我还是要泼点冷水。只要没有复现条件,这个标题就不该直接进入团队路线图。Nvidia 每代卡都爱讲数倍提升,最后落到真实训练流水线,经常被 dataloader、padding、checkpoint I/O、eval 频率吃掉一半;开源训练工具也一样。你在单卡、短序列、纯 SFT 上看到 2 倍,放到多卡、长序列、混合对齐流程里,结果经常不是同一个故事。标题已经给出“2x faster”,正文没披露最关键的控制变量,这就是目前最大的信息缺口。
如果你真在做训练栈,我会先等三个东西:第一,官方 benchmark 表;第二,显存曲线和可训练最大序列长度;第三,至少一套可复现脚本。没这三样,这条只能算生态整合新闻,不算性能新闻。
HKR 分解
hook ✓ knowledge — resonance —
2023-12-20 · 星期三 2023年12月20日
Hugging Face 博客 · rss EN 00:00 · 12·20
投机解码让 Whisper 语音识别快一倍,输出完全不变
Hugging Face 发了一篇博客,讲怎么用投机解码(Speculative Decoding)把 OpenAI Whisper 的推理速度提到 2 倍,而且保证输出和原模型一模一样。原理很简单:先让一个小模型快速生成一串候选 token,再让大模型一次前向传播去验证,遇到不一致的就从第一个错的地方截断、替换。这样不用改现有管线,直接替换就能白捡一...
#Inference-opt #Audio #Commentary
精选理由
标题的“2倍加速”是个具体性能钩子,但正文完全空白,机制、硬件、模型版本、评估设置全无,属于硬排除条件6——只有标题信息,没有可复现细节。语音团队确实关心延迟和成本,但这点先别太激动,等补全测试条件再说。
HKR 分解
hook ✓ knowledge — resonance ✓
2023-12-13 · 星期三 2023年12月13日
OpenAI 博客 · rss EN 08:00 · 12·13
OpenAI 与 Axel Springer 达成全球合作,ChatGPT 将能摘要付费新闻内容
OpenAI 与德国媒体集团 Axel Springer 宣布全球合作,这是第一家与 OpenAI 深度整合的出版集团。合作后,ChatGPT 用户可以直接获取 POLITICO、BUSINESS INSIDER、BILD、WELT 等媒体的新闻摘要,包括原本付费的内容,并附上原文链接。此外,Axel Springer 的优质内容也会用于训练 Open...
#OpenAI #Axel Springer #Partnership #Commentary
精选理由
OpenAI 和 Axel Springer 的合作在行业层面值得关注,因为内容授权和分发边界是AI公司与媒体集团的核心争议点,所以R通过。但K不通过:正文只给了合作标题,产品落地形态、资金条款、时间表、付费内容具体怎么开放都没披露,信息缺口大,只能算低带宽信号。
一句话点评
OpenAI 与 Axel Springer 达成全球合作,ChatGPT 将摘要 Politico、Business Insider 等媒体的付费内容并附链接,同时用这些新闻数据训练模型。这是 OpenAI 首个大型出版商合作,但正文没披露授权费金额和分成比例。对从业者来说,信号是:高质量新闻源正式成为模型训练和实时回答的付费原料,内容授权模式开始跑通。但别急着跟风——合作细节不透明,其他...
锐评
OpenAI 与 Axel Springer 宣布合作,但 RSS 正文为空,范围、金额、产品形态、授权边界都没给。我的判断很直接:这条先别按“AI 改造新闻业”来读,先按出版商和模型公司重新分配流量与版权来读。标题里的 beneficial use 很像公关层的共同语汇,信息量最低;合同里写不写训练权、实时抓取权、摘要展示权、跳转回流义务,这些才决定合作含金量。
我一直觉得这类合作的核心不在 newsroom workflow,而在内容供给和法律降噪。2023 年下半年到 2024 年,新闻出版商对生成式 AI 的态度已经分成两路:一路谈授权换收入,一路直接起诉。我没在这条里看到任何条款,所以没法判断 OpenAI 拿到的是训练数据、检索展示、还是两者都拿。拿训练权和拿展示权,价格模型完全不同,风险也完全不同。标题没说,正文也没给,这个缺口很大。
外部参照其实已经有了。OpenAI 后面和多家出版商都谈过类似合作,行业里也出现过按内容库授权、按展示分成、按品牌露出置换流量的几种做法;我记得 Axel Springer 自己也一直在推付费墙和数字订阅,所以它不会轻易把高价值内容无条件喂给模型。说真的,我对“beneficial”这个叙事有点保留:如果聊天界面直接吃掉搜索点击,出版商短期拿到授权费,长期丢掉用户入口,这笔账未必划算。现在只有标题,我还不能下更重的结论,但这条至少说明一件事:OpenAI 当时已经不想只靠“公开网页可抓取”那套灰色地带往前跑了,它开始用合同把高质量新闻内容锁进来。
HKR 分解
hook — knowledge — resonance ✓
2023-12-05 · 星期二 2023年12月5日
Hugging Face 博客 · rss EN 00:00 · 12·05
Hugging Face 把 LoRA 推理提速 300%,但正文没写怎么做到的
Hugging Face 发了一篇博客,标题说他们把 LoRA 推理速度提升了 300%,主要解决冷启动问题。冷启动指的是每次换一个 LoRA 适配器(一种轻量微调模块,像给模型加个外挂滤镜)都要重新加载模型,耗时 25 秒。改进后,预热时间从 25 秒降到 3 秒,用户等待时间从 35 秒降到 13 秒,而且只用不到 5 张 A10G GPU 就能服...
#Inference-opt #Fine-tuning #Tools #Hugging Face
精选理由
H 和 R 靠冷启动延迟这个痛点过关,但 K 彻底失败——正文一个字都没有,基线、硬件、适配器数量、加载方法全缺。按硬排除零来源规则,这条故事只能留在 excluded 且分数不超过 40。
HKR 分解
hook ✓ knowledge — resonance ✓
2023-11-29 · 星期三 2023年11月29日
● P1 OpenAI 博客 · rss EN 08:00 · 11·29
Sam Altman 回任 OpenAI CEO,新初始董事会只有三个人
OpenAI 官方确认 Sam Altman 重新担任 CEO,Mira Murati 回到 CTO 岗位,Greg Brockman 也回来当总裁。新成立的初始董事会只有三个人:Bret Taylor(主席)、Larry Summers 和 Adam D'Angelo。Ilya Sutskever 不再留在董事会,但 Sam 说还在聊怎么让他继续在 ...
#Sam Altman #OpenAI #Personnel #Policy
精选理由
这是一条 95–100 分段的治理事件:Sam Altman 回归 CEO,OpenAI 重置初始董事会。HKR 三项全中,靠的是反转力度和行业冲击,但正文没披露董事会成员和生效时间,所以扣一点分,没给满分。
一句话点评
Sam Altman 回任 OpenAI CEO,新董事会只有三人,微软拿到无投票权观察员席位。这是官方公告,不是第三方报道,措辞经过精心处理。
锐评
OpenAI 用一篇官方博文确认了 Sam Altman 回归 CEO,Mira Murati 回任 CTO,Greg Brockman 也回来了。新初始董事会只有三个人:Bret Taylor 当主席,Larry Summers 和 Adam D'Angelo 留任。Ilya Sutskever 离开董事会,但 Sam 说还在谈怎么让他继续在 OpenAI 工作,语气很克制,没有透露任何分歧细节。
这篇公告本质是内部信公开,两封信都在安抚员工和合作伙伴。Sam 特别强调“没丢一个员工、没丢一个客户”,这是在回应外界对 OpenAI 稳定性的质疑。微软拿到了无投票权的董事会观察员席位,说明双方关系从之前的模糊状态走向了更明确的绑定,但微软依然没有投票权,治理结构上 OpenAI 还是保持独立。
正文没披露独立调查的具体范围和时间表,只说 Bret、Larry 和 Adam 会负责这件事。另外,新董事会只有三人,后续要扩充到多少人、什么背景,都还是空白。如果你关心这家公司到底怎么从差点散架到全员归位,这篇公告只给了结果,没给过程。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2023-11-17 · 星期五 2023年11月17日
OpenAI 博客 · rss EN 08:00 · 11·17
OpenAI 宣布领导层变动:Sam Altman 离职,CTO Mira Murati 接任临时 CEO
OpenAI 董事会宣布 Sam Altman 即日起卸任 CEO 并离开董事会,原因是董事会认为他在沟通中不够坦诚,已无法信任他继续领导公司。CTO Mira Murati 被任命为临时 CEO,立即生效。董事会称她已在公司五年,熟悉研究、产品、安全及治理,能平稳过渡。同时,董事长 Greg Brockman 卸任主席,但留任并向新 CEO 汇报。董...
#OpenAI #Personnel #Commentary
精选理由
标题是 OpenAI 官方发的“leadership transition”,光这一句就够当钩子,但正文为空,没披露任何名字、时间或汇报线。H 和 R 都成立,K 因为信息缺口直接挂零。加上这是 2023 年的旧闻,没有新角度,按硬性排除规则(过时重复)处理,重要性上限卡在 40 以下。后续真正该盯的是正式公告里的汇报关系和产品归属。
HKR 分解
hook ✓ knowledge — resonance ✓
2023-11-09 · 星期四 2023年11月9日
Hugging Face 博客 · rss EN 00:00 · 11·09
SDXL 4 步出图:Latent Consistency LoRA 把生成速度从 7 秒压到 1 秒
Hugging Face 发了一篇博客,讲 Latent Consistency LoRA(一种轻量微调模块)能让 SDXL 只用 4 步就生成图片,而不是原来的 25–50 步。在 3090 上,单张图从 7 秒降到约 1 秒,Mac 上快 10 倍。核心思路是用蒸馏(拿原模型输出当老师,训一个小模型模仿)把步数压下来,但这次不是训整个模型,而是只训...
#Vision #Inference-opt #Fine-tuning #Hugging Face
精选理由
HKR-H 靠“SDXL 四步出图”这个标题钩子通过,但 HKR-K 因为正文为空直接挂掉。硬排除规则“零来源/披露不足”适用:没权重、没延迟、没画质对比、没复现配置,重要性压不到 40 以上。
HKR 分解
hook ✓ knowledge — resonance —
2023-10-26 · 星期四 2023年10月26日
OpenAI 博客 · rss EN 07:00 · 10·26 📰 2 信源
OpenAI发布前沿模型风险与应对准备工作方案
OpenAI 发了一篇博客,宣布成立一个叫 Preparedness 的新团队,专门管前沿模型(比现在最强的模型还强的那种)可能带来的灾难性风险。团队负责人是 Aleksander Madry,工作包括能力评估、内部红队测试,以及制定一套“风险知情开发政策”(RDP),说白了就是给模型从开发到部署画一条安全红线。风险类别列了四个:个性化说服、网络安全、...
#Safety #Alignment #OpenAI #Safety/alignment
精选理由
话题本身有共鸣——OpenAI 对前沿风险的表态会触动安全治理的神经。但 RSS 正文是空的,没有模型范围、评估方法、阈值、时间表或治理细节,所以硬排除规则 6 适用,分数低于 40。
一句话点评
OpenAI 2023年10月宣布成立 Preparedness 团队,专门应对前沿模型的灾难性风险,比如网络攻击、生化威胁、自主复制等。团队由 Aleksander Madry 领导,还会搞一个风险知情开发政策(RDP),说白了就是给模型上线前加一道安全审查。同时他们办了个挑战赛,悬赏2.5万美元API额度征集“未知风险”案例,收到几百份投稿,70%都提到模型可能被用来搞舆论操控和激进宣传...
HKR 分解
hook — knowledge — resonance ✓
2023-10-19 · 星期四 2023年10月19日
Hugging Face 博客 · rss EN 00:00 · 10·19
Gradio-Lite:浏览器里跑Gradio,不用服务器
Hugging Face 发了 Gradio-Lite,一个让 Gradio 应用直接在浏览器里运行的 JS 库。它靠 Pyodide(Python 的 WebAssembly 运行时)把 Python 代码塞进浏览器执行,所以开发者不用搭服务器就能部署 demo。正文给了完整的 HTML 嵌入示例,包括引入 JS/CSS、写 `<gradio-lit...
#Tools #Hugging Face #Gradio #Product update
精选理由
HKR-H和HKR-R成立:浏览器里跑完整Gradio对应用开发者有强吸引力。HKR-K不成立,因为正文没披露实现机制、兼容性或性能数据,而且这是2023年的发布帖,没有新角度,所以按硬排除-过时重发处理。
HKR 分解
hook ✓ knowledge — resonance ✓
2023-10-04 · 星期三 2023年10月4日
Hugging Face 博客 · rss EN 00:00 · 10·04
ONNX Runtime 加速 13 万个 Hugging Face 模型
Hugging Face 说 ONNX Runtime 可以加速平台上超过 13 万个模型,覆盖 90 多种架构,包括 BERT、GPT-2、T5 等最热门的 11 种。正文只给了一个具体数据:用 ONNX Runtime 跑 whisper-tiny 模型,推理延迟比 PyTorch 最多降低 74%。但没披露测试用的硬件、batch size、精度...
#Inference-opt #Tools #Hugging Face #ONNX Runtime
精选理由
标题抛了个'13万模型'的大数,但RSS片段里没给任何加速幅度、硬件条件或精度数据,连支持的模型族和部署方式都没提。没有吞吐和时延对比,这结论没法直接用。文章是2023年的,没有新版本或新跑分,现在行业不盯着这个点,所以硬排除-过时重跑,分数压在40以下。
HKR 分解
hook ✓ knowledge — resonance —
2023-10-03 · 星期二 2023年10月3日
OpenAI 博客 · rss EN 07:00 · 10·03
OpenAI 发布 DALL·E 3 系统卡,但正文只给了摘要和下载链接
OpenAI 放出了 DALL·E 3 的系统卡页面,标题和摘要说这是一份安全与部署文档,包含外部红队测试、关键风险评估和缓解措施。但页面正文只有一段摘要和一个 PDF 下载链接,没有披露任何具体的评估数据、风险类别、缓解手段或时间节点。如果你想看细节,得自己去读那篇 PDF。
#Vision #Safety #OpenAI #DALL·E 3
精选理由
H/K/R 全不满足:这条 feed 只给了标题级元信息。OpenAI 的系统卡本身可以很重要,但这里没有披露任何评测、风险分类、缓解机制或部署上下文,所以归为 excluded。
HKR 分解
hook — knowledge — resonance —
2023-09-25 · 星期一 2023年9月25日
● P1 OpenAI 博客 · rss EN 07:00 · 09·25
ChatGPT 现在能看、能听、能说话了
OpenAI 给 ChatGPT 加了语音和图片功能。语音部分,你对着手机说话它能回你,背后用了一个新的文字转语音模型,拿几秒真人录音就能合成很像人的声音,还接入了自家的 Whisper 做语音识别。图片部分,你可以拍照或截图发给它,让它看图说话,底层是 GPT-3.5 和 GPT-4 的多模态版本。这两个功能会先推给 Plus 和 Enterpris...
#Multimodal #Vision #Audio #OpenAI
精选理由
这是一次实打实的 OpenAI 产品更新:标题确认了视觉输入、语音输入和语音输出,所以 HKR 三项都踩中了。正文没给版本、推送范围、延迟和定价,我会先打个折,停在 88 分而不是拉满。别被标题骗了,真正要盯的是语音延迟、视觉理解边界和调用入口。
一句话点评
ChatGPT 能看、能听、能说了,但先别激动,目前只推给 Plus 和企业用户,而且语音功能仅限手机端。
锐评
OpenAI 给 ChatGPT 加上了语音对话和图片理解能力。语音部分,它用了一个新的文字转语音模型,拿几秒真人录音就能合成很像人的声音,再配合自家的 Whisper 做语音识别,实现来回对话。图片部分,背后是多模态的 GPT-3.5 和 GPT-4,能看懂照片、截图和带文字的文档。
官方说这两项功能会在两周内逐步推给付费用户,语音在 iOS 和 Android 上,图片全平台都有。他们特别强调是“逐步部署”,因为语音合成容易被用来冒充他人或诈骗,所以目前只开放给语音聊天这一个场景,声音也是找专业配音演员录的。图片方面,他们找红队测试过极端主义和科学专业领域的风险,还故意限制了模型直接分析图片里人物的能力,防止胡说八道侵犯隐私。
正文没提语音交互的延迟有多高,也没说图片理解在复杂图表上的准确率到底怎么样。另外,免费用户什么时候能用、中文语音效果如何,这些关键信息都还没给。
HKR 分解
hook ✓ knowledge ✓ resonance ✓
2023-09-19 · 星期二 2023年9月19日
OpenAI 博客 · rss EN 07:00 · 09·19
OpenAI 组建红队网络,邀请外部专家给模型找漏洞
OpenAI 宣布成立红队网络,公开招募各领域专家来给模型做安全测试。红队就是模拟攻击者,主动找模型漏洞和风险。之前 OpenAI 的红队主要靠内部和零散的外部合作,这次想搞成一个常备专家库,按需调用。专家一年可能只花 5-10 小时,参与具体项目会签保密协议并拿报酬。申请已于 2023 年 12 月 1 日截止,目前不再接受新报名。正文没披露已招募多...
#Safety #OpenAI #Safety/alignment #Product update
精选理由
OpenAI 安全相关新闻让 HKR-H 和 HKR-R 有点分量。HKR-K 不行,因为这条只确认了项目名称,成员规模、参与条件、测试范围都没说,所以分数压在 50 出头,分到 all 层。
一句话点评
OpenAI 在 2023 年 9 月宣布组建红队网络,公开招募各领域专家来给模型找漏洞。关键信息:最低只需投入 5-10 小时/年,有报酬但需签 NDA。注意:申请已于 2023 年 12 月 1 日截止,目前是旧闻。正文没披露已招募多少人、实际发现了哪些漏洞。
锐评
OpenAI 这次只放出了 Red Teaming Network 这个名字,正文对成员人数、准入条件、测试权限都未披露。我先下个判断:这条信息的价值,不在“OpenAI 开始做红队”,而在他们把外部对抗测试正式产品化了多少。现在看,公开材料还不够。
说真的,红队网络这件事本身并不新。Anthropic、Google、Meta 这两年都在安全评估里引入过外部研究者、领域专家和预发布测试,只是叫法不同,公开程度也不同。OpenAI 之前也做过定向 red teaming,像 GPT-4 system card 里就写过请外部专家测生物、网络安全、说服等风险。所以标题里的新意,不是“第一次有红队”,而是他们要不要把这件事常设化、网络化、流程化。成员是一次性顾问,还是长期合作池;测试是拿到早期模型,还是只测已上线功能;能不能接触系统提示、工具调用、语音链路、多模态输入,这些决定了它是不是实打实的安全基础设施。
我对这种公告一直有个保留:很多公司把 red teaming 当成信誉背书,但不愿公开最关键的三样东西。第一是覆盖范围,第二是升级路径,第三是反馈是否真能卡住发布。没有这三项,“我们有红队”只能证明公司知道安全该被提起,证明不了机制有效。OpenAI 这条目前正卡在这里。标题给了方向,正文没给操作层。
还有一层背景不能忽略。2023 年那会儿,OpenAI 正处在监管压力和产品扩张同时上升的节点。欧洲在谈 AI Act,美国也在盯 frontier model 的自律安排,白宫同年还拉了几家模型公司做自愿安全承诺。我看这条更像是对外部治理预期的响应:先把“我们有外部测试网络”摆出来,给政策、合作伙伴和企业客户一个交代。这个动作有用,但我不太愿意把它直接记成安全能力增强,除非后面补出成员结构、测试周期、漏洞赏金或披露流程。
我还没查到这条后续配套页面里有没有申请入口、保密条款、报酬机制。要是这些都没有,这个网络更像专家通讯录,不像持续运转的评估系统。要是后面公开了 system card、拦截率、修复时长、发布前否决案例,那我会改观。现在这条只能算一个姿态明确、证据偏少的信号。
HKR 分解
hook ✓ knowledge — resonance ✓
2023-09-13 · 星期三 2023年9月13日
Hugging Face 博客 · rss EN 00:00 · 09·13
用 PyTorch FSDP 微调 Llama 2 70B
Hugging Face 发了一篇博客,讲怎么用 PyTorch FSDP 微调 Llama 2 70B。FSDP 会把模型参数、梯度和优化器状态切分到多张 GPU 上,前向和反向传播时再临时收集完整权重,以此省显存。硬件配置是 2 节点、每节点 8 张 A100(80GB),节点内用 NVLink,节点间用 Elastic Fabric Adapte...
#Fine-tuning #Inference-opt #Hugging Face #PyTorch
精选理由
标题有真实钩子,但 HKR-K 不通过,因为可用文本只确认了模型和方法。没有显存、硬件、并行策略或结果细节,加上高度专业的训练工程角度,触发了硬排除规则-技术可及性,维持原判。
HKR 分解
hook ✓ knowledge — resonance —
2023-09-06 · 星期三 2023年9月6日
FEATURED OpenAI 博客 · rss EN 07:00 · 09·06
OpenAI 首届开发者大会定档 11 月 6 日,旧金山见
OpenAI 宣布 2023 年 11 月 6 日在旧金山举办首届开发者大会 DevDay,为期一天。正文只确认了时间地点和这是第一届,没披露议程、新品发布或参会人数。目前只知道会有技术团队主持的分组讨论,以及全球开发者可以看直播。现场参会注册要等几周后才开放。另外 OpenAI 顺便提了一嘴:自 2020 年开放 API 以来,已有超过 200 万开...
#Tools #OpenAI #Product update #Commentary
精选理由
这是 OpenAI 生态的真实信号:公司为首次开发者大会定了时间和地点。HKR-H 和 HKR-R 通过,但 HKR-K 不通过,因为帖子没给议程、票务、API 或模型细节,所以分数落在 60-71 区间,分发给所有人。
一句话点评
OpenAI 要在 11 月 6 号旧金山办第一届开发者大会,现场名额有限但可以看直播。具体会发什么新东西还没说,先当个预告看。
锐评
OpenAI 宣布 2023 年 11 月 6 日在旧金山举办首次开发者大会 DevDay。这是一天的线下活动,会预览新工具、做技术交流,也会有 OpenAI 技术人员的分组讨论。现场注册会在几周内开放,同时提供主题演讲直播。
文章给了几个数字:目前有超过 200 万开发者在用 GPT-4、GPT-3.5、DALL·E 和 Whisper 这些模型,说明开发者生态已经不小。但这次大会具体要发布什么——是新模型、降价、还是让模型进业务流程干活的新功能——正文完全没提。Sam Altman 只说“展示最新工作,帮开发者造新东西”,这话弹性很大,别急着脑补。
另外,这是 2023 年 9 月的旧公告,现在回头看,当时 DevDay 确实发了 GPT-4 Turbo 和 Assistants API 这些东西。但就这条信息本身而言,它只是一个活动预告,没有产品细节,也没有技术指标。如果你在找具体更新,得去翻会后发布的博客和文档。
HKR 分解
hook ✓ knowledge — resonance ✓
2023-08-28 · 星期一 2023年8月28日
OpenAI 博客 · rss EN 07:00 · 08·28
OpenAI 推出 ChatGPT 企业版:数据不训练、不限速、32K 上下文
OpenAI 正式发布 ChatGPT Enterprise,核心卖点是企业级数据保护:承诺不用客户数据训练模型,对话全程加密,已通过 SOC 2 认证。功能上,企业版不限 GPT-4 调用次数,速度比普通版快两倍,上下文窗口拉到 32K(一次能处理四倍于之前的内容),还内置了高级数据分析(就是之前的 Code Interpreter)。管理后台支持 ...
#OpenAI #ChatGPT Enterprise #Product update
精选理由
OpenAI 推企业版,部署和合规方向有受众,所以 R 通过。但抓到的正文只有产品名,定价、上下文长度、数据政策、上线时间全没写,H 和 K 都弱,故事只能算 all。
一句话点评
OpenAI 正式推出企业版 ChatGPT,主打安全合规(SOC 2、数据不用于训练)、无限量高速 GPT-4 和 32K 上下文。价格未公布,但免费送 API 额度。已有 80% 的财富 500 强注册过 ChatGPT,但注册≠付费。正文没披露具体定价和客户留存数据,这点先别太激动。
锐评
OpenAI 只公布了 ChatGPT Enterprise 这个产品名,定价、上下文长度、数据政策、上线范围都没给。这种发布方式很像先把企业采购心智卡住,再慢慢补合同细节。我对这个节奏有点警觉,因为企业版最关键的从来不是名字,而是三件硬指标:数据是否进训练、管理员控制台能管到什么粒度、法务条款谁来背责。标题已经给出产品方向,正文没披露这些核心条件,现阶段还没法判断它是在卖真正的企业能力,还是把现有 ChatGPT 包一层 SSO 和账单。
我一直觉得,OpenAI 这一步其实是被市场推着走。2023 年中那个时间点,Microsoft 早就在推 Bing Chat Enterprise,Google 也在把 Duet AI 往 Workspace 企业包里塞。再往前看,Slack、Notion、Salesforce 这些 SaaS 公司都已经摸清一件事:企业买的不是“更聪明的聊天框”,而是权限、审计、留存、合规和采购流程兼容。我没查到 OpenAI 当天正文,因为它就是空的;但如果它没有把默认不训练、SOC 2、SAML SSO、域级管理这些条款一次讲清,这个产品名本身没那么大说服力。
还有一个我不太买账的地方:Enterprise 这个词在 AI 产品里经常被滥用。很多公司加个 enterprise,其实只是把速率限制放宽,再给一个管理员后台。真正难的是把模型服务接进公司的身份系统、日志系统、DLP 策略和法务审计链路。OpenAI 当时的强项是模型体验,不是企业软件交付。我寻思了一下,这条更像一次防守型命名,占住“ChatGPT 也能进公司”这个认知位,避免客户先被 Microsoft 或 Google 框进各自套件里。
所以这条我现在不会高估。标题说明 OpenAI 明确要抢企业预算,这点很清楚;但产品是否站得住,要看后续是否给出可执行条款。没有 pricing,就没法判断它要走 seat-based 还是 usage-based;没有数据政策,就没法判断大型金融、医疗、制造客户能不能过内审;没有上线范围,也看不出它是精选客户试点,还是准备大规模铺开。只有标题时,我的判断很简单:这是一次必要发布,不是一次完成度高的发布。
HKR 分解
hook — knowledge — resonance ✓
2023-08-22 · 星期二 2023年8月22日
Hugging Face 博客 · rss EN 00:00 · 08·22
Hugging Face 开源多模态模型 IDEFICS,对标 DeepMind 的 Flamingo
Hugging Face 发布了 IDEFICS,一个开源的视觉语言模型,直接对标 DeepMind 未公开的 Flamingo。模型能看图说话、回答图片问题,甚至基于多张图编故事。有两个版本:9B 和 80B 参数,80B 那个在多项图文理解基准上跟 Flamingo 差不多。全部用公开数据(LLaMA v1 和 OpenCLIP)训练,没有用任何闭...
#Multimodal #Vision #Open source #Product update
精选理由
HKR 的 H 靠开放复现这个钩子通过,但 K 和 R 都挂了,因为只有标题级别的宣称,正文没给任何实质信息。这是 2023 年的发布,没有新角度,按硬排除规则里的“过时重发”处理,重要性上限卡在 40 以下。
HKR 分解
hook ✓ knowledge — resonance —
2023-08-16 · 星期三 2023年8月16日
FEATURED OpenAI 博客 · rss EN 07:00 · 08·16
OpenAI 收购了一家做创意工具的小公司 Global Illumination
OpenAI 宣布收购 Global Illumination,这家公司主要用 AI 做创意工具和数字体验,团队来自 Instagram、Facebook、YouTube、Google、Pixar 等。整个团队已经加入 OpenAI,参与 ChatGPT 等核心产品的开发。公告没披露收购价格、具体时间、团队后续安排或产品整合计划,信息量很少。
#OpenAI #Global Illumination #Partnership #Product update
精选理由
OpenAI 收购 Global Illumination 这件事有新闻性(H 通过),也能反映战略方向(R 通过),但正文只确认了收购关系,金额、时间、团队去向、产品整合计划都没披露,信息缺口明显,所以 K 不通过。综合下来分数落在 60–71 区间。
一句话点评
OpenAI 买下 Global Illumination 团队,核心是收人而非收产品,这更像一次高调的团队招聘。
锐评
OpenAI 在 2023 年 8 月宣布收购 Global Illumination,整个团队加入,将参与 ChatGPT 等核心产品的工作。这本质上是一次“人才收购”,看重的是团队在 Instagram、Facebook、YouTube 等产品早期阶段的设计与工程经验,以及他们用 AI 做创意工具和数字体验的背景。
官方公告很短,没有披露交易金额、团队规模,也没有说明他们具体会负责 ChatGPT 的哪一部分。从团队背景推测,他们可能更偏向产品交互、用户体验和前端工程,而不是底层模型研发。这点先别太激动,这不是一次技术并购,而是 OpenAI 在快速扩张期补强产品化能力。
还缺的信息是:这个团队并入后是否独立运作,以及他们之前的产品(比如那个 Minecraft 风格的多人游戏)是否会继续维护。
HKR 分解
hook ✓ knowledge — resonance ✓
2023-07-27 · 星期四 2023年7月27日
Hugging Face 博客 · rss EN 00:00 · 07·27
Stable Diffusion XL 在 Mac 上跑起来了,苹果用混合位调色板把模型压到 1.4 GB
Hugging Face 和苹果合作,把 Stable Diffusion XL 移植到了 Mac 的 Core ML 上。模型太大(原版 4.8 GB),普通电脑跑不动,所以他们用了一种叫混合位调色板的压缩方法,把 UNet 部分压到等效每参数 4.5 位,总大小从 4.8 GB 降到 1.4 GB,缩小了 71%。官方说画质还行,但正文没披露具体加...
#Inference-opt #Vision #Hugging Face #Product update
精选理由
H 成立是因为 Mac 本地跑 SDXL 加 Core ML 量化本身是个不错的钩子。K 和 R 不成立:正文没披露量化位宽、速度、显存或硬件范围,所以这只是一篇小众部署贴,不是更广泛的行业故事。
一句话点评
苹果和Hugging Face把SDXL跑在了Mac上,用混合位调色板把模型从4.8GB压到1.4GB,体积降了71%,号称画质还行。但这是2023年7月的博客,时效性差,且只测了Mac,没提推理速度。
锐评
Hugging Face 这次先把 Stable Diffusion XL 搬到 Mac,条件只有一个:标题提到用了 Advanced Core ML Quantization。我的判断很直接,这条的重点不是“Mac 端生成图像 suddenly 变强”,而是 Hugging Face 在给苹果端侧分发补基础设施。正文没披露量化位宽、延迟、峰值内存、支持机型,也没说是 M1、M2 还是更高配芯片,所以现在没法把它读成一次明确的推理突破。
我对这种标题党式乐观有点警觉。扩散模型上 Mac,本来就不是新方向。去年到今年,苹果自己、Replicate、社区开发者都在折腾 Core ML 版 Stable Diffusion,主线一直是把 UNet、VAE、text encoder 拆开,靠 ANE、GPU 和统一内存吃下推理负载。SDXL 比 SD 1.5 大得多,双文本编码器和更高分辨率都让端侧部署更难,所以“能跑”本身有价值,但离“跑得好”差了至少四个数字:量化后体积、首图时延、持续吞吐、画质损失。标题一个都没给。
我还想补一层上下文。2023 年那波本地 AI 叙事里,Mac 端最先跑出来的通常是 4-bit/8-bit LLM,图像这边反而更吃内存带宽和图算调度。Core ML 的高级量化如果只是把权重压小,收益往往先体现在可加载和可分发,不一定直接兑现成成倍提速。我自己没看到正文,没法确认这次是不是用了苹果之前提过的 palettization 或 mixed-bit 方案;如果没有算子级重写,标题里的“advanced”很容易被读得太满。
所以这条我会把它当成一个生态动作看:Hugging Face 在告诉开发者,SDXL 这类重量级视觉模型也能进苹果工具链。这个信号对 demos、离线创作、隐私敏感场景都成立。性能叙事先别急着接。等正文补出位宽、机型、分辨率和对比基线,再谈它有没有把 Mac 端生成图像往前推了一格。
HKR 分解
hook ✓ knowledge — resonance —
2023-07-18 · 星期二 2023年7月18日
Hugging Face 博客 · rss EN 00:00 · 07·18
Llama 2 正式发布,Hugging Face 已全面集成
Meta 今天开源了 Llama 2 系列大模型,Hugging Face 第一时间做了完整接入。模型分 7B、13B、70B 三个尺寸,每个都有基座版和对话版(Llama 2-Chat)。相比 Llama 1,训练数据多了 40%,上下文窗口拉到 4k tokens(大概能一次处理三四千字),70B 版还用了分组查询注意力来提速。对话版用 RLHF(...
#Hugging Face #Llama 2 #Product update
精选理由
标题有吸引力,但正文没有任何可验证的细节。实际触发硬排除规则(云厂商推广),且缺乏信息来源深度,所以重要性压在 40 以下,尽管 HKR 的 H 和 R 有分。
HKR 分解
hook ✓ knowledge — resonance ✓
2023-06-15 · 星期四 2023年6月15日
Hugging Face 博客 · rss EN 00:00 · 06·15
苹果设备跑 Stable Diffusion 更快了,靠 Core ML 新优化
Hugging Face 发了一篇博客,说 iPhone、iPad 和 Mac 上跑 Stable Diffusion 现在更快了,用的是苹果 Core ML 框架的新压缩和优化技术。具体来说,他们用了 6-bit palettization(一种量化方法,把模型权重从 16 位浮点数压缩到每个参数只用 6 位,类似图片调色板,只存索引不存完整数值),...
#Vision #Inference-opt #Core ML #Product update
精选理由
H 成立是因为苹果设备本地跑 SD 加速是个具体可用的 hook。K 和 R 不成立:标题只暴露了“更快”,没有加速倍数、芯片范围、模型版本或复现步骤,而且这篇是 2023 年的旧文,没有新进展,直接触发硬排除规则。
HKR 分解
hook ✓ knowledge — resonance —
2023-05-24 · 星期三 2023年5月24日
Hugging Face 博客 · rss EN 00:00 · 05·24
Hugging Face 模型目录上架 Azure,但细节全没披露
Hugging Face 和微软合作,把 Hugging Face 模型目录搬到了 Azure 上。目前唯一能确认的条件就是“在 Azure 上”。正文因为返回 429 错误,没有披露模型数量、访问流程、定价、上线区域或具体时间。关键看点其实是:模型发现、部署和计费会不会直接嵌入 Azure 的工作流里——如果真能像用 Azure 自家服务一样点几下就...
#Tools #Hugging Face #Microsoft #Partnership
精选理由
HKR 三项全挂:这条只有合作标题,没有目录规模、定价、接入流程、区域或集成细节。触发硬排除规则 cloud-vendor-promo,读起来就是一条分发公告,不是实质性的模型或产品变化。
HKR 分解
hook — knowledge — resonance —
2023-05-23 · 星期二 2023年5月23日
Hugging Face 博客 · rss EN 00:00 · 05·23
Safetensors 通过安全审计,将成为 Hugging Face 默认格式
Hugging Face 宣布 Safetensors 已完成安全审计,并即将成为平台默认的模型权重格式。正文目前只有标题,没有披露审计方、发现了多少漏洞、修复范围以及具体切换时间。关键信息缺失,供应链安全细节待补。
#Safety #Tools #Hugging Face #Safetensors
精选理由
标题有钩子,话题也戳中供应链安全痛点,但正文完全空白,审计方、问题数量、修复细节、切换时间一概未提,信息缺口导致硬排除规则生效,分数上限被压在 40 以下。
HKR 分解
hook ✓ knowledge — resonance ✓
2023-05-22 · 星期一 2023年5月22日
OpenAI 博客 · rss EN 07:00 · 05·22
超级智能治理:OpenAI 的早期思考
OpenAI 发了一篇博客,讨论未来超级智能(比通用人工智能还强的 AI)该怎么管。核心三点:一是头部开发方需要协调,比如政府牵头项目或限制每年能力增长速率;二是最终可能需要一个类似国际原子能机构的国际监管机构,对超过算力或能力门槛的项目进行审查、审计、限制部署;三是技术上得先解决如何让超级智能本身安全,这还是个开放研究问题。文章明确说,当前 AI 系...
#Alignment #Safety #OpenAI #Policy
精选理由
H 和 R 通过,因为 OpenAI 加超级智能治理这个组合本身就有话题性。K 不通过,因为 RSS 只暴露了标题,正文为空,信息源为零,只能归为 excluded。
HKR 分解
hook ✓ knowledge — resonance ✓
2023-05-15 · 星期一 2023年5月15日
Hugging Face 博客 · rss EN 00:00 · 05·15
用一张AMD显卡跑类ChatGPT聊天机器人
这篇博客标题说可以用一张AMD GPU(通过ROCm平台)跑一个类似ChatGPT的聊天机器人,正文只确认了“单卡”这个条件。文章介绍了Vicuna 13B模型,用70万条用户对话微调LLaMA得到,训练成本仅约300美元。为了把显存需求从28GB(fp16)降下来,用了GPTQ 4-bit量化,但正文没有披露具体用了什么模型、实际显存占用、生成速度或...
#Tools #Inference-opt #Commentary
精选理由
只有标题,正文为空,所以K项因缺少模型、显存、吞吐、延迟和步骤这些基础信息而失败。H项和R项也弱,这是一个低信号教程梗概,评分34,归为excluded。
HKR 分解
hook — knowledge — resonance —
2023-04-05 · 星期三 2023年4月5日
Hugging Face 博客 · rss EN 00:00 · 04·05
StackLLaMA:用RLHF调教LLaMA的实操指南
Hugging Face 发了一篇手把手教你怎么用 RLHF(人类反馈强化学习)训练 LLaMA 模型的博客。正文目前只有标题和目录,没有具体内容,所以训练用了什么数据集、模型多大、跑了多少步、效果如何,一概没披露。从目录看,流程包括监督微调、奖励模型训练和强化学习对齐,还专门有一节讲训练中的不稳定问题和应对方法。如果你正在做 RLHF 落地,这篇值得...
#Fine-tuning #Alignment #Hugging Face #LLaMA
精选理由
触发硬排除-过时重发:这是一篇 2023 年的教程,不是当前进展。HKR 三项全不满足,尤其是 K——正文只有标题级信息,未披露数据集、训练流程或结果。
HKR 分解
hook — knowledge — resonance —
2023-03-24 · 星期五 2023年3月24日
FEATURED OpenAI 博客 · rss EN 07:00 · 03·24
ChatGPT 3月20日宕机:一个开源库 bug 导致用户聊天记录和支付信息泄露
OpenAI 确认,3月20日 ChatGPT 宕机是因为一个开源库 redis-py 的 bug,导致部分用户能看到其他活跃用户的聊天标题,甚至新对话的第一条消息。更严重的是,约1.2%的 ChatGPT Plus 订阅者(在特定9小时窗口内活跃的用户)的姓名、邮箱、账单地址、信用卡类型、后四位和有效期可能被其他用户看到——但完整卡号没泄露。Open...
#OpenAI #Incident
精选理由
OpenAI 官方确认 3 月 20 日 ChatGPT 故障,但 RSS 片段正文为空,停机时长、影响范围、根因与修复措施均未披露。真正该盯的是后续 RCA,而不是标题里的“解释”。
一句话点评
OpenAI 自己发公告解释 3 月 20 日宕机,核心是 Redis 客户端库的 bug 导致用户聊天记录标题和部分支付信息可能被错看,但完整卡号没泄露。
锐评
这条公告是 OpenAI 在 2023 年 3 月 24 日发的,复盘了四天前 ChatGPT 下线的原因。问题出在 redis-py 这个开源库与异步请求的交互上:请求取消时连接没清干净,下一个请求可能拿到上一个用户的数据。影响分两层,一是聊天历史标题可能被别的活跃用户看到,二是 1.2% 的 ChatGPT Plus 订阅者在特定 9 小时窗口内,姓名、邮箱、支付地址、信用卡后四位和有效期可能被错看。完整卡号没暴露,这点可以稍微松口气。OpenAI 说实际被看到数据的人极少,但正文没给出具体人数,也没解释怎么算出来的。他们修了 bug、加了缓存校验、查了日志,动作算快,但公告里没提是否通知了监管机构,也没说受影响用户能拿到什么补偿。整篇读下来,技术复盘写得清楚,但用户影响评估部分信息缺口明显,更像一次对内复盘转公开,而不是面向用户的完整交代。
HKR 分解
hook ✓ knowledge — resonance ✓
2023-03-17 · 星期五 2023年3月17日
OpenAI 博客 · rss EN 07:00 · 03·17
GPTs 就是通用技术:OpenAI 早期研究称 80% 美国岗位至少 10% 任务会被影响
OpenAI 在 2023 年 3 月发了一篇论文,标题玩了个双关:GPTs(模型)就是 GPTs(通用技术)。核心结论是约 80% 的美国劳动力,至少有 10% 的工作任务会被 GPT 这类模型影响;约 19% 的人一半以上的任务都可能被波及。而且高薪职业受影响比例反而更高,不光是低端重复劳动。论文用了一套新评估方法,结合人工和 GPT-4 自己打分...
#OpenAI #Research release #Commentary
精选理由
标题有钩子,但正文没披露任何关键数字——样本规模、评估方法、受影响职业比例、核心结论全缺,信息缺口太大,加上硬性排除规则(陈旧重发)把分数压在 40 以下,所以不收录。
HKR 分解
hook ✓ knowledge — resonance ✓
2023-03-09 · 星期四 2023年3月9日
Hugging Face 博客 · rss EN 00:00 · 03·09
用 RLHF 在 24GB 消费级显卡上微调 200 亿参数大模型
Hugging Face 宣布把 TRL(强化学习微调库)和 PEFT(参数高效微调工具)打通,让 RLHF 微调 200 亿参数模型只需要一张 24GB 的消费级显卡。核心做法是:先把模型加载成 8 位精度(省显存),再挂上可训练的 LoRA 小适配器(只改少量参数),最后用同一份模型同时算参考 logits 和当前 logits。正文没有披露具体用...
#Fine-tuning #Alignment #Commentary
精选理由
H 和 R 成立:标题确实抓人,20B 模型 RLHF 压进 24GB 消费卡,成本敏感型用户会点进来。K 不成立:正文一个字没有,缺了所有复现关键参数,所以这条只能留在 all 里,等人补细节。
一句话点评
Hugging Face 把 RLHF 微调 20B 模型的门槛压到一张 24GB 消费级显卡上,靠的是 8-bit 量化 + LoRA 低秩适配器。之前全精度光加载模型就要 40GB,现在显存省了一半多。但正文没披露训练速度、收敛步数或最终效果对比,所以“能跑”不等于“跑得好”。对个人开发者是好事,但先别太激动。
锐评
标题只给出一个硬条件:24GB 消费级 GPU 可以对 20B 参数模型做 RLHF 微调。问题也卡在这里。正文没披露基座模型、量化位宽、LoRA rank、梯度检查点、paged optimizer、sequence length、batch size、reward model是否同卡运行,连训练时长和 tokens/s 都没有。这种信息密度,离“别人能照着跑”还差一整层。
我对这条的第一判断是:它大概率在讲“把 RLHF 流程拆到勉强塞进单卡”,不是在讲“单卡也能高效做 20B 对齐训练”。2023 年那个时间点,社区已经在用 QLoRA 把 33B、65B 的监督微调压到 24GB 或 48GB 卡上,关键手段就是 4-bit 量化 + LoRA + gradient checkpointing。RLHF 比 SFT 麻烦一截,因为你不只要 policy,常见流程还要 reward model、value head、rollout cache,PPO 一跑,显存和吞吐都会更难看。要把 20B RLHF 塞进 24GB,理论上不是做不到,但通常要靠很激进的取舍:短上下文、小 batch、强依赖 CPU offload,甚至把 reward 计算拆到另一阶段。标题没说这些,我对“消费级 GPU 即可”这个叙事会保留意见。
还有个上下文不能省。Hugging Face 当时推 TRL 和 PEFT,核心价值一直不是把 RLHF 变便宜,而是把以前只有大实验室能碰的流程,拆成社区能改、能接、能试的组件。这个方向后来被证明很对:真正扩散开的不是大规模 PPO 生产线,而是 LoRA/QLoRA、DPO 这类更稳、更省资源的对齐路径。回头看,这篇标题像一个时代切片:大家都在试图把 RLHF 下沉到个人硬件,但行业后来并没有长期停在 PPO 这条线上。
我还有个疑虑:这里的“20B”到底是可训练参数规模,还是加载后的基座规模?如果只是 20B 基座 + 少量适配器参数更新,那和“在 24GB 上训练 20B 模型”不是一回事。标题用了很容易让人误解的说法,正文又空着,这就有点不对劲了。我的态度很简单:先把显存账本和训练脚本放出来,再谈 democratization。没有这些,这条更像一张技术海报。
HKR 分解
hook ✓ knowledge — resonance ✓
2022-11-17 · 星期四 2022年11月17日
Hugging Face 博客 · rss EN 00:00 · 11·17
用同态加密做情感分析:输入全程加密,模型照样判断正面负面
Hugging Face 一篇博客展示了如何用同态加密(FHE)对加密文本做情感分析,用户输入全程不解密,服务器也看不到原文。做法是用 BERT 提取文本特征,再喂给 XGBoost 做三分类(正面/负面/中性),最后用 Concrete-ML 库把推理过程搬到加密数据上。数据集是 Twitter 航空公司评论,负面样本占 62.7%,正面只有 16....
#Safety #Hugging Face #Commentary
精选理由
标题钩子成立,但正文几乎没给任何技术细节——模型、延迟、吞吐、准确率损失全没提,信息缺口大到没法评估。隐私合规方向确实有共鸣,但缺乏关键数据支撑,硬排除技术可及性上限卡在40以下。
HKR 分解
hook ✓ knowledge — resonance ✓
2022-10-19 · 星期三 2022年10月19日
OpenAI 博客 · rss EN 07:00 · 10·19
奖励模型过度优化的缩放定律
OpenAI 发了一篇论文,核心是研究奖励模型(给模型回答打分的模型)被过度优化时会发生什么。他们用了一个合成实验:先固定一个“黄金标准”奖励模型当人类,再训练一个代理奖励模型去模仿它,然后看用强化学习或 best-of-n 采样(从多个回答里挑分最高的)去优化代理模型时,黄金模型的分数怎么变。结果发现,优化方法和模型参数量会直接影响分数变化曲线,而且...
#Alignment #Safety #Benchmarking #OpenAI
精选理由
标题有钩子——OpenAI 把奖励模型过度优化和缩放定律绑在一起,但这是 2022 年的研究,当前这条 RSS 没给任何新角度。硬排除规则里的“过时重发”适用,而且 K 项不通过,因为正文没披露实验设置、指标和结果,信息不够做判断。
HKR 分解
hook ✓ knowledge — resonance ✓
2022-08-02 · 星期二 2022年8月2日
Hugging Face 博客 · rss EN 00:00 · 08·02
Nyströmformer:用Nyström方法把自注意力算得快一点、省点显存
这篇博客讲的是Nyströmformer,一个用Nyström矩阵近似法把Transformer自注意力的时间和内存复杂度从O(n²)降到O(n)的模型。核心思路是不直接算完整的注意力矩阵,而是从查询和键里挑出少量“地标”点,用它们拼出三个小矩阵来近似原矩阵。正文只解释了方法原理,没有披露近似误差、实际加速比、能支持多长的序列,也没给下游任务的benc...
#Inference-opt #Hugging Face #Research release
精选理由
硬排除:技术可读性差且信息源单薄。标题说用Nyström方法把自注意力降到线性复杂度,但正文没给近似误差、基准测试或复现细节,所以HKR三项都不满足目标读者需求。
HKR 分解
hook — knowledge — resonance —
2022-05-28 · 星期六 2022年5月28日
OpenAI 博客 · rss EN 07:00 · 05·28
教模型用自然语言说“我不确定”
OpenAI 发了一篇 2022 年的论文,核心是让 GPT-3 在回答问题时自己说出信心有多高,比如“90% 信心”或“高信心”,而不是靠模型内部的 logit 分数。实验表明,这些用自然语言表达的置信度跟实际正确率对得上(校准良好),换到没见过的题目分布时也还能保持中等校准。关键发现是模型能感知自己答案的不确定性,而不是单纯模仿人类标注。论文还搞了...
#Alignment #Safety #OpenAI #Research release
精选理由
标题本身有钩子,因为校准是实际痛点,但正文为空,模型、方法、指标、上线范围全缺,属于硬排除的零来源和过时重跑,所以分数压在 40 以下,tier 设为 excluded。
HKR 分解
hook ✓ knowledge — resonance ✓
2022-05-10 · 星期二 2022年5月10日
Hugging Face 博客 · rss EN 00:00 · 05·10
Hugging Face 发布 Optimum 推理加速,用 ONNX Runtime 跑 Transformers 流水线
Hugging Face 正式在 Optimum 库中支持推理加速,核心做法是把 Transformers 模型转成 ONNX 格式,再用 ONNX Runtime 跑。这样用户不用改代码,把原来的 AutoModelForXxx 换成 ORTModelForXxx 就行。正文给出了一个完整的 RoBERTa 问答模型加速教程,包括模型转换、图优化、动...
#Inference-opt #Tools #Hugging Face #Optimum
精选理由
Hugging Face 发了一篇讲 Optimum 和 Transformers Pipelines 加速推理的博文,但 RSS 片段只有标题和摘要,正文没披露加速幅度、支持什么硬件、覆盖哪些模型、怎么复现。标题里的“加速”只是方向,不是结论。对从业者来说,没有数字和路径,这条链接目前只能当个工具更新预告看,编辑价值很低。
HKR 分解
hook — knowledge — resonance —
2022-05-09 · 星期一 2022年5月9日
Hugging Face 博客 · rss EN 00:00 · 05·09
Hugging Face 完成 1 亿美元 C 轮融资
Hugging Face 宣布获得 1 亿美元 C 轮融资,由 Lux Capital 领投,Sequoia、Coatue 等跟投。这笔钱将用于加大开源、产品和研究的投入。目前平台已托管 10 万个预训练模型和 1 万个数据集,超过 1 万家企业在使用。正文没有披露估值、具体资金用途和本轮详细条款。
#Hugging Face #Funding
精选理由
Hugging Face 融了 1 亿美元,这事本身有信号意义,尤其对开源 AI 圈子。但这是 2022 年的旧闻,正文除了金额几乎没给新信息——轮次、估值、谁投的、钱怎么花,一概没披露。硬排除-旧闻重跑规则把它压在 40 以下,合理。
HKR 分解
hook ✓ knowledge — resonance ✓
2021-12-16 · 星期四 2021年12月16日
OpenAI 博客 · rss EN 08:00 · 12·16
WebGPT:让模型自己上网查资料再回答,减少胡说八道
OpenAI 在 2021 年底发了一篇论文,核心思路是让 GPT-3 学会用文本浏览器上网查资料,再根据查到的内容写答案。模型会模拟人搜索、翻页、引用来源的过程,目的是减少大模型凭空编造事实的问题。训练分两步:先模仿人类操作学会用浏览器,再用人类偏好做强化学习或拒绝采样来优化答案质量。在 ELI5 数据集上,最好的模型有 56% 的概率比人类示范者写...
#Tools #RAG #OpenAI #WebGPT
精选理由
这是OpenAI 2021年的WebGPT旧帖,没有新角度,直接按硬排除-过时重发处理。标题只说了目标——通过网页浏览提升事实准确性,但机制、规模、评测数字都没披露,所以H、K、R三项都不满足。
HKR 分解
hook — knowledge — resonance —
2021-10-25 · 星期一 2021年10月25日
Hugging Face 博客 · rss EN 00:00 · 10·25
用10亿句子对训练句向量模型
Hugging Face 发了一篇博客,讲怎么用10亿个句子对训练一个句向量模型(把句子转成向量,用来做聚类、搜索等)。方法不新鲜:用对比学习,让模型把语义相近的句子对拉近,把不匹配的推远,损失函数叫 Multiple Negative Ranking Loss。训练用了7块 TPU v3-8,规模不小。但正文没披露最终模型效果、跟 Sentence-...
#Embedding #Hugging Face #Commentary
精选理由
标题有规模钩子,但正文缺失,HKR-K和HKR-R因为缺少方法、评测和开源细节而失败。这触发了硬排除-零来源规则,重要性上限40,层级设为excluded。
HKR 分解
hook ✓ knowledge — resonance —
2020-09-22 · 星期二 2020年9月22日
OpenAI 博客 · rss EN 07:00 · 09·22
OpenAI 把 GPT-3 授权给微软
OpenAI 在 2020 年 9 月宣布,把 GPT-3 授权给微软用于其自家产品和服务。这是双方 2019 年宣布的多年合作的一部分。正文没披露授权范围、是否独家、价格和时间表。不过 OpenAI 强调,这次授权不影响开发者通过 API 继续使用 GPT-3,API 用户照常能调用这个 1750 亿参数的模型。简单说就是微软拿到了 GPT-3 的商...
#OpenAI #Microsoft #Partnership
精选理由
标题确认了交易双方和技术,但正文一个字都没有,所以 H 和 R 成立,K 不成立——信息缺口太大,连授权是排他性还是非排他性都不知道,更别提价格和部署时间了。
HKR 分解
hook ✓ knowledge — resonance ✓
2019-04-15 · 星期一 2019年4月15日
OpenAI 博客 · rss EN 07:00 · 04·15
OpenAI Five 在 Dota 2 直播赛中击败世界冠军 OG
OpenAI 宣布其 Dota 2 五对五 AI 系统 OpenAI Five 在 Finals 周末连续两局击败了世界冠军战队 OG,这是 AI 首次在电竞直播赛中战胜职业选手。此前 OpenAI Five 和 DeepMind 的 AlphaStar 都曾在私下赢过职业选手,但公开赛都输了。这次胜利的关键是把训练算力提升了 8 倍:从 TI8 时的...
#Agent #Benchmarking #OpenAI #OpenAI Five
精选理由
标题确实抓人,但正文几乎为空,连比赛怎么打的、用了什么限制都没说。而且这是 2019 年的事,现在翻出来没有新信息或新场景,按硬性规则直接归为陈旧重播,分数上限卡在 40 以下。
HKR 分解
hook ✓ knowledge — resonance —