ax@ax-radar:~/feed $ tail -f signal.log
40 srcsignal 12%cycle 04:32

热点聚合 · 2026-05-02

12 signals · updated 3m ago
live · 238 today·policy v2
AI HOT 精选OpenAI 上市前连挖两人:Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户,医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线,App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI,但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench:由博士科学家出题、审题,专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus,它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史:你以为的石破天惊,其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型,用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗?Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人:Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户,医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线,App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI,但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench:由博士科学家出题、审题,专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus,它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史:你以为的石破天惊,其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型,用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗?Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·AI HOT 精选OpenAI 上市前连挖两人:Transformer 论文作者 Noam Shazee…88·AI HOT 精选SK 电信怎么卷进了 Anthropic 的 Mythos 出口管制风波86·AI HOT 精选GPT-5.5 Instant 把前沿健康问答能力带给了免费用户,医生盲评得分比真人写…82·THE VERGE · AIAnthropic 被自己人也看不懂的出口管制规则搞停了服务82·AI HOT 精选DeepSeek 识图模式在 App 和网页端上线,App 端仍标注“内测中”78·TECHCRUNCH AI各国想要美国 AI,但不想让美国能随时关掉它78·OPENAI 博客OpenAI 发布 LifeSciBench:由博士科学家出题、审题,专门考模型做真实…78·HACKER NEWS 首页本地 Qwen 不是缩水版 Opus,它是另一种工具78·COMPUTING LIFE · SHA推理模型四年史:你以为的石破天惊,其实早有暗线78·AI HOT 精选阿里开源 LOGOS 科学模型,用 1/56 参数量在多项任务上超过微软 Nature…78·AI HOT 精选开源模型当程序员助手够格吗?Hugging Face 拿自家代码库做了个摸底测试78·彭博科技微软靠转卖 OpenAI 模型在中国 AI 市场撕开一道口子78·
RSS live
2026-05-02 · 星期六2026年5月2日
08:12
47d ago
● P1r/LocalLLaMA· rssEN08:12 · 05·02
Qwen3.6-27B在RTX 3090上通过vLLM达到72tokens每秒
Reddit 用户 One_Slip1455 发了个原生 Windows 版 vLLM 启动器,不用 WSL 也不用 Docker。在一张 RTX 3090 上跑 Qwen3.6-27B(INT4 量化),短上下文能到 72 tok/s;上下文拉到约 2.5 万 token 时速度 64.5 tok/s,12.7 万 token 时还有 53.4 to...
#Inference-opt#Tools#Qwen#vLLM
精选理由
HKR 三项都成立:原生 Windows 跑 27B 模型是钩子,帖子里有可验证的速度和上下文数字,而且直击本地推理省钱这个痛点。不过来源只有 Reddit 单帖,没有官方背书或产品级变动,所以放在 featured 低位是合理的。
一句话点评
有人在 Windows 上直接用 vLLM 跑 Qwen3.6-27B,一张 RTX 3090 跑到 72 tok/s,不用 WSL 也不用 Docker。
锐评
这条消息来自 Reddit 的 r/LocalLLaMA 板块,但原文被屏蔽了,我们看不到具体的配置细节和测试条件。标题里提到的 72 tok/s 是在一张 RTX 3090 上跑 Qwen3.6-27B 的速度,这个数字对于消费级显卡来说相当不错,意味着本地跑大模型的门槛又低了一点。 不过有几个关键信息缺失:模型是用了什么量化精度?上下文长度设了多少?是单轮对话还是长文本生成?这些都会直接影响速度。另外,标题强调“原生 Windows”和“便携式启动器”,说明作者可能打包了一个免折腾的安装方案,这对不想碰命令行的用户是好事,但正文没披露这个方案的稳定性和兼容性如何。 先别太激动,等有人复现了再下结论。如果 72 tok/s 是在 4-bit 量化、短上下文下跑出来的,那属于正常水平;如果是全精度或长上下文,才算有点意思。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1

更多

频道

后台