FEATUREDHacker News 首页· rssEN21:00 · 06·17
OpenRouter 让 11 个大模型打了 30 场吃鸡赛,Grok 4.1 Fast 赢了 43%,成本只有 Claude 的 1/27
OpenRouter 的 Jacky Liang 把 11 个模型扔进一个 2D 吃鸡游戏里打了 30 局。Grok 4.1 Fast 赢了 13 局,每赢一局成本 0.97 美元;Claude Sonnet 4.6 赢了 5 局,每赢一局要 26.78 美元,差了 27 倍。GPT 5.4 杀了 38 个人头,全场最高,但只赢了 2 局——杀得多不等...
#Agent#Reasoning#OpenRouter#Anthropic
精选理由
OpenRouter 官方博客,作者 Jacky Liang 自己跑了 30 局并公开了完整数据和回放。Grok 4.1 Fast 的成本优势很扎眼,Claude Sonnet 4.6 贵但表现稳定,GPT 5.4 人头最多却赢不了——三个发现都有具体数字支撑,可复现、可验证。对正在选模型搭 agent 的人来说,这种实战对比比跑分表有用。
一句话点评
Grok 4.1 Fast 在 30 局 2D 吃鸡里赢了 13 局,每赢一局成本 0.97 美元;Claude Sonnet 4.6 赢一局要 26.78 美元,贵了 27 倍。GPT 5.4 人头最多但只赢 2 局,杀得多不等于活得久。
锐评
OpenRouter 的 Jacky Liang 把 11 个模型扔进一个 2D 吃鸡游戏打了 30 局,让它们每回合自己推理、调用工具、更新记忆,不是只生成控制代码。结果最亮眼的是成本差:Grok 4.1 Fast 赢下 13 局,每局成本不到 1 美元;Claude Sonnet 4.6 赢了 5 局,每局成本却要 26.78 美元,差了 27 倍。GPT 5.4 拿了全场最高的 38 个人头,但只赢了 2 局,说明在这个环境里,攻击性强不等于生存策略好。另外,GPT 5.4-mini、DeepSeek 4 Flash 和 Kimi K2.6 三个模型加起来花了 57 美元,一局没赢。
这个实验有意思的地方在于它测的不是刷榜能力,而是模型在持续决策、资源管理和风险评估上的综合表现。Claude Sonnet 4.6 在游戏里频繁尝试结盟、暴露位置,这种“社交倾向”在真实业务场景里可能是优点,但在吃鸡规则下就是送人头。不过正文没给出完整的排行榜和所有模型的行为差异细节,30 局的样本量也不算大,所以成本对比虽然扎眼,但别直接当成选模型的唯一依据。还缺的是:不同随机种子下的稳定性、模型在更复杂任务里的表现是否和这个结果一致。
HKR 分解
hook ✓knowledge ✓resonance ✓