FEATURED量子位 · 公众号· rssZH04:00 · 05·30
人大和至知研究院开源了 Claw Agent 的全套训练方案,连数据带模型和评测一起给了
人大和至知研究院放出了一个叫 ClawGym 的 Agent 训练框架,把数据、训练代码和模型权重都开源了。他们合成了 13500 条可执行的任务当训练数据,又做了 200 条任务的基准测试集。用这套东西训出来的 ClawGym-30B-A3B 模型,在他们自己的 ClawGym-Bench 上拿了 56.82 分,比 Qwen3-235B-A23B ...
#Agent#Tools#Benchmarking#Renmin University of China
精选理由
这条消息对 Agent 开发者很实用。ClawGym 把数据、代码、模型检查点一起打包开源,不是又一个只有排行榜的项目。13.5K 合成任务规模不算大,但 200 个评测任务和 56.82 的得分给了明确的起点。我会先打个折:正文没披露合成任务的质量验证细节,也没说这个分数在实际业务场景里对应什么水平,所以别急着对标生产环境。但作为开源基建,它降低了复现和改造的门槛,值得关注。
一句话点评
人大和至知研究院开源了一套Agent训练全流程,但正文因验证问题无法读取,具体方法、数据和模型细节均未披露。
锐评
这条消息本身挺值得关注:Agent(让模型进业务流程干活)的训练一直缺标准化数据和高难度评测,团队直接放出数据、训练代码和模型权重,对想复现或改进Agent能力的人来说是实打实的资源。但问题在于,原文页面被微信环境异常拦截,我实际看不到任何技术细节。摘要里提到合成了13500条可执行任务,模型在自建基准上拿了56.82分,超过Qwen3-235B-A23B——这个分数绝对值不高,说明任务本身有难度,不是刷榜玩具。不过,基准只有200条任务,覆盖面是否够广、任务类型是否贴近真实业务场景,这些都没法从现有信息判断。另外,30B激活参数能超过235B模型,要么是数据质量高,要么是评测设计对特定模式有利,这点先别太激动,得等看到具体任务样例和训练配方才能下结论。
HKR 分解
hook ✓knowledge ✓resonance ✓