FEATURED机器之心 · 公众号· rssZH05:30 · 06·02
DataMaster:让模型自己搜数据、洗数据、拼数据,MLE-Bench Lite 奖牌率从 35.91% 拉到 68.18%
这篇论文提出了 DataMaster,一个让大模型自己当数据工程师的流程。它不碰模型结构和训练算法,只做三件事:自动搜索外部数据、清洗脏数据、把多个数据集拼成一张表。在 MLE-Bench Lite 这个机器学习竞赛基准上,DataMaster 把奖牌率从 35.91% 提到了 68.18%,几乎翻倍。正文没披露具体用了哪些模型、单次任务耗时和额外算力...
#Agent#Tools#Benchmarking#Shanghai Jiao Tong University
精选理由
DataMaster 做的事很直接:模型和训练代码都不动,只让系统自己去搜、洗、拼数据,结果 MLE-Bench Lite 奖牌率从 35.91% 拉到 68.18%,接近翻倍。我会先打个折——这还只是单篇研究,没有生产环境验证,benchmark 本身也不是完整 MLE-Bench,所以别急着当银弹。但“数据工程自动化”这个方向确实戳中很多团队的日常痛点,加上数字够具体,给 78 分 featured 合理。
一句话点评
DataMaster 让模型自己搜数据、洗数据、拼表,在 MLE-Bench Lite 上把奖牌率从 35.91% 拉到 68.18%,但正文没披露用了什么模型、一次任务跑多久、额外算力多少。
锐评
这篇论文的思路很直接:不碰模型结构和训练算法,只优化数据准备环节。DataMaster 做了三件事——自动搜索外部数据、清洗脏数据、把多个数据集拼成一张表。在 MLE-Bench Lite 这个机器学习竞赛基准上,奖牌率从 35.91% 提到了 68.18%,几乎翻倍,说明数据工程这块的自动化确实能带来明显收益。
不过正文有几个关键信息没给:具体用了哪些模型、单次任务耗时、额外算力成本。这些数字直接决定这套流程能不能在实际项目里跑起来。如果每次数据准备都要烧很多 token 或者等很久,那性价比就要重新算。另外,MLE-Bench Lite 本身是竞赛场景,任务相对标准化,真实业务里的脏数据可能更乱、更没规律,DataMaster 能不能扛住还不好说。
我会先打个折:方向对,但缺成本数据和更脏场景的验证,暂时别把它当通用方案。
HKR 分解
hook ✓knowledge ✓resonance ✓