2510.10472 – Summary

📄 论文总结

FML-bench：用于评估自动化机器学习研究代理的基准测试 / FML-bench: A Benchmark for Evaluating Automated Machine Learning Research Agents

本文提出了FML-bench基准测试，通过包含8个基础机器学习问题的多样化任务和五维评估协议，系统评估自动化机器学习研究代理的科研能力，发现广泛探索策略比深度优化更有效。

FML-bench：用于评估自动化机器学习研究代理的基准测试，包含8个基础机器学习研究问题，基于真实世界代码库构建
自动化机器学习研究代理：能够自主提出想法并进行机器学习实验的AI代理，最大化研究自动化并加速科学进步
学术贡献率：区分学术修改（如新损失函数、架构或训练方案）与工程修改的指标，评估代理提出解决方案的学术价值
效用：主要目标指标，衡量经验性能改进，计算公式为U(m, C) = perf(C ⊕ m) - perf(C)，其中perf(·)评估任务特定指标（如准确率、AUC）
多样性：量化所有假设的多样性，通过修改的语义和结构方差测量，反映代理的探索广度，与发现高性能解决方案强相关
TheAIScientist：采用并行探索策略的AI研究代理，在实验中表现出最佳的广泛探索能力
AIDE：树搜索代理，通过迭代编辑和评估代码来优化用户定义指标
DomainBed：用于域泛化研究的基准测试库，包含多个领域的数据集
ATE：平均处理效应，因果推断中衡量干预效果的核心指标
Invariant Risk Minimization：一种旨在学习在不同环境中保持不变的特征表示的方法
AI Fairness 360：IBM开发的用于检测和减轻算法偏见的开源工具包