Machine learning engineering (MLE) agents promise to automate end-to-end ML pipeline development from raw data and natural language instructions, potentially making ML accessible to non-technical domain experts. However, in sensitive and regulated domains, this abstraction creates a responsibility gap: end-users may lack visibility into design choices that affect correctness, robustness, fairness, and regulatory compliance. We argue that existing benchmarks are insufficient to assess whether MLE agents can be safely applied in such settings. We propose desiderata for a responsibility-centered evaluation framework and conduct an exploratory study on melanoma classification, focusing on fairness across skin tones as a responsibility constraint. When evaluating two recent MLE agents, we find that agent-generated pipelines show high variance and consistently underperform manually designed baselines in both predictive quality and fairness, despite fairness-oriented prompts. These preliminary results suggest that further research is needed towards redesigning MLE agents to allow humans to guide the search process and reliably assess the compliance and quality of the generated ML pipelines.


翻译:机器学习工程代理承诺从原始数据和自然语言指令中自动化端到端机器学习流水线的开发,这有望使非技术领域专家也能使用机器学习。然而,在敏感且受监管的领域中,这种抽象化造成了责任缺口:最终用户可能无法了解那些影响正确性、鲁棒性、公平性和法规遵从性的设计选择。我们认为现有基准不足以评估机器学习代理能否安全应用于此类场景。我们提出以责任为中心的评估框架的应具备要素,并围绕皮肤肿瘤分类开展探索性研究,将肤色间的公平性作为责任约束进行聚焦。在评估两个近期机器学习代理时,我们发现代理生成的流水线表现出高方差,且即便在面向公平的提示下,其在预测质量和公平性两方面均始终逊于人工设计的基准方法。这些初步结果表明,需要进一步研究以重新设计机器学习代理,使人类能够引导搜索过程,并可靠地评估所生成机器学习流水线的合规性与质量。

0
下载
关闭预览

相关内容

可信机器学习的公平性综述
专知会员服务
69+阅读 · 2021年2月23日
【机器学习课程】机器学习中的常识性问题
专知会员服务
76+阅读 · 2019年12月2日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
【机器学习】机器学习工业领域应用
产业智能官
11+阅读 · 2018年10月23日
机器学习笔试题精选
人工智能头条
13+阅读 · 2018年7月22日
第二章 机器学习中的数学基础
Datartisan数据工匠
12+阅读 · 2018年4月5日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Arxiv
0+阅读 · 5月24日
Arxiv
11+阅读 · 2023年9月22日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关资讯
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
【机器学习】机器学习工业领域应用
产业智能官
11+阅读 · 2018年10月23日
机器学习笔试题精选
人工智能头条
13+阅读 · 2018年7月22日
第二章 机器学习中的数学基础
Datartisan数据工匠
12+阅读 · 2018年4月5日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员