LLM agents hold significant promise for advancing scientific research. To accelerate this progress, we introduce AIRS-Bench (the AI Research Science Benchmark), a suite of 20 tasks sourced from state-of-the-art machine learning papers. These tasks span diverse domains, including language modeling, mathematics, bioinformatics, and time series forecasting. AIRS-Bench tasks assess agentic capabilities over the full research lifecycle -- including idea generation, experiment analysis and iterative refinement -- without providing baseline code. The AIRS-Bench task format is versatile, enabling easy integration of new tasks and rigorous comparison across different agentic frameworks. We establish baselines using frontier models paired with both sequential and parallel scaffolds. Our results show that agents exceed human SOTA in four tasks but fail to match it in sixteen others. Even when agents surpass human benchmarks, they do not reach the theoretical performance ceiling for the underlying tasks. These findings indicate that AIRS-Bench is far from saturated and offers substantial room for improvement. We open-source the AIRS-Bench task definitions and evaluation code to catalyze further development in autonomous scientific research.


翻译:大型语言模型智能体在推动科学研究方面具有重要潜力。为加速这一进程,我们推出了AIRS-Bench(人工智能研究科学基准),该套件包含20项源自前沿机器学习论文的任务。这些任务涵盖语言建模、数学、生物信息学和时间序列预测等多个领域。AIRS-Bench任务评估智能体在完整研究生命周期中的自主能力——包括创意生成、实验分析与迭代优化——且不提供基准代码。AIRS-Bench的任务格式具有高度灵活性,支持新任务的便捷集成与不同智能体框架间的严格比较。我们采用前沿模型结合串行与并行框架的方式建立了性能基线。实验结果表明,智能体在四项任务中超越了人类最佳水平,但在其余十六项任务中未能达到同等表现。即使智能体在某些任务上超越人类基准,也未能达到该任务的理论性能上限。这些发现表明AIRS-Bench远未达到性能饱和状态,仍存在巨大的改进空间。我们开源了AIRS-Bench的任务定义与评估代码,以期推动自主科学研究领域的进一步发展。

0
下载
关闭预览

相关内容

从感知到行动:空间人工智能体与世界模型
专知会员服务
25+阅读 · 2月3日
《负责任的AI智能体》最新50页
专知会员服务
59+阅读 · 2025年3月2日
走向通用虚拟智能体
专知会员服务
74+阅读 · 2023年11月26日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员