Large Language Models (LLMs) have extended their impact beyond Natural Language Processing, substantially fostering the development of interdisciplinary research. Recently, various LLM-based agents have been developed to assist scientific discovery progress across multiple aspects and domains. Among these, computer-using agents, capable of interacting with operating systems as humans do, are paving the way to automated scientific problem-solving and addressing routines in researchers' workflows. Recognizing the transformative potential of these agents, we introduce ScienceBoard, which encompasses two complementary contributions: (i) a realistic, multi-domain environment featuring dynamic and visually rich scientific workflows with integrated professional software, where agents can autonomously interact via different interfaces to accelerate complex research tasks and experiments; and (ii) a challenging benchmark of 169 high-quality, rigorously validated real-world tasks curated by humans, spanning scientific-discovery workflows in domains such as biochemistry, astronomy, and geoinformatics. Extensive evaluations of agents with state-of-the-art backbones (e.g., GPT-4o, Claude 3.7, UI-TARS) show that, despite some promising results, they still fall short of reliably assisting scientists in complex workflows, achieving only a 15% overall success rate. In-depth analysis further provides valuable insights for addressing current agent limitations and more effective design principles, paving the way to build more capable agents for scientific discovery. Our code, environment, and benchmark are at https://qiushisun.github.io/ScienceBoard-Home/.


翻译:大型语言模型(LLM)的影响力已超越自然语言处理领域,极大地推动了跨学科研究的发展。近年来,多种基于LLM的智能体被开发出来,以从多个层面和领域辅助科学发现进程。其中,能够像人类一样与操作系统交互的计算机使用智能体,正为自动化科学问题求解及优化研究者工作流程中的常规操作铺平道路。为充分认识这些智能体的变革潜力,我们提出ScienceBoard,它包含两个互补贡献:(i)一个具备动态、丰富视觉特征的真实多领域环境,集成专业软件,智能体可通过不同接口自主交互以加速复杂研究任务与实验;(ii)一个由人工严格验证的169个高质量真实世界任务挑战性基准,涵盖生物化学、天文学和地理信息学等领域的科学发现工作流。对基于最先进骨干模型(如GPT-4o、Claude 3.7、UI-TARS)的智能体进行的大规模评估表明,尽管取得了部分令人鼓舞的结果,但这些模型在可靠辅助科学家完成复杂工作流方面仍存在差距,整体成功率仅为15%。深入分析进一步为应对当前智能体局限性及设计更有效的原则提供了宝贵见解,从而为构建更强大的科学发现智能体奠定基础。我们的代码、环境及基准数据见https://qiushisun.github.io/ScienceBoard-Home/。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
大语言模型智能体
专知会员服务
99+阅读 · 2024年12月25日
《大型多模态智能体》综述
专知会员服务
106+阅读 · 2024年2月26日
【综述论文】2020年最新深度学习自然语言处理进展综述论文!!!
深度学习自然语言处理
13+阅读 · 2020年4月6日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
9+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员