In scientific research, analysis requires accurately interpreting complex multimodal knowledge, integrating evidence from different sources, and drawing inferences grounded in domain-specific knowledge. However, current artificial intelligence (AI) systems struggle to consistently demonstrate such capabilities. The complexity and variability of scientific tables and figures, combined with heterogeneous structures and long-context requirements, pose fundamental obstacles to scientific table \& figure analysis. To quantify these challenges, we introduce AnaBench, a large-scale benchmark featuring $63,178$ instances from nine scientific domains, systematically categorized along seven complexity dimensions. To tackle these challenges, we propose Anagent, a multi-agent framework for enhanced scientific table \& figure analysis through four specialized agents: Planner decomposes tasks into actionable subtasks, Expert retrieves task-specific information through targeted tool execution, Solver synthesizes information to generate coherent analysis, and Critic performs iterative refinement through five-dimensional quality assessment. We further develop modular training strategies that leverage supervised finetuning and specialized reinforcement learning to optimize individual capabilities while maintaining effective collaboration. Comprehensive evaluation across 9 broad domains with 170 subdomains demonstrates that Anagent achieves substantial improvements, up to $\uparrow 13.43\%$ in training-free settings and $\uparrow 42.12\%$ with finetuning, while revealing that task-oriented reasoning and context-aware problem-solving are essential for high-quality scientific table \& figure analysis. Our project page: https://xhguo7.github.io/Anagent/.


翻译:在科学研究中,分析工作需要准确解读复杂的多模态知识,整合来自不同来源的证据,并基于领域特定知识进行推理。然而,当前的人工智能系统难以持续展现此类能力。科学表格与图形的复杂性和多变性,结合其异构结构与长上下文需求,对科学图表分析构成了根本性障碍。为量化这些挑战,我们引入了AnaBench,这是一个包含来自九个科学领域、总计$63,178$个实例的大规模基准测试集,并沿七个复杂度维度进行了系统分类。为应对这些挑战,我们提出了Anagent,一个通过四个专门智能体增强科学图表分析的多智能体框架:规划器将任务分解为可执行的子任务,专家通过定向工具执行检索任务特定信息,求解器综合信息以生成连贯分析,评审器通过五维质量评估进行迭代优化。我们进一步开发了模块化训练策略,利用监督微调和专门强化学习来优化个体能力,同时保持有效协作。在涵盖9个广泛领域、170个子领域的综合评估中,Anagent实现了显著提升,在无需训练的场景下最高提升$\uparrow 13.43\%$,经微调后最高提升$\uparrow 42.12\%$,同时揭示了面向任务的推理和上下文感知的问题解决对于高质量科学图表分析至关重要。项目页面:https://xhguo7.github.io/Anagent/。

0
下载
关闭预览

相关内容

专知会员服务
38+阅读 · 2020年12月22日
最新《图嵌入组合优化》综述论文,40页pdf
专知会员服务
78+阅读 · 2020年8月31日
最新《图嵌入组合优化》综述论文,40页pdf
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
清华大学:人工智能之知识图谱(附PPT)
人工智能学家
73+阅读 · 2019年6月9日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关VIP内容
专知会员服务
38+阅读 · 2020年12月22日
最新《图嵌入组合优化》综述论文,40页pdf
专知会员服务
78+阅读 · 2020年8月31日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员