This paper examines how different types of large language model (LLM) agents perform on scientific visualization (SciVis) tasks, where users generate visualization workflows from natural-language instructions. We compare three primary interaction paradigms, including domain-specific agents with structured tool use, computer-use agents, and general-purpose coding agents, by evaluating eight representative agents across 15 benchmark tasks and measuring visualization quality, efficiency, robustness, and computational cost. We further analyze interaction modalities, including code scripts and model context protocol (MCP) or API calls for structured tool use, as well as command-line interfaces (CLI) and graphical user interfaces (GUI) for more general interaction, while additionally studying the effect of persistent memory in selected agents. The results reveal clear tradeoffs across paradigms and modalities. General-purpose coding agents achieve the highest task success rates but are computationally expensive, while domain-specific agents are more efficient and stable but less flexible. Computer-use agents perform well on individual steps but struggle with longer multi-step workflows, indicating that long-horizon planning is their primary limitation. Across both CLI- and GUI-based settings, persistent memory improves performance over repeated trials, although its benefits depend on the underlying interaction mode and the quality of feedback. These findings suggest that no single approach is sufficient, and future SciVis systems should combine structured tool use, interactive capabilities, and adaptive memory mechanisms to balance performance, robustness, and flexibility.


翻译:本文研究了不同类型的大语言模型(LLM)智能体在科学可视化(SciVis)任务中的表现,其中用户通过自然语言指令生成可视化工作流。我们比较了三种主要交互范式,包括基于结构化工具使用的领域专用智能体、计算机使用智能体和通用编程智能体。通过评估15项基准任务中的八个代表性智能体,测量了可视化质量、效率、鲁棒性和计算成本。我们进一步分析了交互模式,包括用于结构化工具使用的代码脚本与模型上下文协议(MCP)或API调用,以及用于更通用交互的命令行界面(CLI)和图形用户界面(GUI),同时研究了持久化内存在选定智能体中的影响。结果表明,不同范式与模式之间存在明确的权衡取舍。通用编程智能体的任务成功率最高,但计算成本高昂;领域专用智能体效率更高且稳定性更强,但灵活性较低。计算机使用智能体在单步任务中表现良好,但在较长多步工作流中表现欠佳,表明长期规划是其首要限制因素。在CLI和GUI基础设置中,持久化内存在重复试验中均能改善性能,但其收益取决于底层交互模式与反馈质量。这些发现表明,单一方法无法满足所有需求,未来的SciVis系统应结合结构化工具使用、交互能力与自适应记忆机制,以平衡性能、鲁棒性和灵活性。

0
下载
关闭预览

相关内容

【EPFL博士论文】大型语言模型时代的协作式智能体
专知会员服务
35+阅读 · 2025年5月16日
基于大语言模型的智能体优化研究综述
专知会员服务
64+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
99+阅读 · 2024年12月25日
基于大型语言模型的软件工程智能体综述
专知会员服务
60+阅读 · 2024年9月6日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
【EPFL博士论文】大型语言模型时代的协作式智能体
专知会员服务
35+阅读 · 2025年5月16日
基于大语言模型的智能体优化研究综述
专知会员服务
64+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
99+阅读 · 2024年12月25日
基于大型语言模型的软件工程智能体综述
专知会员服务
60+阅读 · 2024年9月6日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员