Toward Reliable Scientific Visualization Pipeline Construction with Structure-Aware Retrieval-Augmented LLMs - 专知论文

会员服务 ·

0

科学可视化 · 结构 · 构建 · 结构感知 · 检索增强 ·

Toward Reliable Scientific Visualization Pipeline Construction with Structure-Aware Retrieval-Augmented LLMs

翻译：面向可靠的科学可视化流水线构建：基于结构感知检索增强的大型语言模型方法

Guanghui Zhao,Zhe Wang,Yu Dong,Guan Li,GuiHua Shan

Scientific visualization pipelines encode domain-specific procedural knowledge with strict execution dependencies, making their construction sensitive to missing stages, incorrect operator usage, or improper ordering. Thus, generating executable scientific visualization pipelines from natural-language descriptions remains challenging for large language models, particularly in web-based environments where visualization authoring relies on explicit code-level pipeline assembly. In this work, we investigate the reliability of LLM-based scientific visualization pipeline generation, focusing on vtk.js as a representative web-based visualization library. We propose a structure-aware retrieval-augmented generation workflow that provides pipeline-aligned vtk.js code examples as contextual guidance, supporting correct module selection, parameter configuration, and execution order. We evaluate the proposed workflow across multiple multi-stage scientific visualization tasks and LLMs, measuring reliability in terms of pipeline executability and human correction effort. To this end, we introduce correction cost as metric for the amount of manual intervention required to obtain a valid pipeline. Our results show that structured, domain-specific context substantially improves pipeline executability and reduces correction cost. We additionally provide an interactive analysis interface to support human-in-the-loop inspection and systematic evaluation of generated visualization pipelines.

翻译：科学可视化流水线通过严格的执行依赖关系编码领域特定的过程知识，这使得其构建过程对缺失阶段、操作符使用错误或顺序不当等问题极为敏感。因此，从自然语言描述生成可执行的科学可视化流水线对于大型语言模型而言仍然具有挑战性，特别是在基于网络的可视化创作环境中，此类创作依赖于显式的代码级流水线组装。在本工作中，我们研究了基于LLM的科学可视化流水线生成的可靠性，并以vtk.js作为代表性的基于网络的可视化库进行重点分析。我们提出了一种结构感知的检索增强生成工作流，该工作流提供与流水线对齐的vtk.js代码示例作为上下文指导，以支持正确的模块选择、参数配置和执行顺序。我们在多个多阶段科学可视化任务和不同LLM上对所提出的工作流进行了评估，从流水线可执行性和人工修正工作量两个维度衡量其可靠性。为此，我们引入了修正成本作为衡量获得有效流水线所需人工干预量的指标。我们的结果表明，结构化的、领域特定的上下文能显著提高流水线的可执行性并降低修正成本。此外，我们提供了一个交互式分析界面，以支持人在回路的检查和对生成的可视化流水线进行系统性评估。

0

相关内容

科学可视化

科学可视化

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

专知会员服务

14+阅读 · 5月16日

【NTU博士论文】从小型深度神经网络到大型语言模型：构建可信 AI 的软件工程视角

【NTU博士论文】从小型深度神经网络到大型语言模型：构建可信 AI 的软件工程视角

专知会员服务

20+阅读 · 2025年5月7日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

专知会员服务

19+阅读 · 2025年3月14日

【博士论文】结构化数据自动可视化关键技术研究

【博士论文】结构化数据自动可视化关键技术研究

专知会员服务

47+阅读 · 2023年12月6日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

99+阅读 · 2023年8月31日

如何可视化机器学习模型？最新《机器学习的可视化分析: 数据视角综述》全面概述VIS4ML方法体系

如何可视化机器学习模型？最新《机器学习的可视化分析: 数据视角综述》全面概述VIS4ML方法体系

专知会员服务

51+阅读 · 2023年7月19日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

基于流线的流场可视化绘制方法综述

基于流线的流场可视化绘制方法综述

专知会员服务

27+阅读 · 2021年12月9日

【开放书】数据可视化基础，《Fundamentals of Data Visualization》

专知会员服务

65+阅读 · 2021年6月13日

【2022新书】使用Scikit-Learn、Keras和TensorFlow实践机器学习:构建智能系统的概念、工具和技术第三版

【2022新书】使用Scikit-Learn、Keras和TensorFlow实践机器学习:构建智能系统的概念、工具和技术第三版

专知

15+阅读 · 2022年11月8日

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

专知

17+阅读 · 2022年10月2日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

TensorFlow产品级端到端机器学习平台TFX，图形界面可视化流水线

TensorFlow产品级端到端机器学习平台TFX，图形界面可视化流水线

专知

21+阅读 · 2019年4月19日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

tensorflow项目学习路径

tensorflow项目学习路径

北京思腾合力科技有限公司

10+阅读 · 2017年11月23日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

Exploring Interaction Paradigms for LLM Agents in Scientific Visualization

Arxiv

0+阅读 · 4月30日

From Research Question to Scientific Workflow: Leveraging Agentic AI for Science Automation

Arxiv

0+阅读 · 4月23日

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Arxiv

0+阅读 · 4月21日

Hierarchical DLO Routing with Reinforcement Learning and In-Context Vision-language Models

Arxiv

0+阅读 · 4月15日

Large Language Models for Combinatorial Optimization of Design Structure Matrix

Arxiv

0+阅读 · 4月5日

Toward Reliable Scientific Visualization Pipeline Construction with Structure-Aware Retrieval-Augmented LLMs

Arxiv

0+阅读 · 3月27日

TopoPilot: Reliable Conversational Workflow Automation for Topological Data Analysis and Visualization

Arxiv

0+阅读 · 3月26日

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Arxiv

0+阅读 · 3月3日

Agentic Scientific Simulation: Execution-Grounded Model Construction and Reconstruction

Arxiv

1+阅读 · 2月27日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

20+阅读 · 2023年5月8日

VIP会员

文章信息

相关主题

科学可视化

最新内容

《反无人机系统传感器融合》90页报告

《反无人机系统传感器融合》90页报告

专知会员服务

0+阅读 · 12分钟前

运用人工智能与卫星通信驱散“战争迷雾”

运用人工智能与卫星通信驱散“战争迷雾”

专知会员服务

0+阅读 · 24分钟前

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

专知会员服务

0+阅读 · 51分钟前

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

0+阅读 · 53分钟前

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

4+阅读 · 6月1日

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

3+阅读 · 6月1日

算法化战争：人工智能时代的新范式（万字长文）

算法化战争：人工智能时代的新范式（万字长文）

专知会员服务

9+阅读 · 6月1日

帕兰蒂尔Maven：军事人工智能的新纪元

帕兰蒂尔Maven：军事人工智能的新纪元

专知会员服务

8+阅读 · 6月1日

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

专知会员服务

10+阅读 · 6月1日

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

专知会员服务

10+阅读 · 6月1日

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

14+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

6+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

5+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

3+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

9+阅读 · 5月31日

相关VIP内容

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

专知会员服务

14+阅读 · 5月16日

【NTU博士论文】从小型深度神经网络到大型语言模型：构建可信 AI 的软件工程视角

【NTU博士论文】从小型深度神经网络到大型语言模型：构建可信 AI 的软件工程视角

专知会员服务

20+阅读 · 2025年5月7日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

专知会员服务

19+阅读 · 2025年3月14日

【博士论文】结构化数据自动可视化关键技术研究

【博士论文】结构化数据自动可视化关键技术研究

专知会员服务

47+阅读 · 2023年12月6日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

99+阅读 · 2023年8月31日

如何可视化机器学习模型？最新《机器学习的可视化分析: 数据视角综述》全面概述VIS4ML方法体系

如何可视化机器学习模型？最新《机器学习的可视化分析: 数据视角综述》全面概述VIS4ML方法体系

专知会员服务

51+阅读 · 2023年7月19日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

基于流线的流场可视化绘制方法综述

基于流线的流场可视化绘制方法综述

专知会员服务

27+阅读 · 2021年12月9日

【开放书】数据可视化基础，《Fundamentals of Data Visualization》

专知会员服务

65+阅读 · 2021年6月13日

热门VIP内容

开通专知VIP会员享更多权益服务

运用人工智能与卫星通信驱散“战争迷雾”

【综述】世界模型：架构、方法、推理与应用全景

《反无人机系统传感器融合》90页报告

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

相关资讯

【2022新书】使用Scikit-Learn、Keras和TensorFlow实践机器学习:构建智能系统的概念、工具和技术第三版

【2022新书】使用Scikit-Learn、Keras和TensorFlow实践机器学习:构建智能系统的概念、工具和技术第三版

专知

15+阅读 · 2022年11月8日

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

专知

17+阅读 · 2022年10月2日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

TensorFlow产品级端到端机器学习平台TFX，图形界面可视化流水线

TensorFlow产品级端到端机器学习平台TFX，图形界面可视化流水线

专知

21+阅读 · 2019年4月19日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

tensorflow项目学习路径

tensorflow项目学习路径

北京思腾合力科技有限公司

10+阅读 · 2017年11月23日

相关论文

Exploring Interaction Paradigms for LLM Agents in Scientific Visualization

Arxiv

0+阅读 · 4月30日

From Research Question to Scientific Workflow: Leveraging Agentic AI for Science Automation

Arxiv

0+阅读 · 4月23日

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Arxiv

0+阅读 · 4月21日

Hierarchical DLO Routing with Reinforcement Learning and In-Context Vision-language Models

Arxiv

0+阅读 · 4月15日

Large Language Models for Combinatorial Optimization of Design Structure Matrix

Arxiv

0+阅读 · 4月5日

Toward Reliable Scientific Visualization Pipeline Construction with Structure-Aware Retrieval-Augmented LLMs

Arxiv

0+阅读 · 3月27日

TopoPilot: Reliable Conversational Workflow Automation for Topological Data Analysis and Visualization

Arxiv

0+阅读 · 3月26日

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Arxiv

0+阅读 · 3月3日

Agentic Scientific Simulation: Execution-Grounded Model Construction and Reconstruction

Arxiv

1+阅读 · 2月27日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

20+阅读 · 2023年5月8日

相关基金

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员