We propose a Vision-Language Simulation Model (VLSM) that unifies visual and textual understanding to synthesize executable FlexScript from layout sketches and natural-language prompts, enabling cross-modal reasoning for industrial simulation systems. To support this new paradigm, the study constructs the first large-scale dataset for generative digital twins, comprising over 120,000 prompt-sketch-code triplets that enable multimodal learning between textual descriptions, spatial structures, and simulation logic. In parallel, three novel evaluation metrics, Structural Validity Rate (SVR), Parameter Match Rate (PMR), and Execution Success Rate (ESR), are proposed specifically for this task to comprehensively evaluate structural integrity, parameter fidelity, and simulator executability. Through systematic ablation across vision encoders, connectors, and code-pretrained language backbones, the proposed models achieve near-perfect structural accuracy and high execution robustness. This work establishes a foundation for generative digital twins that integrate visual reasoning and language understanding into executable industrial simulation systems. Project page: https://danielhsu2014.github.io/GDT-VLSM-project/


翻译:本研究提出一种视觉-语言仿真模型(VLSM),通过统一视觉与文本理解能力,能够根据布局草图和自然语言提示生成可执行的FlexScript代码,从而为工业仿真系统实现跨模态推理。为支撑这一新范式,本研究构建了首个面向生成式数字孪生的大规模数据集,包含超过12万个“提示-草图-代码”三元组,支持文本描述、空间结构与仿真逻辑间的多模态学习。同时,针对该任务专门提出了三项新颖的评估指标:结构有效性率(SVR)、参数匹配率(PMR)与执行成功率(ESR),以全面评估生成结果的结构完整性、参数保真度及仿真器可执行性。通过对视觉编码器、连接模块及代码预训练语言主干网络进行系统化消融实验,所提模型实现了近乎完美的结构准确率与高度的执行鲁棒性。本工作为生成式数字孪生奠定了重要基础,将视觉推理与语言理解能力整合至可执行的工业仿真系统中。项目页面:https://danielhsu2014.github.io/GDT-VLSM-project/

0
下载
关闭预览

相关内容

大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
数字孪生及其在飞行器领域应用
专知会员服务
94+阅读 · 2023年4月18日
数字孪生模型构建理论及应用
专知会员服务
230+阅读 · 2022年4月19日
【数字孪生】面向智能制造的数字孪生
产业智能官
52+阅读 · 2020年5月10日
【数字孪生】数字孪生标准体系探究
产业智能官
48+阅读 · 2019年11月27日
【数字孪生】工业互联网支持下的数字孪生车间
产业智能官
21+阅读 · 2019年6月3日
【数字孪生】超棒PPT解读Digital Twin十大领域应用!
产业智能官
103+阅读 · 2019年3月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
数字孪生及其在飞行器领域应用
专知会员服务
94+阅读 · 2023年4月18日
数字孪生模型构建理论及应用
专知会员服务
230+阅读 · 2022年4月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员