Generative Digital Twins: Vision-Language Simulation Models for Executable Industrial Systems - 专知论文

会员服务 ·

0

系统 · 结构 · 仿真模型 · 代码 · 数字孪生 ·

Generative Digital Twins: Vision-Language Simulation Models for Executable Industrial Systems

翻译：生成式数字孪生：面向可执行工业系统的视觉-语言仿真模型

YuChe Hsu,AnJui Wang,TsaiChing Ni,YuanFu Yang

from arxiv, 10 pages, 9 figures

We propose a Vision-Language Simulation Model (VLSM) that unifies visual and textual understanding to synthesize executable FlexScript from layout sketches and natural-language prompts, enabling cross-modal reasoning for industrial simulation systems. To support this new paradigm, the study constructs the first large-scale dataset for generative digital twins, comprising over 120,000 prompt-sketch-code triplets that enable multimodal learning between textual descriptions, spatial structures, and simulation logic. In parallel, three novel evaluation metrics, Structural Validity Rate (SVR), Parameter Match Rate (PMR), and Execution Success Rate (ESR), are proposed specifically for this task to comprehensively evaluate structural integrity, parameter fidelity, and simulator executability. Through systematic ablation across vision encoders, connectors, and code-pretrained language backbones, the proposed models achieve near-perfect structural accuracy and high execution robustness. This work establishes a foundation for generative digital twins that integrate visual reasoning and language understanding into executable industrial simulation systems. Project page: https://danielhsu2014.github.io/GDT-VLSM-project/

翻译：本研究提出一种视觉-语言仿真模型（VLSM），通过统一视觉与文本理解能力，能够根据布局草图和自然语言提示生成可执行的FlexScript代码，从而为工业仿真系统实现跨模态推理。为支撑这一新范式，本研究构建了首个面向生成式数字孪生的大规模数据集，包含超过12万个“提示-草图-代码”三元组，支持文本描述、空间结构与仿真逻辑间的多模态学习。同时，针对该任务专门提出了三项新颖的评估指标：结构有效性率（SVR）、参数匹配率（PMR）与执行成功率（ESR），以全面评估生成结果的结构完整性、参数保真度及仿真器可执行性。通过对视觉编码器、连接模块及代码预训练语言主干网络进行系统化消融实验，所提模型实现了近乎完美的结构准确率与高度的执行鲁棒性。本工作为生成式数字孪生奠定了重要基础，将视觉推理与语言理解能力整合至可执行的工业仿真系统中。项目页面：https://danielhsu2014.github.io/GDT-VLSM-project/

0

相关内容

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

视觉语言建模导论

视觉语言建模导论

专知会员服务

38+阅读 · 2024年5月30日

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

专知会员服务

59+阅读 · 2024年4月27日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

使用多模态语言模型生成图像

使用多模态语言模型生成图像

专知会员服务

32+阅读 · 2023年8月23日

中国数字孪生行业研究报告：数字孪生与产业深度融合，推动经济数字化转型

中国数字孪生行业研究报告：数字孪生与产业深度融合，推动经济数字化转型

专知会员服务

58+阅读 · 2023年5月27日

数字孪生及其在飞行器领域应用

数字孪生及其在飞行器领域应用

专知会员服务

95+阅读 · 2023年4月18日

数字孪生模型构建理论及应用

数字孪生模型构建理论及应用

专知会员服务

232+阅读 · 2022年4月19日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

【数字孪生】面向智能制造的数字孪生

【数字孪生】面向智能制造的数字孪生

产业智能官

53+阅读 · 2020年5月10日

【数字孪生】数字孪生车间 | 一种未来车间运行新模式

【数字孪生】数字孪生车间 | 一种未来车间运行新模式

产业智能官

16+阅读 · 2020年3月14日

【数字孪生】关于数字孪生的冷思考及其背后的建模和仿真技术

【数字孪生】关于数字孪生的冷思考及其背后的建模和仿真技术

产业智能官

25+阅读 · 2020年3月5日

【数字孪生】数字孪生标准体系探究

【数字孪生】数字孪生标准体系探究

产业智能官

48+阅读 · 2019年11月27日

【数字孪生】工业互联网支持下的数字孪生车间

【数字孪生】工业互联网支持下的数字孪生车间

产业智能官

21+阅读 · 2019年6月3日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

【数字孪生】林诗万：数字孪生体在工业互联网的作用与意义（附PPT）

【数字孪生】林诗万：数字孪生体在工业互联网的作用与意义（附PPT）

产业智能官

40+阅读 · 2019年3月27日

【数字孪生】超棒PPT解读Digital Twin十大领域应用！

【数字孪生】超棒PPT解读Digital Twin十大领域应用！

产业智能官

103+阅读 · 2019年3月26日

【数字孪生】基于数字孪生的工业大数据智能分析与实践

【数字孪生】基于数字孪生的工业大数据智能分析与实践

产业智能官

43+阅读 · 2018年8月28日

【数字孪生】数字孪生系列报道：15家单位22位作者研究成果，数字孪生应用探索

【数字孪生】数字孪生系列报道：15家单位22位作者研究成果，数字孪生应用探索

产业智能官

53+阅读 · 2018年5月17日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

VLM-DEWM: Dynamic External World Model for Verifiable and Resilient Vision-Language Planning in Manufacturing

Arxiv

0+阅读 · 2月17日

Digital Twin Generation from Visual Data: A Survey

Arxiv

0+阅读 · 2月16日

Advancing Digital Twin Generation Through a Novel Simulation Framework and Quantitative Benchmarking

Arxiv

0+阅读 · 2月11日

Unified Personalized Reward Model for Vision Generation

Arxiv

0+阅读 · 2月10日

MaD-Mix: Multi-Modal Data Mixtures via Latent Space Coupling for Vision-Language Model Training

Arxiv

0+阅读 · 2月8日

Code Digital Twin: A Knowledge Infrastructure for AI-Assisted Complex Software Development

Arxiv

0+阅读 · 2月2日

CG-MLLM: Captioning and Generating 3D content via Multi-modal Large Language Models

Arxiv

0+阅读 · 1月29日

Coding the Visual World: From Image to Simulation Using Vision Language Models

Arxiv

0+阅读 · 1月26日

From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion

Arxiv

0+阅读 · 1月15日

Towards Safer Mobile Agents: Scalable Generation and Evaluation of Diverse Scenarios for VLMs

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

7+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

4+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

4+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

4+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

7+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

7+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

5+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

3+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

4+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

12+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

14+阅读 · 7月16日

相关VIP内容

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

视觉语言建模导论

视觉语言建模导论

专知会员服务

38+阅读 · 2024年5月30日

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

专知会员服务

59+阅读 · 2024年4月27日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

使用多模态语言模型生成图像

使用多模态语言模型生成图像

专知会员服务

32+阅读 · 2023年8月23日

中国数字孪生行业研究报告：数字孪生与产业深度融合，推动经济数字化转型

中国数字孪生行业研究报告：数字孪生与产业深度融合，推动经济数字化转型

专知会员服务

58+阅读 · 2023年5月27日

数字孪生及其在飞行器领域应用

数字孪生及其在飞行器领域应用

专知会员服务

95+阅读 · 2023年4月18日

数字孪生模型构建理论及应用

数字孪生模型构建理论及应用

专知会员服务

232+阅读 · 2022年4月19日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

热门VIP内容

开通专知VIP会员享更多权益服务

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

相关资讯

【数字孪生】面向智能制造的数字孪生

【数字孪生】面向智能制造的数字孪生

产业智能官

53+阅读 · 2020年5月10日

【数字孪生】数字孪生车间 | 一种未来车间运行新模式

【数字孪生】数字孪生车间 | 一种未来车间运行新模式

产业智能官

16+阅读 · 2020年3月14日

【数字孪生】关于数字孪生的冷思考及其背后的建模和仿真技术

【数字孪生】关于数字孪生的冷思考及其背后的建模和仿真技术

产业智能官

25+阅读 · 2020年3月5日

【数字孪生】数字孪生标准体系探究

【数字孪生】数字孪生标准体系探究

产业智能官

48+阅读 · 2019年11月27日

【数字孪生】工业互联网支持下的数字孪生车间

【数字孪生】工业互联网支持下的数字孪生车间

产业智能官

21+阅读 · 2019年6月3日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

【数字孪生】林诗万：数字孪生体在工业互联网的作用与意义（附PPT）

【数字孪生】林诗万：数字孪生体在工业互联网的作用与意义（附PPT）

产业智能官

40+阅读 · 2019年3月27日

【数字孪生】超棒PPT解读Digital Twin十大领域应用！

【数字孪生】超棒PPT解读Digital Twin十大领域应用！

产业智能官

103+阅读 · 2019年3月26日

【数字孪生】基于数字孪生的工业大数据智能分析与实践

【数字孪生】基于数字孪生的工业大数据智能分析与实践

产业智能官

43+阅读 · 2018年8月28日

【数字孪生】数字孪生系列报道：15家单位22位作者研究成果，数字孪生应用探索

【数字孪生】数字孪生系列报道：15家单位22位作者研究成果，数字孪生应用探索

产业智能官

53+阅读 · 2018年5月17日

相关论文

VLM-DEWM: Dynamic External World Model for Verifiable and Resilient Vision-Language Planning in Manufacturing

Arxiv

0+阅读 · 2月17日

Digital Twin Generation from Visual Data: A Survey

Arxiv

0+阅读 · 2月16日

Advancing Digital Twin Generation Through a Novel Simulation Framework and Quantitative Benchmarking

Arxiv

0+阅读 · 2月11日

Unified Personalized Reward Model for Vision Generation

Arxiv

0+阅读 · 2月10日

MaD-Mix: Multi-Modal Data Mixtures via Latent Space Coupling for Vision-Language Model Training

Arxiv

0+阅读 · 2月8日

Code Digital Twin: A Knowledge Infrastructure for AI-Assisted Complex Software Development

Arxiv

0+阅读 · 2月2日

CG-MLLM: Captioning and Generating 3D content via Multi-modal Large Language Models

Arxiv

0+阅读 · 1月29日

Coding the Visual World: From Image to Simulation Using Vision Language Models

Arxiv

0+阅读 · 1月26日

From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion

Arxiv

0+阅读 · 1月15日

Towards Safer Mobile Agents: Scalable Generation and Evaluation of Diverse Scenarios for VLMs

Arxiv

0+阅读 · 1月13日

相关基金

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员