Model-Driven Engineering (MDE) places models at the core of system and data engineering processes. In the context of research data, these models are typically expressed as schemas that define the structure and semantics of datasets. However, many domains still lack standardized models, and creating them remains a significant barrier, especially for non-experts. We present a hybrid approach that combines large language models (LLMs) with deterministic techniques to enable JSON Schema creation, modification, and schema mapping based on natural language inputs by the user. These capabilities are integrated into the open-source tool MetaConfigurator, which already provides visual model editing, validation, code generation, and form generation from models. For data integration, we generate schema mappings from heterogeneous JSON, CSV, XML, and YAML data using LLMs, while ensuring scalability and reliability through deterministic execution of generated mapping rules. The applicability of our work is demonstrated in an application example in the field of chemistry. By combining natural language interaction with deterministic safeguards, this work significantly lowers the barrier to structured data modeling and data integration for non-experts.


翻译:模型驱动工程(Model-Driven Engineering, MDE)将模型置于系统和数据工程流程的核心。在研究数据的背景下,这些模型通常表示为定义数据集结构与语义的模式。然而,许多领域仍缺乏标准化模型,创建这些模型仍然是一个重大障碍,尤其对于非专家而言。我们提出了一种混合方法,将大语言模型(LLMs)与确定性技术相结合,使用户能够基于自然语言输入来创建、修改JSON Schema以及执行模式映射。这些功能已集成到开源工具MetaConfigurator中,该工具已提供可视化模型编辑、验证、代码生成以及从模型生成表单的功能。在数据集成方面,我们利用LLMs从异构的JSON、CSV、XML和YAML数据生成模式映射,同时通过确定性执行生成的映射规则来确保可扩展性与可靠性。我们工作的适用性通过一个化学领域的应用示例得以展示。通过将自然语言交互与确定性保障机制相结合,这项工作显著降低了非专家进行结构化数据建模与数据集成的门槛。

0
下载
关闭预览

相关内容

【新书】AI工程:基于基础模型构建应用
专知会员服务
59+阅读 · 2024年12月30日
《基于模型的路线推荐系统对决策的影响研究》180页
专知会员服务
47+阅读 · 2024年3月25日
大模型专题报告:百模渐欲迷人眼,AI应用繁花开,42页pdf
面向AI大模型的智算中心网络演进白皮书,30页pdf
专知会员服务
84+阅读 · 2023年5月15日
【2020新书】图机器学习,Graph-Powered Machine Learning
专知会员服务
343+阅读 · 2020年1月27日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
Github项目推荐 | gensim - Python中的主题建模
AI研习社
15+阅读 · 2019年3月16日
清华178页深度报告:一文看懂AI数据挖掘
人工智能学家
10+阅读 · 2019年2月18日
超全总结:神经网络加速之量化模型 | 附带代码
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月20日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员