AI-assisted JSON Schema Creation and Mapping - 专知论文

会员服务 ·

0

映射 · JSON · 集成 · 数据集 · AI ·

AI-assisted JSON Schema Creation and Mapping

翻译：AI辅助的JSON Schema创建与映射

Felix Neubauer,Jürgen Pleiss,Benjamin Uekermann

Model-Driven Engineering (MDE) places models at the core of system and data engineering processes. In the context of research data, these models are typically expressed as schemas that define the structure and semantics of datasets. However, many domains still lack standardized models, and creating them remains a significant barrier, especially for non-experts. We present a hybrid approach that combines large language models (LLMs) with deterministic techniques to enable JSON Schema creation, modification, and schema mapping based on natural language inputs by the user. These capabilities are integrated into the open-source tool MetaConfigurator, which already provides visual model editing, validation, code generation, and form generation from models. For data integration, we generate schema mappings from heterogeneous JSON, CSV, XML, and YAML data using LLMs, while ensuring scalability and reliability through deterministic execution of generated mapping rules. The applicability of our work is demonstrated in an application example in the field of chemistry. By combining natural language interaction with deterministic safeguards, this work significantly lowers the barrier to structured data modeling and data integration for non-experts.

翻译：模型驱动工程（Model-Driven Engineering, MDE）将模型置于系统和数据工程流程的核心。在研究数据的背景下，这些模型通常表示为定义数据集结构与语义的模式。然而，许多领域仍缺乏标准化模型，创建这些模型仍然是一个重大障碍，尤其对于非专家而言。我们提出了一种混合方法，将大语言模型（LLMs）与确定性技术相结合，使用户能够基于自然语言输入来创建、修改JSON Schema以及执行模式映射。这些功能已集成到开源工具MetaConfigurator中，该工具已提供可视化模型编辑、验证、代码生成以及从模型生成表单的功能。在数据集成方面，我们利用LLMs从异构的JSON、CSV、XML和YAML数据生成模式映射，同时通过确定性执行生成的映射规则来确保可扩展性与可靠性。我们工作的适用性通过一个化学领域的应用示例得以展示。通过将自然语言交互与确定性保障机制相结合，这项工作显著降低了非专家进行结构化数据建模与数据集成的门槛。

0

相关内容

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

专知会员服务

19+阅读 · 2月12日

【新书】AI工程：基于基础模型构建应用

【新书】AI工程：基于基础模型构建应用

专知会员服务

61+阅读 · 2024年12月30日

《基于模型的路线推荐系统对决策的影响研究》180页

《基于模型的路线推荐系统对决策的影响研究》180页

专知会员服务

48+阅读 · 2024年3月25日

大模型专题报告：百模渐欲迷人眼，AI应用繁花开，42页pdf

大模型专题报告：百模渐欲迷人眼，AI应用繁花开，42页pdf

专知会员服务

126+阅读 · 2024年1月29日

面向AI大模型的智算中心网络演进白皮书，30页pdf

面向AI大模型的智算中心网络演进白皮书，30页pdf

专知会员服务

85+阅读 · 2023年5月15日

【AI4Science】生成式AI怎么做图生成？KAIST等最新《图扩散模型》综述，详述生成式AI在分子、蛋白质和材料科学的应用

【AI4Science】生成式AI怎么做图生成？KAIST等最新《图扩散模型》综述，详述生成式AI在分子、蛋白质和材料科学的应用

专知会员服务

72+阅读 · 2023年4月10日

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

专知会员服务

235+阅读 · 2023年3月20日

【IJCAI2021】User-as-Graph: 基于异构图池化的新闻推荐用户建模

专知会员服务

23+阅读 · 2021年8月25日

《数据驱动的科学与工程——机器学习、动力系统与控制》，572页pdf

《数据驱动的科学与工程——机器学习、动力系统与控制》，572页pdf

专知会员服务

199+阅读 · 2021年2月17日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知会员服务

343+阅读 · 2020年1月27日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

55+阅读 · 2022年4月25日

【干货书】《机器学习动力系统与控制》，572页pdf

【干货书】《机器学习动力系统与控制》，572页pdf

专知

36+阅读 · 2022年1月8日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知

76+阅读 · 2020年1月27日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

Github项目推荐 | gensim - Python中的主题建模

Github项目推荐 | gensim - Python中的主题建模

AI研习社

15+阅读 · 2019年3月16日

清华178页深度报告：一文看懂AI数据挖掘

清华178页深度报告：一文看懂AI数据挖掘

人工智能学家

10+阅读 · 2019年2月18日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

专知

16+阅读 · 2018年5月24日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于智能特征的手绘组装建模的关键问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

VeriStruct: AI-assisted Automated Verification of Data-Structure Modules in Verus

Arxiv

0+阅读 · 2月18日

AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning

Arxiv

0+阅读 · 2月12日

A Semantic Encoding of Object Centric Event Data

Arxiv

0+阅读 · 2月10日

Enhancing Generative AI Image Refinement with Scribbles and Annotations: A Comparative Study of Multimodal Prompts

Arxiv

0+阅读 · 2月9日

Rethinking Scientific Modeling: Toward Physically Consistent and Simulation-Executable Programmatic Generation

Arxiv

0+阅读 · 2月6日

Unmediated AI-Assisted Scholarly Citations

Arxiv

0+阅读 · 2月2日

AutoCodeSherpa: Symbolic Explanations in AI Coding Agents

Arxiv

0+阅读 · 2月1日

Usage, Effects and Requirements for AI Coding Assistants in the Enterprise: An Empirical Study

Arxiv

0+阅读 · 1月27日

Data-driven Test Generation for Fuzzing AI Compiler

Arxiv

0+阅读 · 1月24日

Multi-Location Software Model Completion

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

4+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

专知会员服务

19+阅读 · 2月12日

【新书】AI工程：基于基础模型构建应用

【新书】AI工程：基于基础模型构建应用

专知会员服务

61+阅读 · 2024年12月30日

《基于模型的路线推荐系统对决策的影响研究》180页

《基于模型的路线推荐系统对决策的影响研究》180页

专知会员服务

48+阅读 · 2024年3月25日

大模型专题报告：百模渐欲迷人眼，AI应用繁花开，42页pdf

大模型专题报告：百模渐欲迷人眼，AI应用繁花开，42页pdf

专知会员服务

126+阅读 · 2024年1月29日

面向AI大模型的智算中心网络演进白皮书，30页pdf

面向AI大模型的智算中心网络演进白皮书，30页pdf

专知会员服务

85+阅读 · 2023年5月15日

【AI4Science】生成式AI怎么做图生成？KAIST等最新《图扩散模型》综述，详述生成式AI在分子、蛋白质和材料科学的应用

【AI4Science】生成式AI怎么做图生成？KAIST等最新《图扩散模型》综述，详述生成式AI在分子、蛋白质和材料科学的应用

专知会员服务

72+阅读 · 2023年4月10日

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

专知会员服务

235+阅读 · 2023年3月20日

【IJCAI2021】User-as-Graph: 基于异构图池化的新闻推荐用户建模

专知会员服务

23+阅读 · 2021年8月25日

《数据驱动的科学与工程——机器学习、动力系统与控制》，572页pdf

《数据驱动的科学与工程——机器学习、动力系统与控制》，572页pdf

专知会员服务

199+阅读 · 2021年2月17日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知会员服务

343+阅读 · 2020年1月27日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

55+阅读 · 2022年4月25日

【干货书】《机器学习动力系统与控制》，572页pdf

【干货书】《机器学习动力系统与控制》，572页pdf

专知

36+阅读 · 2022年1月8日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知

76+阅读 · 2020年1月27日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

Github项目推荐 | gensim - Python中的主题建模

Github项目推荐 | gensim - Python中的主题建模

AI研习社

15+阅读 · 2019年3月16日

清华178页深度报告：一文看懂AI数据挖掘

清华178页深度报告：一文看懂AI数据挖掘

人工智能学家

10+阅读 · 2019年2月18日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

专知

16+阅读 · 2018年5月24日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

相关论文

VeriStruct: AI-assisted Automated Verification of Data-Structure Modules in Verus

Arxiv

0+阅读 · 2月18日

AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning

Arxiv

0+阅读 · 2月12日

A Semantic Encoding of Object Centric Event Data

Arxiv

0+阅读 · 2月10日

Enhancing Generative AI Image Refinement with Scribbles and Annotations: A Comparative Study of Multimodal Prompts

Arxiv

0+阅读 · 2月9日

Rethinking Scientific Modeling: Toward Physically Consistent and Simulation-Executable Programmatic Generation

Arxiv

0+阅读 · 2月6日

Unmediated AI-Assisted Scholarly Citations

Arxiv

0+阅读 · 2月2日

AutoCodeSherpa: Symbolic Explanations in AI Coding Agents

Arxiv

0+阅读 · 2月1日

Usage, Effects and Requirements for AI Coding Assistants in the Enterprise: An Empirical Study

Arxiv

0+阅读 · 1月27日

Data-driven Test Generation for Fuzzing AI Compiler

Arxiv

0+阅读 · 1月24日

Multi-Location Software Model Completion

Arxiv

0+阅读 · 1月20日

相关基金

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于智能特征的手绘组装建模的关键问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员