Achieving Precise Text-To-Cypher Via Grounded Knowledge Graph Data Generation - 专知论文

会员服务 ·

0

数据生成 · 知识 · 图谱 · 合成 · 生成方法 ·

Achieving Precise Text-To-Cypher Via Grounded Knowledge Graph Data Generation

翻译：基于接地知识图谱数据生成的精确文本到Cypher转换

Francesco Cazzaro,Jessica Lennon,Ariadna Quattoni

Property Graphs are rapidly being adopted as database frameworks for representing heterogeneous data sources. To enable precise access to the information contained in them we need conversational interfaces based on Text-To-Cypher (Text2Cypher) parsers. This paper presents an automatic synthetic data generation method that can be leveraged to fine-tune small LLMs for this task. We conduct experiments on all the major Text-To-Cypher benchmarks, demonstrating that with our synthetic data generation approach we can significantly increase the performance of small LLMs, allowing them to compete with much larger proprietary models. This means that in settings in which models must be locally deployed we can ensure data-sovereignty without sacrificing accuracy and without costly annotation campaigns.

翻译：属性图正被迅速采用为表示异构数据源的数据库框架。为了实现对其中所包含信息的精确访问，我们需要基于文本到Cypher（Text2Cypher）解析器的对话式接口。本文提出了一种自动合成数据生成方法，可用于微调小型大语言模型（LLM）以完成该任务。我们在所有主要的文本到Cypher基准测试上进行了实验，证明通过我们的合成数据生成方法，可以显著提升小型LLM的性能，使其能够与更大的专有模型相竞争。这意味着在必须本地部署模型的场景中，我们能够在不牺牲准确性的前提下确保数据主权，且无需昂贵的人工标注工作。

0

相关内容

数据生成

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

大模型如何生成可控文本？人大等最新《大型语言模型的可控文本生成》综述

大模型如何生成可控文本？人大等最新《大型语言模型的可控文本生成》综述

专知会员服务

37+阅读 · 2024年8月23日

【博士论文】基于知识的自然语言理解与生成，230页pdf

【博士论文】基于知识的自然语言理解与生成，230页pdf

专知会员服务

41+阅读 · 2024年4月1日

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

专知会员服务

46+阅读 · 2023年9月24日

使用多模态语言模型生成图像

使用多模态语言模型生成图像

专知会员服务

32+阅读 · 2023年8月23日

博士论文 |《用于提高可解释性和效率的图神经网络》中佛罗里达大学

博士论文 |《用于提高可解释性和效率的图神经网络》中佛罗里达大学

专知会员服务

40+阅读 · 2023年2月19日

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

专知会员服务

24+阅读 · 2022年3月15日

【ACL2021】预训练语言模型的少样本知识图谱文本生成

专知会员服务

42+阅读 · 2021年6月6日

【文本生成现代方法】Modern Methods for Text Generation

【文本生成现代方法】Modern Methods for Text Generation

专知会员服务

44+阅读 · 2020年9月11日

【AAAI2020接受论文】利用图卷积网络将知识注入文本任务，Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks

【AAAI2020接受论文】利用图卷积网络将知识注入文本任务，Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks

专知会员服务

45+阅读 · 2019年11月11日

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

PaperWeekly

21+阅读 · 2020年3月22日

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

开放知识图谱

52+阅读 · 2019年9月1日

Github 项目推荐 | PyTorch 实现的 GAN 文本生成框架

Github 项目推荐 | PyTorch 实现的 GAN 文本生成框架

AI研习社

35+阅读 · 2019年6月10日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

手把手 | 基于TextRank算法的文本摘要（附Python代码）

手把手 | 基于TextRank算法的文本摘要（附Python代码）

大数据文摘

11+阅读 · 2018年12月27日

基于深度学习的文本生成【附217页PPT下载】

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

文本数据分析（二）：文本数据预处理的方法

文本数据分析（二）：文本数据预处理的方法

论智

16+阅读 · 2018年4月10日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

Want Better Synthetic Data? Steer It: Activation Steering for Low-Resource Language Generation

Arxiv

0+阅读 · 6月16日

Text-Vision Co-Instructed Image Editing

Arxiv

0+阅读 · 6月15日

GraphInfer-Bench: Benchmarking LLM's Inference Capability on Graphs

Arxiv

0+阅读 · 6月10日

Let ViT Speak: Generative Language-Image Pre-training

Arxiv

0+阅读 · 6月9日

ERAlign: Energy-based Representation Alignment of GNNs and LLMs on Text-attributed Graphs

Arxiv

0+阅读 · 6月9日

PIPE-Cypher: Automatic Enterprise Benchmark Generation for Text-to-Cypher Systems

Arxiv

0+阅读 · 6月7日

Visual Commonsense Driven Knowledge Refinements for Scene Graph Generation

Arxiv

0+阅读 · 6月4日

GraphInstruct: A Progressive Benchmark for Diagnosing Capability Gaps in LLM Graph Generation

Arxiv

0+阅读 · 5月19日

Toward Multi-Database Query Reasoning for Text2Cypher

Arxiv

0+阅读 · 5月11日

Extending Confidence-Based Text2Cypher with Grammar and Schema Aware Filtering

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

1+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

2+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

8+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

大模型如何生成可控文本？人大等最新《大型语言模型的可控文本生成》综述

大模型如何生成可控文本？人大等最新《大型语言模型的可控文本生成》综述

专知会员服务

37+阅读 · 2024年8月23日

【博士论文】基于知识的自然语言理解与生成，230页pdf

【博士论文】基于知识的自然语言理解与生成，230页pdf

专知会员服务

41+阅读 · 2024年4月1日

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

专知会员服务

46+阅读 · 2023年9月24日

使用多模态语言模型生成图像

使用多模态语言模型生成图像

专知会员服务

32+阅读 · 2023年8月23日

博士论文 |《用于提高可解释性和效率的图神经网络》中佛罗里达大学

博士论文 |《用于提高可解释性和效率的图神经网络》中佛罗里达大学

专知会员服务

40+阅读 · 2023年2月19日

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

专知会员服务

24+阅读 · 2022年3月15日

【ACL2021】预训练语言模型的少样本知识图谱文本生成

专知会员服务

42+阅读 · 2021年6月6日

【文本生成现代方法】Modern Methods for Text Generation

【文本生成现代方法】Modern Methods for Text Generation

专知会员服务

44+阅读 · 2020年9月11日

【AAAI2020接受论文】利用图卷积网络将知识注入文本任务，Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks

【AAAI2020接受论文】利用图卷积网络将知识注入文本任务，Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks

专知会员服务

45+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

PaperWeekly

21+阅读 · 2020年3月22日

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

开放知识图谱

52+阅读 · 2019年9月1日

Github 项目推荐 | PyTorch 实现的 GAN 文本生成框架

Github 项目推荐 | PyTorch 实现的 GAN 文本生成框架

AI研习社

35+阅读 · 2019年6月10日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

手把手 | 基于TextRank算法的文本摘要（附Python代码）

手把手 | 基于TextRank算法的文本摘要（附Python代码）

大数据文摘

11+阅读 · 2018年12月27日

基于深度学习的文本生成【附217页PPT下载】

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

文本数据分析（二）：文本数据预处理的方法

文本数据分析（二）：文本数据预处理的方法

论智

16+阅读 · 2018年4月10日

相关论文

Want Better Synthetic Data? Steer It: Activation Steering for Low-Resource Language Generation

Arxiv

0+阅读 · 6月16日

Text-Vision Co-Instructed Image Editing

Arxiv

0+阅读 · 6月15日

GraphInfer-Bench: Benchmarking LLM's Inference Capability on Graphs

Arxiv

0+阅读 · 6月10日

Let ViT Speak: Generative Language-Image Pre-training

Arxiv

0+阅读 · 6月9日

ERAlign: Energy-based Representation Alignment of GNNs and LLMs on Text-attributed Graphs

Arxiv

0+阅读 · 6月9日

PIPE-Cypher: Automatic Enterprise Benchmark Generation for Text-to-Cypher Systems

Arxiv

0+阅读 · 6月7日

Visual Commonsense Driven Knowledge Refinements for Scene Graph Generation

Arxiv

0+阅读 · 6月4日

GraphInstruct: A Progressive Benchmark for Diagnosing Capability Gaps in LLM Graph Generation

Arxiv

0+阅读 · 5月19日

Toward Multi-Database Query Reasoning for Text2Cypher

Arxiv

0+阅读 · 5月11日

Extending Confidence-Based Text2Cypher with Grammar and Schema Aware Filtering

Arxiv

0+阅读 · 5月11日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员