Enterprise property graphs vary widely in schema structure, internal terminology, domain assumptions, governance constraints, and user interaction patterns. A deployment-relevant Text2Cypher benchmark therefore reflects the questions users and agents actually ask of that graph. Creating such a benchmark is difficult because schemas and values are unique, and graph structure changes over time. Each NL-query pair must also be executable, use real graph entities, preserve diversity, and remain balanced across query types and difficulty levels. We present PIPE-Cypher, a local benchmark-generation pipeline that turns a live property graph and optional seed queries from customer questions, analyst logs, or agent tool calls into balanced NL-to-Cypher benchmarks. PIPE-Cypher combines schema profiling, reverse-query grounding, constrained generation, deterministic Cypher governance, execution validation, redaction, diversity controls, and a calibrated local LLM judge. Using local Qwen3.5-9B generation and judging, PIPE-Cypher exports 3,000 accepted FinBench/SNB examples, completes three audited ablation suites, calibrates judge behavior with human labels, and evaluates 11 local downstream models. The resulting benchmark is deliberately discriminative: zero-shot transfer is weak, while a few-shot control shows that schema-specific example banks can help compatible model families. Together, PIPE-Cypher makes Text2Cypher benchmarking a repeatable process that evolves with the graph, its users, and its target workloads.


翻译:企业属性图在模式结构、内部术语、领域假设、治理约束和用户交互模式上存在广泛差异。因此,部署相关的Text2Cypher基准应反映用户和智能体对该图实际提出的问题。由于模式与值的唯一性以及图结构随时间的演变,创建此类基准十分困难。每条自然语言查询对必须可执行、使用真实图实体、保持多样性,并在查询类型和难度级别上保持平衡。我们提出PIPE-Cypher,一种本地基准生成流水线,可将活跃属性图及来自客户问题、分析师日志或智能体工具调用的可选种子查询转化为平衡的自然语言到Cypher基准。PIPE-Cypher结合了模式分析、逆向查询接地、受约束生成、确定性Cypher治理、执行验证、脱敏、多样性控制以及经过校准的本地LLM评判器。利用本地Qwen3.5-9B进行生成与评判,PIPE-Cypher输出了3000个被采纳的FinBench/SNB示例,完成了三组受控消融实验,使用人工标注校准了评判器行为,并评估了11个本地下游模型。生成的基准具有明确的区分性:零样本迁移表现较弱,而少样本控制表明,模式特定的示例库可帮助兼容模型族。总之,PIPE-Cypher使Text2Cypher基准测试成为一个可随图、用户及目标工作负载共同演进的重复性流程。

0
下载
关闭预览

相关内容

【博士论文】深度生成表示学习
专知会员服务
35+阅读 · 2025年1月13日
自动文本摘要
AI研习社
21+阅读 · 2018年10月27日
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
胶囊网络(Capsule Network)在文本分类中的探索
PaperWeekly
13+阅读 · 2018年4月5日
【教程】如何使用深度学习为照片自动生成文本描述?
GAN生成式对抗网络
20+阅读 · 2017年11月19日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【博士论文】深度生成表示学习
专知会员服务
35+阅读 · 2025年1月13日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员