In the era of graph-based retrieval-augmented generation (RAG), link prediction is a significant preprocessing step for improving the quality of fragmented or incomplete domain-specific data for the graph retrieval. Knowledge management in the process industry uses RAG-based applications to optimize operations, ensure safety, and facilitate continuous improvement by effectively leveraging operational data and past insights. A key challenge in this domain is the fragmented nature of event logs in shift books, where related records are often kept separate, even though they belong to a single event or process. This fragmentation hinders the recommendation of previously implemented solutions to users, which is crucial in the timely problem-solving at live production sites. To address this problem, we develop a record linking model, which we define as a cross-document coreference resolution (CDCR) task. Record linking adapts the task definition of CDCR and combines two state-of-the-art CDCR models with the principles of natural language inference (NLI) and semantic text similarity (STS) to perform link prediction. The evaluation shows that our record linking model outperformed the best versions of our baselines, i.e., NLP and STS, by 28% (11.43 p) and 27.4% (11.21 p), respectively. Our work demonstrates that common NLP tasks can be combined and adapted to a domain-specific setting of the German process industry, improving data quality and connectivity in shift logs.


翻译:在基于图的检索增强生成(RAG)时代,链接预测是提升图检索中碎片化或不完整领域特定数据质量的重要预处理步骤。流程工业中的知识管理通过有效利用运营数据和历史经验,采用基于RAG的应用来优化操作、确保安全并促进持续改进。该领域的一个关键挑战是交接班日志中事件日志的碎片化特性——相关记录虽然属于同一事件或流程,却往往被分散保存。这种碎片化阻碍了向用户推荐先前实施的解决方案,而这对于生产现场及时解决问题至关重要。为解决该问题,我们开发了一个记录链接模型,并将其定义为跨文档共指消解(CDCR)任务。该记录链接模型通过适配CDCR任务定义,结合两种最先进的CDCR模型与自然语言推理(NLI)及语义文本相似度(STS)原理进行链接预测。评估表明,我们的记录链接模型分别以28%(11.43个百分点)和27.4%(11.21个百分点)的优势超越最佳版本的基线模型(即NLP模型和STS模型)。本研究证明了通用NLP任务可被组合并适配至德语流程工业的特定领域场景,从而提升交接班日志的数据质量与关联性。

0
下载
关闭预览

相关内容

异质信息网络链路预测方法综述
专知会员服务
17+阅读 · 2024年8月8日
Link prediction | 三篇SEAL相关工作小结
AINLP
48+阅读 · 2020年11月17日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【综述】交通流量预测,附15页论文下载
专知
23+阅读 · 2020年4月23日
论文浅尝 | 基于事理图谱的脚本事件预测
开放知识图谱
10+阅读 · 2019年12月10日
基于LSTM深层神经网络的时间序列预测
论智
22+阅读 · 2018年9月4日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关主题
最新内容
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
0+阅读 · 24分钟前
在人工智能加速决策环境中拓展OODA循环
专知会员服务
0+阅读 · 34分钟前
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
0+阅读 · 49分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
相关资讯
Link prediction | 三篇SEAL相关工作小结
AINLP
48+阅读 · 2020年11月17日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【综述】交通流量预测,附15页论文下载
专知
23+阅读 · 2020年4月23日
论文浅尝 | 基于事理图谱的脚本事件预测
开放知识图谱
10+阅读 · 2019年12月10日
基于LSTM深层神经网络的时间序列预测
论智
22+阅读 · 2018年9月4日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员