ReFuGe: Feature Generation for Prediction Tasks on Relational Databases with LLM Agents - 专知论文

会员服务 ·

0

数据库 · 关系数据 · 特征生成 · 生成方法 · 大语言模型 ·

ReFuGe: Feature Generation for Prediction Tasks on Relational Databases with LLM Agents

翻译：ReFuGe：基于LLM代理的关系数据库预测任务特征生成方法

Kyungho Kim,Geon Lee,Juyeon Kim,Dongwon Choi,Shinhwan Kang,Kijung Shin

from arxiv, Accepted in ACM WWW 2026 (Short Paper)

Relational databases (RDBs) play a crucial role in many real-world web applications, supporting data management across multiple interconnected tables. Beyond typical retrieval-oriented tasks, prediction tasks on RDBs have recently gained attention. In this work, we address this problem by generating informative relational features that enhance predictive performance. However, generating such features is challenging: it requires reasoning over complex schemas and exploring a combinatorially large feature space, all without explicit supervision. To address these challenges, we propose ReFuGe, an agentic framework that leverages specialized large language model agents: (1) a schema selection agent identifies the tables and columns relevant to the task, (2) a feature generation agent produces diverse candidate features from the selected schema, and (3) a feature filtering agent evaluates and retains promising features through reasoning-based and validation-based filtering. It operates within an iterative feedback loop until performance converges. Experiments on RDB benchmarks demonstrate that ReFuGe substantially improves performance on various RDB prediction tasks. Our code and datasets are available at https://github.com/K-Kyungho/REFUGE.

翻译：关系数据库（RDB）在众多现实世界网络应用中扮演着关键角色，支持跨多个互连表的数据管理。除典型的检索导向任务外，针对关系数据库的预测任务近期备受关注。本研究通过生成信息丰富的关联特征以提升预测性能来解决此问题。然而，此类特征的生成面临挑战：需要在复杂数据库模式上进行推理，探索组合爆炸的特征空间，且缺乏显式监督。为应对这些挑战，我们提出ReFuGe——一个基于代理的框架，其利用专用大语言模型代理：（1）模式选择代理识别与任务相关的数据表及列；（2）特征生成代理从选定模式中生成多样化的候选特征；（3）特征过滤代理通过基于推理和基于验证的筛选机制评估并保留潜力特征。该框架在迭代反馈循环中运行直至性能收敛。在关系数据库基准测试上的实验表明，ReFuGe能显著提升各类关系数据库预测任务的性能。我们的代码与数据集已发布于 https://github.com/K-Kyungho/REFUGE。

0

相关内容

数据库

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。

图数据库综述

图数据库综述

专知会员服务

18+阅读 · 2025年6月2日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

什么是关系深度学习？斯坦福Jure Leskovec《关系深度学习：关系数据库上的图表示学习》最新报告与论文

什么是关系深度学习？斯坦福Jure Leskovec《关系深度学习：关系数据库上的图表示学习》最新报告与论文

专知会员服务

36+阅读 · 2023年11月30日

【牛津大学博士论文】关系数据的学习和推理，243页pdf

【牛津大学博士论文】关系数据的学习和推理，243页pdf

专知会员服务

54+阅读 · 2022年11月16日

如何生成预期数据？埃默里大学等最新《深度学习可控数据生成》综述，52页pdf涵盖346篇文献全面阐述可控生成技术体系

如何生成预期数据？埃默里大学等最新《深度学习可控数据生成》综述，52页pdf涵盖346篇文献全面阐述可控生成技术体系

专知会员服务

40+阅读 · 2022年7月22日

知识图谱到底如何落地？这本书《设计与构建企业知识图谱》阐述企业重数据库与知识图谱的关联，168页pdf

知识图谱到底如何落地？这本书《设计与构建企业知识图谱》阐述企业重数据库与知识图谱的关联，168页pdf

专知会员服务

123+阅读 · 2022年5月29日

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

专知会员服务

20+阅读 · 2022年2月25日

【IJCAI2020】统计相关模型，A Complete Characterization of Projectivity for Statistical Relational Models

【IJCAI2020】统计相关模型，A Complete Characterization of Projectivity for Statistical Relational Models

专知会员服务

20+阅读 · 2020年4月25日

【ECML-PKDD 2019】二部图中通过社区发现算法进行链接预测（Link Prediction via Community Detection inBipartite Multi-Layer Graphs）

【ECML-PKDD 2019】二部图中通过社区发现算法进行链接预测（Link Prediction via Community Detection inBipartite Multi-Layer Graphs）

专知会员服务

34+阅读 · 2019年12月3日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

29+阅读 · 2019年11月15日

【ICLR2020-Facebook AI】张量分解的时序知识图谱补全

【ICLR2020-Facebook AI】张量分解的时序知识图谱补全

专知

10+阅读 · 2020年4月14日

知识图谱构建-关系抽取和属性抽取

知识图谱构建-关系抽取和属性抽取

深度学习自然语言处理

27+阅读 · 2020年3月1日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

DSGAN：使用生成式对抗网络进行远距离监督关系抽取

DSGAN：使用生成式对抗网络进行远距离监督关系抽取

微信AI

98+阅读 · 2018年12月28日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

【干货】理解特征工程Part 2——类别数据（附代码）

【干货】理解特征工程Part 2——类别数据（附代码）

专知

16+阅读 · 2018年6月8日

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

机器之心

12+阅读 · 2018年4月16日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

特定目标情感分析——神经网络这是要逆天么

特定目标情感分析——神经网络这是要逆天么

计算机研究与发展

14+阅读 · 2017年9月5日

【机器学习】【案例分析】基于机器学习的磁盘故障预测

【机器学习】【案例分析】基于机器学习的磁盘故障预测

产业智能官

12+阅读 · 2017年8月13日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云计算环境下基于图模型的海量RDF数据管理关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向DS证据理论的关联信息融合研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

基于相关性的大数据分类理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Predictive Query Language: A Domain-Specific Language for Predictive Modeling on Relational Databases

Arxiv

0+阅读 · 2月16日

No Need to Train Your RDB Foundation Model

Arxiv

0+阅读 · 2月14日

Predictive Query Language: A Domain-Specific Language for Predictive Modeling on Relational Databases

Arxiv

0+阅读 · 2月10日

Relational Graph Transformer

Arxiv

0+阅读 · 2月5日

LatentTune: Efficient Tuning of High Dimensional Database Parameters via Latent Representation Learning

Arxiv

0+阅读 · 2月4日

PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models

Arxiv

0+阅读 · 2月3日

Insight Agents: An LLM-Based Multi-Agent System for Data Insights

Arxiv

0+阅读 · 2月2日

TGSBM: Transformer-Guided Stochastic Block Model for Link Prediction

Arxiv

0+阅读 · 1月28日

Relational Database Distillation: From Structured Tables to Condensed Graph Data

Arxiv

0+阅读 · 1月20日

SpecMap: Hierarchical LLM Agent for Datasheet-to-Code Traceability Link Recovery in Systems Engineering

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

5+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

4+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

4+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

图数据库综述

图数据库综述

专知会员服务

18+阅读 · 2025年6月2日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

什么是关系深度学习？斯坦福Jure Leskovec《关系深度学习：关系数据库上的图表示学习》最新报告与论文

什么是关系深度学习？斯坦福Jure Leskovec《关系深度学习：关系数据库上的图表示学习》最新报告与论文

专知会员服务

36+阅读 · 2023年11月30日

【牛津大学博士论文】关系数据的学习和推理，243页pdf

【牛津大学博士论文】关系数据的学习和推理，243页pdf

专知会员服务

54+阅读 · 2022年11月16日

如何生成预期数据？埃默里大学等最新《深度学习可控数据生成》综述，52页pdf涵盖346篇文献全面阐述可控生成技术体系

如何生成预期数据？埃默里大学等最新《深度学习可控数据生成》综述，52页pdf涵盖346篇文献全面阐述可控生成技术体系

专知会员服务

40+阅读 · 2022年7月22日

知识图谱到底如何落地？这本书《设计与构建企业知识图谱》阐述企业重数据库与知识图谱的关联，168页pdf

知识图谱到底如何落地？这本书《设计与构建企业知识图谱》阐述企业重数据库与知识图谱的关联，168页pdf

专知会员服务

123+阅读 · 2022年5月29日

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

专知会员服务

20+阅读 · 2022年2月25日

【IJCAI2020】统计相关模型，A Complete Characterization of Projectivity for Statistical Relational Models

【IJCAI2020】统计相关模型，A Complete Characterization of Projectivity for Statistical Relational Models

专知会员服务

20+阅读 · 2020年4月25日

【ECML-PKDD 2019】二部图中通过社区发现算法进行链接预测（Link Prediction via Community Detection inBipartite Multi-Layer Graphs）

【ECML-PKDD 2019】二部图中通过社区发现算法进行链接预测（Link Prediction via Community Detection inBipartite Multi-Layer Graphs）

专知会员服务

34+阅读 · 2019年12月3日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

29+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【ICLR2020-Facebook AI】张量分解的时序知识图谱补全

【ICLR2020-Facebook AI】张量分解的时序知识图谱补全

专知

10+阅读 · 2020年4月14日

知识图谱构建-关系抽取和属性抽取

知识图谱构建-关系抽取和属性抽取

深度学习自然语言处理

27+阅读 · 2020年3月1日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

DSGAN：使用生成式对抗网络进行远距离监督关系抽取

DSGAN：使用生成式对抗网络进行远距离监督关系抽取

微信AI

98+阅读 · 2018年12月28日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

【干货】理解特征工程Part 2——类别数据（附代码）

【干货】理解特征工程Part 2——类别数据（附代码）

专知

16+阅读 · 2018年6月8日

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

机器之心

12+阅读 · 2018年4月16日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

特定目标情感分析——神经网络这是要逆天么

特定目标情感分析——神经网络这是要逆天么

计算机研究与发展

14+阅读 · 2017年9月5日

【机器学习】【案例分析】基于机器学习的磁盘故障预测

【机器学习】【案例分析】基于机器学习的磁盘故障预测

产业智能官

12+阅读 · 2017年8月13日

相关论文

Predictive Query Language: A Domain-Specific Language for Predictive Modeling on Relational Databases

Arxiv

0+阅读 · 2月16日

No Need to Train Your RDB Foundation Model

Arxiv

0+阅读 · 2月14日

Predictive Query Language: A Domain-Specific Language for Predictive Modeling on Relational Databases

Arxiv

0+阅读 · 2月10日

Relational Graph Transformer

Arxiv

0+阅读 · 2月5日

LatentTune: Efficient Tuning of High Dimensional Database Parameters via Latent Representation Learning

Arxiv

0+阅读 · 2月4日

PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models

Arxiv

0+阅读 · 2月3日

Insight Agents: An LLM-Based Multi-Agent System for Data Insights

Arxiv

0+阅读 · 2月2日

TGSBM: Transformer-Guided Stochastic Block Model for Link Prediction

Arxiv

0+阅读 · 1月28日

Relational Database Distillation: From Structured Tables to Condensed Graph Data

Arxiv

0+阅读 · 1月20日

SpecMap: Hierarchical LLM Agent for Datasheet-to-Code Traceability Link Recovery in Systems Engineering

Arxiv

0+阅读 · 1月16日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云计算环境下基于图模型的海量RDF数据管理关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向DS证据理论的关联信息融合研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

基于相关性的大数据分类理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员