LDI: Localized Data Imputation for Text-Rich Tables - 专知论文

会员服务 ·

0

数据填补 · MoDELS · 模型评估 · 缺失值 · Analysis ·

LDI: Localized Data Imputation for Text-Rich Tables

翻译：LDI：面向文本富集表格的局部化数据插补

Soroush Omidvartehrani,Davood Rafiei

Missing values are pervasive in real-world tabular data and can significantly impair downstream analysis. Imputing them is especially challenging in text-rich tables, where dependencies are implicit, complex, and dispersed across long textual fields. Recent work has explored using Large Language Models (LLMs) for data imputation, yet existing approaches typically process entire tables or loosely related contexts, which can compromise accuracy, scalability, and explainability. We introduce LDI, a novel framework that leverages LLMs through localized reasoning, selecting a compact, contextually relevant subset of attributes and tuples for each missing value. This targeted selection reduces noise, improves scalability, and provides transparent attribution by revealing the dependency relations that justify each selected attribute and the evidence behind each retrieved tuple. It makes clear not only which data influenced a prediction, but also why it was chosen. Through extensive experiments on real and synthetic datasets, we demonstrate that LDI consistently outperforms state-of-the-art imputation methods, achieving up to 8% higher accuracy with hosted LLMs and even greater gains with small local models. The improved interpretability and robustness also make LDI well-suited for high-stakes data management applications. Our code and datasets are publicly available at https://github.com/soroushomidvar/LDI.

翻译：缺失值在现实表格数据中普遍存在，且会严重削弱下游分析效果。在文本富集表格中，由于依赖关系隐含、复杂且分散于长文本字段，对缺失值进行插补尤为困难。近期研究探索了利用大语言模型进行数据插补的方法，但现有方法通常处理整个表格或松散相关的上下文，这可能导致准确性、可扩展性和可解释性受损。我们提出LDI——一种利用大语言模型进行局部化推理的新型框架，可为每个缺失值选择紧凑且上下文相关的属性和元组子集。这种针对性选择可降低噪音、提升可扩展性，并通过揭示支撑每个选定属性的依赖关系及每个检索元组背后的证据，提供透明的归因机制。它不仅清晰展示哪些数据影响了预测，还解释了数据被选中的原因。通过在真实与合成数据集上的广泛实验，我们证明LDI始终优于现有最先进的插补方法：托管大语言模型可获得高达8%的准确率提升，而小型本地模型则能实现更大增益。其增强的可解释性与鲁棒性也使LDI特别适用于高可靠性数据管理应用场景。我们的代码和数据集已在https://github.com/soroushomidvar/LDI公开。

0

相关内容

数据填补

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

专知会员服务

8+阅读 · 5月6日

【剑桥博士论文】小样本高维数据上的表格机器学习

【剑桥博士论文】小样本高维数据上的表格机器学习

专知会员服务

18+阅读 · 2025年4月9日

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

专知会员服务

18+阅读 · 2024年12月7日

【NeurIPS2024】TableRAG：基于语言模型的百万标记表格理解

【NeurIPS2024】TableRAG：基于语言模型的百万标记表格理解

专知会员服务

38+阅读 · 2024年10月8日

表格数据的语言建模：基础、技术与演变综述

表格数据的语言建模：基础、技术与演变综述

专知会员服务

39+阅读 · 2024年8月23日

浙大数据智能团队最新综述：生成式AI时代下表格数据增强的进展与展望

浙大数据智能团队最新综述：生成式AI时代下表格数据增强的进展与展望

专知会员服务

22+阅读 · 2024年8月7日

ChatAug: 利用ChatGPT进行文本数据增强

ChatAug: 利用ChatGPT进行文本数据增强

专知会员服务

81+阅读 · 2023年3月4日

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

专知会员服务

25+阅读 · 2022年8月23日

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

专知会员服务

24+阅读 · 2020年2月16日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

图神经网络如何用于知识图谱？这篇《图神经网络知识图谱补全》综述论文帮你总结好了

图神经网络如何用于知识图谱？这篇《图神经网络知识图谱补全》综述论文帮你总结好了

专知

39+阅读 · 2020年7月29日

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知

50+阅读 · 2020年2月28日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

GAN生成式对抗网络

23+阅读 · 2018年12月2日

文本数据分析（二）：文本数据预处理的方法

文本数据分析（二）：文本数据预处理的方法

论智

16+阅读 · 2018年4月10日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

全球人工智能

21+阅读 · 2017年10月27日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于张量结构和lq范数的低秩张量恢复和补全

国家自然科学基金

1+阅读 · 2015年12月31日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

大数据环境下稀有类数据挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion

Arxiv

0+阅读 · 6月15日

Hyperdimensional computing for structured querying on tabular data embeddings

Arxiv

0+阅读 · 6月11日

DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving

Arxiv

0+阅读 · 6月10日

In-Context Learning for the Imputation of Public Opinion Data with Large Language Models

Arxiv

0+阅读 · 6月8日

ProfiliTable: Profiling-Driven Tabular Data Processing via Agentic Workflows

Arxiv

0+阅读 · 6月4日

TabSODA: Tabular Diffusion based Imputation with Skip Pattern Detection and Ordinal Awareness

Arxiv

0+阅读 · 6月3日

Statistical Embeddings for Similarity, Retrieval, and Interpretable Alignment of Numeric Tabular Datasets

Arxiv

0+阅读 · 5月28日

PIPER: Content-Based Table Search via profiling and LLM-Generated Pseudoqueries

Arxiv

0+阅读 · 5月18日

BAMIFun: Bayesian Multiple Imputation for Functional Data

Arxiv

0+阅读 · 5月8日

TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

0+阅读 · 7分钟前

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

1+阅读 · 10分钟前

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

专知会员服务

8+阅读 · 5月6日

【剑桥博士论文】小样本高维数据上的表格机器学习

【剑桥博士论文】小样本高维数据上的表格机器学习

专知会员服务

18+阅读 · 2025年4月9日

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

专知会员服务

18+阅读 · 2024年12月7日

【NeurIPS2024】TableRAG：基于语言模型的百万标记表格理解

【NeurIPS2024】TableRAG：基于语言模型的百万标记表格理解

专知会员服务

38+阅读 · 2024年10月8日

表格数据的语言建模：基础、技术与演变综述

表格数据的语言建模：基础、技术与演变综述

专知会员服务

39+阅读 · 2024年8月23日

浙大数据智能团队最新综述：生成式AI时代下表格数据增强的进展与展望

浙大数据智能团队最新综述：生成式AI时代下表格数据增强的进展与展望

专知会员服务

22+阅读 · 2024年8月7日

ChatAug: 利用ChatGPT进行文本数据增强

ChatAug: 利用ChatGPT进行文本数据增强

专知会员服务

81+阅读 · 2023年3月4日

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

专知会员服务

25+阅读 · 2022年8月23日

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

专知会员服务

24+阅读 · 2020年2月16日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

热门VIP内容

开通专知VIP会员享更多权益服务

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

相关资讯

图神经网络如何用于知识图谱？这篇《图神经网络知识图谱补全》综述论文帮你总结好了

图神经网络如何用于知识图谱？这篇《图神经网络知识图谱补全》综述论文帮你总结好了

专知

39+阅读 · 2020年7月29日

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知

50+阅读 · 2020年2月28日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

GAN生成式对抗网络

23+阅读 · 2018年12月2日

文本数据分析（二）：文本数据预处理的方法

文本数据分析（二）：文本数据预处理的方法

论智

16+阅读 · 2018年4月10日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

全球人工智能

21+阅读 · 2017年10月27日

相关论文

AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion

Arxiv

0+阅读 · 6月15日

Hyperdimensional computing for structured querying on tabular data embeddings

Arxiv

0+阅读 · 6月11日

DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving

Arxiv

0+阅读 · 6月10日

In-Context Learning for the Imputation of Public Opinion Data with Large Language Models

Arxiv

0+阅读 · 6月8日

ProfiliTable: Profiling-Driven Tabular Data Processing via Agentic Workflows

Arxiv

0+阅读 · 6月4日

TabSODA: Tabular Diffusion based Imputation with Skip Pattern Detection and Ordinal Awareness

Arxiv

0+阅读 · 6月3日

Statistical Embeddings for Similarity, Retrieval, and Interpretable Alignment of Numeric Tabular Datasets

Arxiv

0+阅读 · 5月28日

PIPER: Content-Based Table Search via profiling and LLM-Generated Pseudoqueries

Arxiv

0+阅读 · 5月18日

BAMIFun: Bayesian Multiple Imputation for Functional Data

Arxiv

0+阅读 · 5月8日

TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

Arxiv

0+阅读 · 5月6日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于张量结构和lq范数的低秩张量恢复和补全

国家自然科学基金

1+阅读 · 2015年12月31日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

大数据环境下稀有类数据挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员