Missing values are pervasive in real-world tabular data and can significantly impair downstream analysis. Imputing them is especially challenging in text-rich tables, where dependencies are implicit, complex, and dispersed across long textual fields. Recent work has explored using Large Language Models (LLMs) for data imputation, yet existing approaches typically process entire tables or loosely related contexts, which can compromise accuracy, scalability, and explainability. We introduce LDI, a novel framework that leverages LLMs through localized reasoning, selecting a compact, contextually relevant subset of attributes and tuples for each missing value. This targeted selection reduces noise, improves scalability, and provides transparent attribution by revealing the dependency relations that justify each selected attribute and the evidence behind each retrieved tuple. It makes clear not only which data influenced a prediction, but also why it was chosen. Through extensive experiments on real and synthetic datasets, we demonstrate that LDI consistently outperforms state-of-the-art imputation methods, achieving up to 8% higher accuracy with hosted LLMs and even greater gains with small local models. The improved interpretability and robustness also make LDI well-suited for high-stakes data management applications. Our code and datasets are publicly available at https://github.com/soroushomidvar/LDI.


翻译:缺失值在现实表格数据中普遍存在,且会严重削弱下游分析效果。在文本富集表格中,由于依赖关系隐含、复杂且分散于长文本字段,对缺失值进行插补尤为困难。近期研究探索了利用大语言模型进行数据插补的方法,但现有方法通常处理整个表格或松散相关的上下文,这可能导致准确性、可扩展性和可解释性受损。我们提出LDI——一种利用大语言模型进行局部化推理的新型框架,可为每个缺失值选择紧凑且上下文相关的属性和元组子集。这种针对性选择可降低噪音、提升可扩展性,并通过揭示支撑每个选定属性的依赖关系及每个检索元组背后的证据,提供透明的归因机制。它不仅清晰展示哪些数据影响了预测,还解释了数据被选中的原因。通过在真实与合成数据集上的广泛实验,我们证明LDI始终优于现有最先进的插补方法:托管大语言模型可获得高达8%的准确率提升,而小型本地模型则能实现更大增益。其增强的可解释性与鲁棒性也使LDI特别适用于高可靠性数据管理应用场景。我们的代码和数据集已在https://github.com/soroushomidvar/LDI公开。

0
下载
关闭预览

相关内容

【剑桥博士论文】小样本高维数据上的表格机器学习
专知会员服务
18+阅读 · 2025年4月9日
【NeurIPS2024】用于缺失值数据集的可解释广义加性模型
专知会员服务
18+阅读 · 2024年12月7日
【NeurIPS2024】TableRAG:基于语言模型的百万标记表格理解
专知会员服务
38+阅读 · 2024年10月8日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
39+阅读 · 2024年8月23日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
缺失数据统计分析,第三版,462页pdf
专知
50+阅读 · 2020年2月28日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
最新内容
《量子技术的军事任务技术适配与利用》
专知会员服务
0+阅读 · 7分钟前
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员