The missing data problem is one of the important issues to address for achieving data quality. While imputation-based methods are designed to achieve data completeness, their efficacy is observed to be diminishing as and when there is increasing in the missingness percentage. Further, extant approaches often struggle to handle mixed-type datasets, typically supporting either numerical and/or categorical data. In this work, we propose LLMDR, automatic data recovery framework which operates in two stage approach, wherein the Stage-I: DBSCAN clustering algorithm is employed to select the most representative samples and in the Stage-II: Multi-LLMs are employed for data recovery considering the local and global representative samples; Later, this framework invokes the consensus algorithm for recommending a more accurate value based on other LLMs of local and global effective samples. Experimental results demonstrate that proposed framework works effectively on various mixed datasets in terms of Accuracy, KS-Statistic, SMAPE, and MSE. Further, we have also shown the advantage of the consensus mechanism for final recommendation in mixed-type data.


翻译:缺失数据问题是实现数据质量需要解决的重要问题之一。虽然基于插补的方法旨在实现数据完整性,但观察到其有效性会随着缺失率的增加而降低。此外,现有方法通常难以处理混合类型数据集,通常仅支持数值型和/或分类数据。在这项工作中,我们提出了LLMDR,一种自动数据恢复框架,采用两阶段方法运行:第一阶段:采用DBSCAN聚类算法选择最具代表性的样本;第二阶段:利用多个大语言模型,结合局部和全局代表性样本进行数据恢复;随后,该框架调用共识算法,基于其他大语言模型对局部和全局有效样本的分析,推荐更准确的值。实验结果表明,所提框架在准确率、KS统计量、SMAPE和MSE指标上,对各种混合数据集均能有效工作。此外,我们还展示了共识机制在混合类型数据中进行最终推荐的优势。

0
下载
关闭预览

相关内容

《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
一文详解Google最新NLP模型XLNet
PaperWeekly
18+阅读 · 2019年7月1日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
0+阅读 · 1月29日
VIP会员
相关VIP内容
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员