Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models - 专知论文

会员服务 ·

0

基准 · 模型生成 · 合成 · 数据集 · 语言模型 ·

Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

翻译：面向实用的数据清洗技术基准测试：基于大型语言模型生成真实错误

Xinyuan Liu,Jiahui Chen,Bocheng Hu,Yu Sun,Xinyang Chen,Shaoxu Song,Yongxin Tong

Data quality remains an important challenge in data-driven systems, as errors in tabular data can severely compromise downstream analytics and machine learning performance. Although numerous error detection algorithms have been proposed, the lack of diverse, real-world error datasets limits comprehensive evaluation. Manual error annotation is both time-consuming and inconsistent, motivating the exploration of synthetic error generation as an alternative. In this work, we introduce TableEG, a framework that leverages large language models (LLMs) to generate authentic errors. By employing a table fine-tuning strategy and a triplet representation $(I, T, O)$ to model error generation, detection, and correction tasks, TableEG captures the complex dependencies inherent in two-dimensional tables. Trained on 12 real-world datasets spanning 10 diverse domains, TableEG ensures that the synthesized errors faithfully reflect authentic error distributions. Experimental results indicate that errors generated by TableEG exhibit superior pattern and distribution similarity compared to both rule-based methods and LLM-generated errors without fine-tuning. Furthermore, performance metrics on TableEG-generated errors closely align with those on real-world errors across nearly all datasets and detection algorithms, particularly for machine learning based detection techniques. Overall, TableEG not only bridges the gap between synthetic and real-world errors but also establishes a robust benchmark for subsequent error detection and correction tasks.

翻译：数据质量仍然是数据驱动系统中的重要挑战，因为表格数据中的错误会严重损害下游分析和机器学习性能。尽管已提出众多错误检测算法，但缺乏多样化的真实世界错误数据集限制了全面评估。人工错误标注既耗时又不一致，这促使我们探索合成错误生成作为替代方案。在本工作中，我们提出了TableEG框架，该框架利用大型语言模型生成真实错误。通过采用表格微调策略和三元组表示$(I, T, O)$对错误生成、检测和校正任务进行建模，TableEG能够捕捉二维表格固有的复杂依赖关系。基于涵盖10个不同领域的12个真实世界数据集进行训练，TableEG确保合成错误能够真实反映实际错误分布。实验结果表明，与基于规则的方法以及未经微调的LLM生成错误相比，TableEG生成的错误在模式和分布相似性方面表现更优。此外，在几乎所有数据集和检测算法上，TableEG生成错误的性能指标均与真实世界错误高度吻合，尤其对于基于机器学习的检测技术。总体而言，TableEG不仅弥合了合成错误与真实世界错误之间的差距，还为后续错误检测与校正任务建立了稳健的基准。

0

相关内容

数据质量维度的实践展开：一项综述

数据质量维度的实践展开：一项综述

专知会员服务

20+阅读 · 2025年7月28日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

专知会员服务

17+阅读 · 2025年1月12日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

专知会员服务

42+阅读 · 2023年10月29日

【斯坦福大学博士论文】面向现实应用的深度生成模型，222页pdf

【斯坦福大学博士论文】面向现实应用的深度生成模型，222页pdf

专知会员服务

45+阅读 · 2023年9月7日

面向机器学习模型安全的测试与修复

面向机器学习模型安全的测试与修复

专知会员服务

55+阅读 · 2023年2月5日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

32+阅读 · 2020年12月20日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

32+阅读 · 2020年1月11日

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

专知

32+阅读 · 2022年11月16日

置信学习：让样本中的"脏数据"原形毕露 ( 附开源实现 )

置信学习：让样本中的"脏数据"原形毕露 ( 附开源实现 )

DataFunTalk

12+阅读 · 2020年7月3日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

量子位

13+阅读 · 2019年7月16日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

如何做数据治理？

如何做数据治理？

智能交通技术

19+阅读 · 2019年4月20日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

AI前线

10+阅读 · 2018年11月2日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

传感器故障下的数据驱动容错控制技术及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models

Arxiv

0+阅读 · 3月18日

Query-Guided Analysis and Mitigation of Data Verification Errors (Extended Version)

Arxiv

0+阅读 · 3月9日

High-Fidelity And Complex Test Data Generation For Google SQL Code Generation Services

Arxiv

0+阅读 · 2月25日

The Human Factor in Data Cleaning: Exploring Preferences and Biases

Arxiv

0+阅读 · 2月22日

Benchmarking AI Performance on End-to-End Data Science Projects

Arxiv

0+阅读 · 2月15日

From Bugs to Benchmarks: A Comprehensive Survey of Software Defect Datasets

Arxiv

0+阅读 · 2月10日

How well are open sourced AI-generated image detection models out-of-the-box: A comprehensive benchmark study

Arxiv

0+阅读 · 2月8日

RealPDEBench: A Benchmark for Complex Physical Systems with Real-World Data

Arxiv

0+阅读 · 2月7日

Synthesizing Realistic Test Data without Breaking Privacy

Arxiv

0+阅读 · 2月5日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

VIP会员

文章信息

相关主题

最新内容

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

0+阅读 · 今天8:28

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

7+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

11+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

16+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

17+阅读 · 7月18日

相关VIP内容

数据质量维度的实践展开：一项综述

数据质量维度的实践展开：一项综述

专知会员服务

20+阅读 · 2025年7月28日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

专知会员服务

17+阅读 · 2025年1月12日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

专知会员服务

42+阅读 · 2023年10月29日

【斯坦福大学博士论文】面向现实应用的深度生成模型，222页pdf

【斯坦福大学博士论文】面向现实应用的深度生成模型，222页pdf

专知会员服务

45+阅读 · 2023年9月7日

面向机器学习模型安全的测试与修复

面向机器学习模型安全的测试与修复

专知会员服务

55+阅读 · 2023年2月5日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

32+阅读 · 2020年12月20日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

32+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

相关资讯

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

专知

32+阅读 · 2022年11月16日

置信学习：让样本中的"脏数据"原形毕露 ( 附开源实现 )

置信学习：让样本中的"脏数据"原形毕露 ( 附开源实现 )

DataFunTalk

12+阅读 · 2020年7月3日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

量子位

13+阅读 · 2019年7月16日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

如何做数据治理？

如何做数据治理？

智能交通技术

19+阅读 · 2019年4月20日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

AI前线

10+阅读 · 2018年11月2日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

相关论文

Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models

Arxiv

0+阅读 · 3月18日

Query-Guided Analysis and Mitigation of Data Verification Errors (Extended Version)

Arxiv

0+阅读 · 3月9日

High-Fidelity And Complex Test Data Generation For Google SQL Code Generation Services

Arxiv

0+阅读 · 2月25日

The Human Factor in Data Cleaning: Exploring Preferences and Biases

Arxiv

0+阅读 · 2月22日

Benchmarking AI Performance on End-to-End Data Science Projects

Arxiv

0+阅读 · 2月15日

From Bugs to Benchmarks: A Comprehensive Survey of Software Defect Datasets

Arxiv

0+阅读 · 2月10日

How well are open sourced AI-generated image detection models out-of-the-box: A comprehensive benchmark study

Arxiv

0+阅读 · 2月8日

RealPDEBench: A Benchmark for Complex Physical Systems with Real-World Data

Arxiv

0+阅读 · 2月7日

Synthesizing Realistic Test Data without Breaking Privacy

Arxiv

0+阅读 · 2月5日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

传感器故障下的数据驱动容错控制技术及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员