Watermarking has emerged as an effective solution for copyright protection of synthetic data. However, applying watermarking techniques to synthetic tabular data presents challenges, as tabular data can easily lose their watermarks through shuffling or deletion operations. The major challenge is to provide traceability for tracking multiple users of the watermarked tabular data while maintaining high data utility and robustness (resistance to attacks). To address this, we design a multi-bit watermarking scheme TableMark that encodes watermarks into synthetic tabular data, ensuring superior traceability and robustness while maintaining high utility. We formulate the watermark encoding process as a constrained optimization problem, allowing the data owner to effectively trade off robustness and utility. Additionally, we propose effective optimization mechanisms to solve this problem to enhance the data utility. Experimental results on four widely used real-world datasets show that TableMark effectively traces a large number of users, is resilient to attacks, and preserves high utility. Moreover, TableMark significantly outperforms state-of-the-art tabular watermarking schemes.


翻译:水印技术已成为保护合成数据版权的有效解决方案。然而,将水印技术应用于合成表格数据面临挑战,因为表格数据极易通过重排或删除操作丢失水印。主要难题在于如何在保持高数据效用和鲁棒性(抗攻击能力)的同时,为追踪水印表格数据的多用户提供溯源能力。为此,我们设计了一种多比特水印方案TableMark,将水印编码至合成表格数据中,在维持高效用的同时确保卓越的溯源能力与鲁棒性。我们将水印编码过程建模为约束优化问题,使数据所有者能够有效权衡鲁棒性与效用。此外,我们提出了高效的优化机制来解决该问题以提升数据效用。在四个广泛使用的真实数据集上的实验结果表明,TableMark能有效追踪大量用户,具备抗攻击能力,并保持高数据效用。此外,TableMark显著优于当前最先进的表格水印方案。

0
下载
关闭预览

相关内容

面向 AI 生成图像的安全与鲁棒水印:全面综述
专知会员服务
14+阅读 · 2025年10月6日
扩散模型时代的可视水印:进展与挑战
专知会员服务
7+阅读 · 2025年5月17日
【NeurIPS2024】TableRAG:基于语言模型的百万标记表格理解
专知会员服务
38+阅读 · 2024年10月8日
【MIT博士论文】合成数据的视觉表示学习
专知会员服务
27+阅读 · 2024年8月25日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
39+阅读 · 2024年8月23日
大模型时代下的文本水印综述
专知会员服务
35+阅读 · 2024年1月26日
表格识别技术研究进展
专知会员服务
38+阅读 · 2022年7月4日
专知会员服务
28+阅读 · 2021年7月16日
领域应用 | 到底什么时候使用图数据库?
开放知识图谱
16+阅读 · 2019年4月19日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
不要担心没数据!史上最全数据集网站汇总
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月23日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
8+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
15+阅读 · 5月1日
《美海军软件测试战略》90页slides
专知会员服务
11+阅读 · 5月1日
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
11+阅读 · 4月30日
相关VIP内容
面向 AI 生成图像的安全与鲁棒水印:全面综述
专知会员服务
14+阅读 · 2025年10月6日
扩散模型时代的可视水印:进展与挑战
专知会员服务
7+阅读 · 2025年5月17日
【NeurIPS2024】TableRAG:基于语言模型的百万标记表格理解
专知会员服务
38+阅读 · 2024年10月8日
【MIT博士论文】合成数据的视觉表示学习
专知会员服务
27+阅读 · 2024年8月25日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
39+阅读 · 2024年8月23日
大模型时代下的文本水印综述
专知会员服务
35+阅读 · 2024年1月26日
表格识别技术研究进展
专知会员服务
38+阅读 · 2022年7月4日
专知会员服务
28+阅读 · 2021年7月16日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员