Data Provenance Auditing of Fine-Tuned Large Language Models with a Text-Preserving Technique - 专知论文

会员服务 ·

0

微调 · 语言模型 · 数据溯源 · 大语言模型 · 系统 ·

Data Provenance Auditing of Fine-Tuned Large Language Models with a Text-Preserving Technique

翻译：微调大型语言模型的数据溯源审计：一种文本保持技术

Yanming Li,Cédric Eichler,Nicolas Anciaux,Alexandra Bensamoun,Lorena Gonzalez Manzano,Seifeddine Ghozzi

We propose a system for marking sensitive or copyrighted texts to detect their use in fine-tuning large language models under black-box access with statistical guarantees. Our method builds digital ``marks'' using invisible Unicode characters organized into (``cue'', ``reply'') pairs. During an audit, prompts containing only ``cue'' fragments are issued to trigger regurgitation of the corresponding ``reply'', indicating document usage. To control false positives, we compare against held-out counterfactual marks and apply a ranking test, yielding a verifiable bound on the false positive rate. The approach is minimally invasive, scalable across many sources, robust to standard processing pipelines, and achieves high detection power even when marked data is a small fraction of the fine-tuning corpus.

翻译：我们提出一种系统，用于标记敏感或受版权保护的文本，以在具有统计保证的黑盒访问条件下检测其在微调大型语言模型中的使用。我们的方法利用不可见Unicode字符构建数字“标记”，这些字符被组织成（“提示”，“回应”）对。在审计过程中，仅包含“提示”片段的提示词被输入模型，以触发模型输出相应的“回应”，从而表明文档被使用。为控制误报率，我们与预留的反事实标记进行对比，并应用排序检验，从而得出可验证的误报率边界。该方法侵入性极低，可跨多源扩展，对标准处理流程具有鲁棒性，即使在标记数据仅占微调语料库极小比例时仍能实现高检测效力。

0

相关内容

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

49+阅读 · 2024年7月9日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

75+阅读 · 2024年4月2日

电力系统的大语言模型微调数据准备规范

电力系统的大语言模型微调数据准备规范

专知会员服务

70+阅读 · 2024年1月11日

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

专知会员服务

94+阅读 · 2023年8月16日

【AAAI2022】上下文感知的词语替换与文本溯源

【AAAI2022】上下文感知的词语替换与文本溯源

专知会员服务

18+阅读 · 2022年1月23日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

开源OCR文本检测器，基于TextBoxes++和RetinaNet

开源OCR文本检测器，基于TextBoxes++和RetinaNet

专知

11+阅读 · 2019年11月15日

【翻译技术速递】测评：免费的术语抽取工具

【翻译技术速递】测评：免费的术语抽取工具

翻译技术沙龙

139+阅读 · 2019年11月2日

论文盘点：CVPR 2019 - 文本检测专题

论文盘点：CVPR 2019 - 文本检测专题

PaperWeekly

14+阅读 · 2019年5月31日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

技术干货 | 如何做好文本关键词提取？从三种算法说起

技术干货 | 如何做好文本关键词提取？从三种算法说起

数据猿

12+阅读 · 2018年2月12日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

微信OCR(1)——公众号图文识别中的文本检测

微信OCR(1)——公众号图文识别中的文本检测

微信AI

17+阅读 · 2017年11月22日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

全球人工智能

21+阅读 · 2017年10月27日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于密集快速特征提取的可视媒体篡改检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

Arxiv

0+阅读 · 3月9日

From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

Arxiv

0+阅读 · 3月6日

IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation

Arxiv

0+阅读 · 2月26日

FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information

Arxiv

0+阅读 · 2月19日

Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs

Arxiv

0+阅读 · 2月18日

A Human-Centric Framework for Data Attribution in Large Language Models

Arxiv

0+阅读 · 2月11日

Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs

Arxiv

0+阅读 · 2月9日

LEANCODE: Understanding Models Better for Code Simplification of Pre-trained Large Language Models

Arxiv

0+阅读 · 2月5日

Revisiting Prompt Sensitivity in Large Language Models for Text Classification: The Role of Prompt Underspecification

Arxiv

0+阅读 · 2月4日

Hide and Seek in Embedding Space: Geometry-based Steganography and Detection in Large Language Models

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

49+阅读 · 2024年7月9日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

75+阅读 · 2024年4月2日

电力系统的大语言模型微调数据准备规范

电力系统的大语言模型微调数据准备规范

专知会员服务

70+阅读 · 2024年1月11日

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

专知会员服务

94+阅读 · 2023年8月16日

【AAAI2022】上下文感知的词语替换与文本溯源

【AAAI2022】上下文感知的词语替换与文本溯源

专知会员服务

18+阅读 · 2022年1月23日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

开源OCR文本检测器，基于TextBoxes++和RetinaNet

开源OCR文本检测器，基于TextBoxes++和RetinaNet

专知

11+阅读 · 2019年11月15日

【翻译技术速递】测评：免费的术语抽取工具

【翻译技术速递】测评：免费的术语抽取工具

翻译技术沙龙

139+阅读 · 2019年11月2日

论文盘点：CVPR 2019 - 文本检测专题

论文盘点：CVPR 2019 - 文本检测专题

PaperWeekly

14+阅读 · 2019年5月31日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

技术干货 | 如何做好文本关键词提取？从三种算法说起

技术干货 | 如何做好文本关键词提取？从三种算法说起

数据猿

12+阅读 · 2018年2月12日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

微信OCR(1)——公众号图文识别中的文本检测

微信OCR(1)——公众号图文识别中的文本检测

微信AI

17+阅读 · 2017年11月22日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

全球人工智能

21+阅读 · 2017年10月27日

相关论文

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

Arxiv

0+阅读 · 3月9日

From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

Arxiv

0+阅读 · 3月6日

IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation

Arxiv

0+阅读 · 2月26日

FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information

Arxiv

0+阅读 · 2月19日

Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs

Arxiv

0+阅读 · 2月18日

A Human-Centric Framework for Data Attribution in Large Language Models

Arxiv

0+阅读 · 2月11日

Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs

Arxiv

0+阅读 · 2月9日

LEANCODE: Understanding Models Better for Code Simplification of Pre-trained Large Language Models

Arxiv

0+阅读 · 2月5日

Revisiting Prompt Sensitivity in Large Language Models for Text Classification: The Role of Prompt Underspecification

Arxiv

0+阅读 · 2月4日

Hide and Seek in Embedding Space: Geometry-based Steganography and Detection in Large Language Models

Arxiv

0+阅读 · 1月30日

相关基金

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于密集快速特征提取的可视媒体篡改检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员