Instruction tuning increasingly relies on LLM-based prompt refinement, where prompts in the training corpus are selectively rewritten by an external refiner to improve clarity and instruction alignment. This motivates an instance-level audit problem: for a fine-tuned model and a training prompt-response pair, can we infer whether the model was trained on the original prompt or its LLM-refined version within a mixed corpus? This matters for dataset governance and dispute resolution when training data are contested. However, it is non-trivial in practice: refined and raw instances are interleaved in the training corpus with unknown, source-dependent mixture ratios, making it harder to develop provenance methods that generalize across models and training setups. In this paper, we formalize this audit task as Refinement Provenance Inference (RPI) and show that prompt refinement yields stable, detectable shifts in teacher-forced token distributions, even when semantic differences are not obvious. Building on this phenomenon, we propose RePro, a logit-based provenance framework that fuses teacher-forced likelihood features with logit-ranking signals. During training, RePro learns a transferable representation via shadow fine-tuning, and uses a lightweight linear head to infer provenance on unseen victims without training-data access. Empirically, RePro consistently attains strong performance and transfers well across refiners, suggesting that it exploits refiner-agnostic distribution shifts rather than rewrite-style artifacts.


翻译:指令微调日益依赖于基于LLM的提示精炼技术,即通过外部精炼模型对训练语料中的提示进行选择性重写,以提升其清晰度与指令对齐性。这催生了一个实例级审计问题:对于经过微调的模型及其训练提示-响应对,我们能否推断该模型在混合语料训练时使用的是原始提示还是其经LLM精炼的版本?这在训练数据存在争议时对数据集治理与争端解决具有重要意义。然而,该问题在实践中具有挑战性:精炼实例与原始实例以未知且依赖数据源的比例交织于训练语料中,导致难以开发可跨模型与训练设置泛化的溯源方法。本文将该审计任务形式化为精炼溯源推断(RPI),并证明提示精炼会导致教师强制标记分布产生稳定且可检测的偏移,即使语义差异并不显著。基于此现象,我们提出RePro——一种基于对数概率的溯源框架,融合教师强制似然特征与对数概率排序信号。在训练阶段,RePro通过影子微调学习可迁移的表征,并利用轻量级线性头部在无需访问训练数据的情况下对未见过的被审计模型进行溯源推断。实验表明,RePro始终取得优异性能,并能良好地跨精炼模型迁移,这暗示其利用了与精炼模型无关的分布偏移特征,而非重写风格的表层痕迹。

0
下载
关闭预览

相关内容

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员