Federated Learning (FL) enables collaborative training of Large Language Models (LLMs) across distributed data sources while preserving privacy. However, when federated LLMs are deployed in critical applications, it remains unclear which client(s) contributed to specific generated responses, hindering debugging, malicious client identification, fair reward allocation, and trust verification. We present ProToken, a novel Provenance methodology for Token-level attribution in federated LLMs that addresses client attribution during autoregressive text generation while maintaining FL privacy constraints. ProToken leverages two key insights to enable provenance at each token: (1) transformer architectures concentrate task-specific signals in later blocks, enabling strategic layer selection for computational tractability, and (2) gradient-based relevance weighting filters out irrelevant neural activations, focusing attribution on neurons that directly influence token generation. We evaluate ProToken across 16 configurations spanning four LLM architectures (Gemma, Llama, Qwen, SmolLM) and four domains (medical, financial, mathematical, coding). ProToken achieves 98% average attribution accuracy in correctly localizing responsible client(s), and maintains high accuracy when the number of clients are scaled, validating its practical viability for real-world deployment settings.


翻译:联邦学习(FL)能够实现在分布式数据源上协同训练大语言模型(LLM),同时保护数据隐私。然而,当联邦大语言模型部署于关键应用时,特定生成响应究竟由哪个(或哪些)客户端贡献仍不明确,这阻碍了模型调试、恶意客户端识别、公平奖励分配以及信任验证。本文提出ProToken,一种面向联邦大语言模型词元级贡献溯源的全新来源追溯方法,能够在保持联邦学习隐私约束的同时,解决自回归文本生成过程中的客户端贡献归属问题。ProToken利用两个关键洞见来实现每个词元的来源追溯:(1)Transformer架构将任务特定信号集中于深层模块,这使得通过策略性选择特定层进行计算成为可能;(2)基于梯度的相关性加权能够过滤不相关的神经激活,将贡献归属聚焦于直接影响词元生成的神经元。我们在涵盖四种大语言模型架构(Gemma、Llama、Qwen、SmolLM)与四个领域(医疗、金融、数学、代码)的16种配置下评估ProToken。实验表明,ProToken在准确定位责任客户端方面达到了98%的平均贡献归属准确率,并且在客户端数量增加时仍能保持高准确率,验证了其在实际部署场景中的可行性。

0
下载
关闭预览

相关内容

赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
【博士论文】朝向大规模语言模型的原则性训练与服务
专知会员服务
10+阅读 · 2025年2月10日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
【资源】联邦学习相关文献资源大列表
专知
10+阅读 · 2020年2月25日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员