Fine-Grained Traceability for Transparent ML Pipelines - 专知论文

会员服务 ·

0

样本 · 细粒度 · 粒度 · 系统 · FG ·

Fine-Grained Traceability for Transparent ML Pipelines

翻译：细粒度可追溯性：实现透明机器学习流水线

Liping Chen,Mujie Liu,Haytham Fayek

from arxiv, Accepted at The Web Conference (WWW) 2026

Modern machine learning systems are increasingly realised as multistage pipelines, yet existing transparency mechanisms typically operate at a model level: they describe what a system is and why it behaves as it does, but not how individual data samples are operationally recorded, tracked, and verified as they traverse the pipeline. This absence of verifiable, sample-level traceability leaves practitioners and users unable to determine whether a specific sample was used, when it was processed, or whether the corresponding records remain intact over time. We introduce FG-Trac, a model-agnostic framework that establishes verifiable, fine-grained sample-level traceability throughout machine learning pipelines. FG-Trac defines an explicit mechanism for capturing and verifying sample lifecycle events across preprocessing and training, computes contribution scores explicitly grounded in training checkpoints, and anchors these traces to tamper-evident cryptographic commitments. The framework integrates without modifying model architectures or training objectives, reconstructing complete and auditable data-usage histories with practical computational overhead. Experiments on a canonical convolutional neural network and a multimodal graph learning pipeline demonstrate that FG-Trac preserves predictive performance while enabling machine learning systems to furnish verifiable evidence of how individual samples were used and propagated during model execution.

翻译：现代机器学习系统日益以多阶段流水线形式实现，然而现有的透明性机制通常仅在模型层面运作：它们描述系统是什么及其行为原因，但未记录数据样本在流水线中如何被操作性地记录、追踪和验证。这种可验证的样本级可追溯性的缺失，使得从业者和用户无法确定特定样本是否被使用、何时被处理，或相应记录是否随时间保持完整。我们提出FG-Trac——一个与模型无关的框架，可在整个机器学习流水线中建立可验证的细粒度样本级可追溯性。FG-Trac定义了明确的机制来捕获和验证跨预处理与训练阶段的样本生命周期事件，基于训练检查点显式计算贡献分数，并将这些追溯记录锚定至防篡改的密码学承诺。该框架无需修改模型架构或训练目标即可集成，能以实际计算开销重建完整且可审计的数据使用历史。在经典卷积神经网络和多模态图学习流水线上的实验表明，FG-Trac在保持预测性能的同时，使机器学习系统能够提供关于单个样本在模型执行过程中如何被使用和传播的可验证证据。

0

相关内容

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

22+阅读 · 2025年6月19日

工程可信赖的机器学习运维——基于零知识证明

工程可信赖的机器学习运维——基于零知识证明

专知会员服务

9+阅读 · 2025年5月27日

可信机器学习综述

可信机器学习综述

专知会员服务

48+阅读 · 2024年7月15日

【剑桥大学博士论文】值得信赖的机器学习：从算法透明性到决策支持

【剑桥大学博士论文】值得信赖的机器学习：从算法透明性到决策支持

专知会员服务

38+阅读 · 2024年5月24日

【华盛顿大学博士论文】透明机器学习：理论与计算，521页pdf

【华盛顿大学博士论文】透明机器学习：理论与计算，521页pdf

专知会员服务

79+阅读 · 2023年10月23日

黑盒模型如何透明化？MIT博士论文《黑盒模型的可解释性和透明性技术》，207页pdf阐述可信赖机器学习路径

黑盒模型如何透明化？MIT博士论文《黑盒模型的可解释性和透明性技术》，207页pdf阐述可信赖机器学习路径

专知会员服务

63+阅读 · 2023年4月29日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

【ICML2022教程】效度，可靠性和意义:可复现机器学习的统计方法教程，147页ppt

【ICML2022教程】效度，可靠性和意义:可复现机器学习的统计方法教程，147页ppt

专知会员服务

16+阅读 · 2022年7月20日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

机器学习的可解释性

机器学习的可解释性

专知会员服务

69+阅读 · 2020年12月18日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

量子位

13+阅读 · 2019年7月16日

TensorFlow产品级端到端机器学习平台TFX，图形界面可视化流水线

TensorFlow产品级端到端机器学习平台TFX，图形界面可视化流水线

专知

21+阅读 · 2019年4月19日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

在线检测工件表面质量的“透明窗”方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees

Arxiv

0+阅读 · 2月18日

Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Reanalysis

Arxiv

0+阅读 · 2月17日

Beyond Static Pipelines: Learning Dynamic Workflows for Text-to-SQL

Arxiv

0+阅读 · 2月17日

Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision

Arxiv

0+阅读 · 2月11日

Automated Modernization of Machine Learning Engineering Notebooks for Reproducibility

Arxiv

0+阅读 · 2月6日

Quality Model for Machine Learning Components

Arxiv

0+阅读 · 2月4日

Pipeline Inspection, Visualization, and Interoperability in PyTerrier

Arxiv

0+阅读 · 1月30日

AgentScore: Autoformulation of Deployable Clinical Scoring Systems

Arxiv

0+阅读 · 1月29日

Explainable AI to Improve Machine Learning Reliability for Industrial Cyber-Physical Systems

Arxiv

0+阅读 · 1月22日

PAC Learnability in the Presence of Performativity

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

6+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

7+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

4+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

8+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

4+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

4+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

22+阅读 · 2025年6月19日

工程可信赖的机器学习运维——基于零知识证明

工程可信赖的机器学习运维——基于零知识证明

专知会员服务

9+阅读 · 2025年5月27日

可信机器学习综述

可信机器学习综述

专知会员服务

48+阅读 · 2024年7月15日

【剑桥大学博士论文】值得信赖的机器学习：从算法透明性到决策支持

【剑桥大学博士论文】值得信赖的机器学习：从算法透明性到决策支持

专知会员服务

38+阅读 · 2024年5月24日

【华盛顿大学博士论文】透明机器学习：理论与计算，521页pdf

【华盛顿大学博士论文】透明机器学习：理论与计算，521页pdf

专知会员服务

79+阅读 · 2023年10月23日

黑盒模型如何透明化？MIT博士论文《黑盒模型的可解释性和透明性技术》，207页pdf阐述可信赖机器学习路径

黑盒模型如何透明化？MIT博士论文《黑盒模型的可解释性和透明性技术》，207页pdf阐述可信赖机器学习路径

专知会员服务

63+阅读 · 2023年4月29日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

【ICML2022教程】效度，可靠性和意义:可复现机器学习的统计方法教程，147页ppt

【ICML2022教程】效度，可靠性和意义:可复现机器学习的统计方法教程，147页ppt

专知会员服务

16+阅读 · 2022年7月20日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

机器学习的可解释性

机器学习的可解释性

专知会员服务

69+阅读 · 2020年12月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

量子位

13+阅读 · 2019年7月16日

TensorFlow产品级端到端机器学习平台TFX，图形界面可视化流水线

TensorFlow产品级端到端机器学习平台TFX，图形界面可视化流水线

专知

21+阅读 · 2019年4月19日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

相关论文

Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees

Arxiv

0+阅读 · 2月18日

Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Reanalysis

Arxiv

0+阅读 · 2月17日

Beyond Static Pipelines: Learning Dynamic Workflows for Text-to-SQL

Arxiv

0+阅读 · 2月17日

Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision

Arxiv

0+阅读 · 2月11日

Automated Modernization of Machine Learning Engineering Notebooks for Reproducibility

Arxiv

0+阅读 · 2月6日

Quality Model for Machine Learning Components

Arxiv

0+阅读 · 2月4日

Pipeline Inspection, Visualization, and Interoperability in PyTerrier

Arxiv

0+阅读 · 1月30日

AgentScore: Autoformulation of Deployable Clinical Scoring Systems

Arxiv

0+阅读 · 1月29日

Explainable AI to Improve Machine Learning Reliability for Industrial Cyber-Physical Systems

Arxiv

0+阅读 · 1月22日

PAC Learnability in the Presence of Performativity

Arxiv

0+阅读 · 1月19日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

在线检测工件表面质量的“透明窗”方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员