"Detective Work We Shouldn't Have to Do": Practitioner Challenges in Regulatory-Aligned Data Quality in Machine Learning Systems - 专知论文

会员服务 ·

0

数据质量 · 系统 · ML · 法律 · 结构 ·

"Detective Work We Shouldn't Have to Do": Practitioner Challenges in Regulatory-Aligned Data Quality in Machine Learning Systems

翻译："本不该由我们完成的侦探工作": 机器学习系统中符合监管要求的数据质量实践者挑战

Yichun Wang,Kristina Irion,Paul Groth,Hazar Harmouch

Ensuring data quality in machine learning (ML) systems has become increasingly complex as regulatory requirements expand. In the European Union (EU), frameworks such as the General Data Protection Regulation (GDPR) and the Artificial Intelligence Act (AI Act) articulate data quality requirements that closely parallel technical concerns in ML practice, while also extending to legal obligations related to accountability, risk management, and human rights protection. This paper presents a qualitative interview study with EU-based data practitioners working on ML systems in regulated contexts. Through semi-structured interviews, we investigate how practitioners interpret regulatory-aligned data quality, the challenges they encounter, and the supports they identify as necessary. Our findings reveal persistent gaps between legal principles and engineering workflows, fragmentation across data pipelines, limitations of existing tools, unclear responsibility boundaries between technical and legal teams, and a tendency toward reactive, audit-driven quality practices. We also identify practitioners' needs for compliance-aware tooling, clearer governance structures, and cultural shifts toward proactive data governance.

翻译：随着监管要求的扩展，确保机器学习(ML)系统中的数据质量变得日益复杂。在欧盟(EU)，《通用数据保护条例》(GDPR)和《人工智能法案》(AI Act)等框架明确了与ML实践技术关切高度契合的数据质量要求，同时延伸至涉及问责制、风险管理和人权保护的法律义务。本文通过对在受监管环境中从事ML系统工作的欧盟数据实践者进行定性访谈研究。通过半结构化访谈，我们探究了实践者如何理解符合监管要求的数据质量、他们遇到的挑战以及他们认为必要的支持措施。我们的研究揭示了法律原则与工程工作流程之间持续存在的鸿沟、数据管道各环节的碎片化、现有工具的局限性、技术团队与法律团队之间模糊的责任边界，以及倾向于被动、审计驱动的质量实践模式。我们还识别出实践者对合规感知工具、更清晰的治理结构以及向主动数据治理文化转变的需求。

0

相关内容

数据质量

数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系，高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量，企业在任何时候都可以信任满足所有需求的所有数据。

工程可信赖的机器学习运维——基于零知识证明

工程可信赖的机器学习运维——基于零知识证明

专知会员服务

9+阅读 · 2025年5月27日

机器学习运维MLOps实践、挑战及未解决的问题

机器学习运维MLOps实践、挑战及未解决的问题

专知会员服务

23+阅读 · 2024年6月22日

【斯坦福博士论文】资源受限环境中的学习和推理算法策略，339页pdf

【斯坦福博士论文】资源受限环境中的学习和推理算法策略，339页pdf

专知会员服务

31+阅读 · 2024年6月6日

《应对人工智能系统测试和评估新挑战的最佳实践》

《应对人工智能系统测试和评估新挑战的最佳实践》

专知会员服务

89+阅读 · 2023年8月7日

【斯坦福博士论文】不确定性和信息为机器学习提供决策支持

【斯坦福博士论文】不确定性和信息为机器学习提供决策支持

专知会员服务

100+阅读 · 2022年9月9日

【伯克利Daniel Hendrycks博士论文】机器学习安全性，172页pdf

【伯克利Daniel Hendrycks博士论文】机器学习安全性，172页pdf

专知会员服务

40+阅读 · 2022年5月18日

多伦多大学最新《机器学习导论》课程，Introduction to Machine Learning

多伦多大学最新《机器学习导论》课程，Introduction to Machine Learning

专知会员服务

25+阅读 · 2020年9月24日

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

专知会员服务

55+阅读 · 2020年3月8日

【AAAI Tutorials 2019】联合学习：机器学习中的用户隐私，数据安全性和机密性（Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning）

【AAAI Tutorials 2019】联合学习：机器学习中的用户隐私，数据安全性和机密性（Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning）

专知会员服务

15+阅读 · 2019年11月18日

【课程推荐】深度学习中的新兴挑战（Emerging Challenges in Deep Learning）

【课程推荐】深度学习中的新兴挑战（Emerging Challenges in Deep Learning）

专知会员服务

17+阅读 · 2019年11月10日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

【2022新书】机器学习与数据科学:基础与应用，272页pdf

【2022新书】机器学习与数据科学:基础与应用，272页pdf

专知

25+阅读 · 2022年8月3日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

【干货】Ian GoodFellow ICLR 2019演讲：对抗机器学习的进展与挑战

【干货】Ian GoodFellow ICLR 2019演讲：对抗机器学习的进展与挑战

GAN生成式对抗网络

18+阅读 · 2019年5月15日

Ian GoodFellow ICLR 2019演讲：对抗机器学习的进展与挑战（附视频、PPT下载）

Ian GoodFellow ICLR 2019演讲：对抗机器学习的进展与挑战（附视频、PPT下载）

专知

22+阅读 · 2019年5月15日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

机器学习笔试题精选

机器学习笔试题精选

人工智能头条

13+阅读 · 2018年7月22日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

腾讯：机器学习构建通用的数据异常检测平台

腾讯：机器学习构建通用的数据异常检测平台

全球人工智能

11+阅读 · 2018年5月1日

基于随机不可靠量测的事件触发多传感器系统融合估计方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于负调查的云数据隐私保护关键问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

Questionnaire Responses Do not Capture the Safety of AI Agents

Arxiv

0+阅读 · 3月15日

CACTUSDB: Unlock Co-Optimization Opportunities for SQL and AI/ML Inferences

Arxiv

0+阅读 · 2月26日

Stop Preaching and Start Practising Data Frugality for Responsible Development of AI

Arxiv

0+阅读 · 2月23日

"You Can Actually Do Something": Shifts in High School Computer Science Teachers' Conceptions of AI/ML Systems and Algorithmic Justice

Arxiv

0+阅读 · 2月21日

Overseeing Agents Without Constant Oversight: Challenges and Opportunities

Arxiv

0+阅读 · 2月18日

Machine Learning Practitioners' Views on Data Quality in Light of EU Regulatory Requirements: A European Online Survey

Arxiv

0+阅读 · 2月6日

Dependable Artificial Intelligence with Reliability and Security (DAIReS): A Unified Syndrome Decoding Approach for Hallucination and Backdoor Trigger Detection

Arxiv

0+阅读 · 2月6日

Quality Model for Machine Learning Components

Arxiv

0+阅读 · 2月4日

Applying a Requirements-Focused Agile Management Approach for Machine Learning-Enabled Systems

Arxiv

0+阅读 · 2月4日

Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

2+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

4+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

9+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

7+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

9+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

12+阅读 · 4月22日

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

8+阅读 · 4月22日

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

6+阅读 · 4月22日

相关VIP内容

工程可信赖的机器学习运维——基于零知识证明

工程可信赖的机器学习运维——基于零知识证明

专知会员服务

9+阅读 · 2025年5月27日

机器学习运维MLOps实践、挑战及未解决的问题

机器学习运维MLOps实践、挑战及未解决的问题

专知会员服务

23+阅读 · 2024年6月22日

【斯坦福博士论文】资源受限环境中的学习和推理算法策略，339页pdf

【斯坦福博士论文】资源受限环境中的学习和推理算法策略，339页pdf

专知会员服务

31+阅读 · 2024年6月6日

《应对人工智能系统测试和评估新挑战的最佳实践》

《应对人工智能系统测试和评估新挑战的最佳实践》

专知会员服务

89+阅读 · 2023年8月7日

【斯坦福博士论文】不确定性和信息为机器学习提供决策支持

【斯坦福博士论文】不确定性和信息为机器学习提供决策支持

专知会员服务

100+阅读 · 2022年9月9日

【伯克利Daniel Hendrycks博士论文】机器学习安全性，172页pdf

【伯克利Daniel Hendrycks博士论文】机器学习安全性，172页pdf

专知会员服务

40+阅读 · 2022年5月18日

多伦多大学最新《机器学习导论》课程，Introduction to Machine Learning

多伦多大学最新《机器学习导论》课程，Introduction to Machine Learning

专知会员服务

25+阅读 · 2020年9月24日

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

专知会员服务

55+阅读 · 2020年3月8日

【AAAI Tutorials 2019】联合学习：机器学习中的用户隐私，数据安全性和机密性（Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning）

【AAAI Tutorials 2019】联合学习：机器学习中的用户隐私，数据安全性和机密性（Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning）

专知会员服务

15+阅读 · 2019年11月18日

【课程推荐】深度学习中的新兴挑战（Emerging Challenges in Deep Learning）

【课程推荐】深度学习中的新兴挑战（Emerging Challenges in Deep Learning）

专知会员服务

17+阅读 · 2019年11月10日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能赋能无人机：俄乌战争（万字长文）

美军条令《海军陆战队规划流程（2026版）》

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

国外海军作战管理系统与作战训练系统

相关资讯

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

【2022新书】机器学习与数据科学:基础与应用，272页pdf

【2022新书】机器学习与数据科学:基础与应用，272页pdf

专知

25+阅读 · 2022年8月3日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

【干货】Ian GoodFellow ICLR 2019演讲：对抗机器学习的进展与挑战

【干货】Ian GoodFellow ICLR 2019演讲：对抗机器学习的进展与挑战

GAN生成式对抗网络

18+阅读 · 2019年5月15日

Ian GoodFellow ICLR 2019演讲：对抗机器学习的进展与挑战（附视频、PPT下载）

Ian GoodFellow ICLR 2019演讲：对抗机器学习的进展与挑战（附视频、PPT下载）

专知

22+阅读 · 2019年5月15日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

机器学习笔试题精选

机器学习笔试题精选

人工智能头条

13+阅读 · 2018年7月22日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

腾讯：机器学习构建通用的数据异常检测平台

腾讯：机器学习构建通用的数据异常检测平台

全球人工智能

11+阅读 · 2018年5月1日

相关论文

Questionnaire Responses Do not Capture the Safety of AI Agents

Arxiv

0+阅读 · 3月15日

CACTUSDB: Unlock Co-Optimization Opportunities for SQL and AI/ML Inferences

Arxiv

0+阅读 · 2月26日

Stop Preaching and Start Practising Data Frugality for Responsible Development of AI

Arxiv

0+阅读 · 2月23日

"You Can Actually Do Something": Shifts in High School Computer Science Teachers' Conceptions of AI/ML Systems and Algorithmic Justice

Arxiv

0+阅读 · 2月21日

Overseeing Agents Without Constant Oversight: Challenges and Opportunities

Arxiv

0+阅读 · 2月18日

Machine Learning Practitioners' Views on Data Quality in Light of EU Regulatory Requirements: A European Online Survey

Arxiv

0+阅读 · 2月6日

Dependable Artificial Intelligence with Reliability and Security (DAIReS): A Unified Syndrome Decoding Approach for Hallucination and Backdoor Trigger Detection

Arxiv

0+阅读 · 2月6日

Quality Model for Machine Learning Components

Arxiv

0+阅读 · 2月4日

Applying a Requirements-Focused Agile Management Approach for Machine Learning-Enabled Systems

Arxiv

0+阅读 · 2月4日

Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective

Arxiv

0+阅读 · 1月30日

相关基金

基于随机不可靠量测的事件触发多传感器系统融合估计方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于负调查的云数据隐私保护关键问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员