Ensuring data quality in machine learning (ML) systems has become increasingly complex as regulatory requirements expand. In the European Union (EU), frameworks such as the General Data Protection Regulation (GDPR) and the Artificial Intelligence Act (AI Act) articulate data quality requirements that closely parallel technical concerns in ML practice, while also extending to legal obligations related to accountability, risk management, and human rights protection. This paper presents a qualitative interview study with EU-based data practitioners working on ML systems in regulated contexts. Through semi-structured interviews, we investigate how practitioners interpret regulatory-aligned data quality, the challenges they encounter, and the supports they identify as necessary. Our findings reveal persistent gaps between legal principles and engineering workflows, fragmentation across data pipelines, limitations of existing tools, unclear responsibility boundaries between technical and legal teams, and a tendency toward reactive, audit-driven quality practices. We also identify practitioners' needs for compliance-aware tooling, clearer governance structures, and cultural shifts toward proactive data governance.


翻译:随着监管要求的扩展,确保机器学习(ML)系统中的数据质量变得日益复杂。在欧盟(EU),《通用数据保护条例》(GDPR)和《人工智能法案》(AI Act)等框架明确了与ML实践技术关切高度契合的数据质量要求,同时延伸至涉及问责制、风险管理和人权保护的法律义务。本文通过对在受监管环境中从事ML系统工作的欧盟数据实践者进行定性访谈研究。通过半结构化访谈,我们探究了实践者如何理解符合监管要求的数据质量、他们遇到的挑战以及他们认为必要的支持措施。我们的研究揭示了法律原则与工程工作流程之间持续存在的鸿沟、数据管道各环节的碎片化、现有工具的局限性、技术团队与法律团队之间模糊的责任边界,以及倾向于被动、审计驱动的质量实践模式。我们还识别出实践者对合规感知工具、更清晰的治理结构以及向主动数据治理文化转变的需求。

0
下载
关闭预览

相关内容

数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
工程可信赖的机器学习运维——基于零知识证明
专知会员服务
9+阅读 · 2025年5月27日
机器学习运维MLOps实践、挑战及未解决的问题
专知会员服务
23+阅读 · 2024年6月22日
《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
87+阅读 · 2023年8月7日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
【干货】Ian GoodFellow ICLR 2019演讲:对抗机器学习的进展与挑战
GAN生成式对抗网络
18+阅读 · 2019年5月15日
机器学习笔试题精选
人工智能头条
13+阅读 · 2018年7月22日
腾讯:机器学习构建通用的数据异常检测平台
全球人工智能
11+阅读 · 2018年5月1日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
工程可信赖的机器学习运维——基于零知识证明
专知会员服务
9+阅读 · 2025年5月27日
机器学习运维MLOps实践、挑战及未解决的问题
专知会员服务
23+阅读 · 2024年6月22日
《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
87+阅读 · 2023年8月7日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员