Data (in)equities in data science: Dissecting systemic and systematic biases in pulse oximetry - 专知论文

会员服务 ·

0

Data (in)equities in data science: Dissecting systemic and systematic biases in pulse oximetry

翻译：数据科学中的（不）公平性：剖析脉搏血氧测定中的系统性与结构性偏差

Lillian Rountree,Harsh Parikh,Bhramar Mukherjee

Data equity is an emerging framework for responsible data science. However, its core concepts, including fairness, representativeness, and information bias, remain largely abstract and general, lacking the mathematical specificity needed for practical implementation. In this paper, we demonstrate how statisticians can operationalize data equity by translating its tenets into precise, testable formulations tailored to a given problem. Using the well-documented case of differential measurement error across racial groups in pulse oximetry, we first adopt an oracle approach, tracing how a single upstream violation of information bias compounds through the analytic pipeline into treatment disparities, fairness violations, and adverse health outcomes. We then demonstrate the inverse: starting from an observed outcome disparity, the data equity framework provides a principled structure for systematically identifying its statistical sources. Our exposition reveals that data equity, prediction equity, and decision equity are distinct requirements with distinct evaluation and policy needs--a nuance that highlights both the unique role of statisticians in the era of artificial intelligence as well as the necessity of interdisciplinary collaboration.

翻译：数据公平性是负责任数据科学的新兴框架。然而，其核心概念，包括公平性、代表性和信息偏差，在很大程度上仍停留在抽象和一般层面，缺乏实践所需的具体数学形式。本文展示了统计学家如何通过将数据公平性原则转化为针对特定问题的、精确且可检验的数学公式来实现其可操作性。以脉搏血氧测定中跨种族群体差异化测量误差这一充分记录的案例为基础，我们首先采用先验方法，追溯上游单一的信息偏差违反如何通过分析流程复合为治疗差异、公平性违反及不良健康结果。随后，我们演示逆向过程：从观察到的结果差异出发，数据公平性框架为系统性识别其统计来源提供了原则性结构。我们的论述表明，数据公平性、预测公平性与决策公平性是具有不同评估与政策需求的不同要求——这一细微差别既凸显了统计学家在人工智能时代的独特作用，也强调了跨学科合作的必要性。

0

相关内容

【新书】数据科学中的因果推断，638页pdf

【新书】数据科学中的因果推断，638页pdf

专知会员服务

80+阅读 · 2025年2月19日

不平衡数据学习的全面综述

不平衡数据学习的全面综述

专知会员服务

44+阅读 · 2025年2月15日

数据科学平台:特征、技术及趋势

数据科学平台:特征、技术及趋势

专知会员服务

46+阅读 · 2022年4月17日

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

专知会员服务

33+阅读 · 2022年3月10日

概率如何理解？普渡大学CHAN教授新书《数据科学概率导论》图文并茂带你学习概率，附709页pdf与课件

概率如何理解？普渡大学CHAN教授新书《数据科学概率导论》图文并茂带你学习概率，附709页pdf与课件

专知会员服务

108+阅读 · 2021年9月8日

可信机器学习的公平性综述

可信机器学习的公平性综述

专知会员服务

69+阅读 · 2021年2月23日

最新《从观察数据发现因果性》，150页ppt

专知会员服务

66+阅读 · 2021年1月6日

【UC伯克利郁彬教授PNAS最新论文】真实数据科学，Veridical data science

【UC伯克利郁彬教授PNAS最新论文】真实数据科学，Veridical data science

专知会员服务

49+阅读 · 2020年2月21日

【论文推荐】数据科学中有关矩阵方法的文献综述：A LITERATURE SURVEY OF MATRIX METHODS FOR DATASCIENCE

【论文推荐】数据科学中有关矩阵方法的文献综述：A LITERATURE SURVEY OF MATRIX METHODS FOR DATASCIENCE

专知会员服务

25+阅读 · 2019年12月19日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

【硬核书】数据科学，282页pdf

【硬核书】数据科学，282页pdf

专知

26+阅读 · 2022年11月29日

【2022新书】数据科学基础数学，517页pdf带你用基本线性代数，概率和统计来掌握你的数据

【2022新书】数据科学基础数学，517页pdf带你用基本线性代数，概率和统计来掌握你的数据

专知

22+阅读 · 2022年6月12日

【干货书】数据科学手册，456页pdf

【干货书】数据科学手册，456页pdf

专知

15+阅读 · 2021年4月28日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

《机器学习与公平性》新书发布，附127页PDF下载

《机器学习与公平性》新书发布，附127页PDF下载

专知

25+阅读 · 2019年9月13日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

【UC伯克利郁彬老师最新论文】数据科学的三原则：可预测性、可计算、稳定性

【UC伯克利郁彬老师最新论文】数据科学的三原则：可预测性、可计算、稳定性

专知

12+阅读 · 2019年1月25日

统计学常用数据类型

统计学常用数据类型

论智

19+阅读 · 2018年7月6日

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

哈工大SCIR

14+阅读 · 2018年6月28日

数据驱动的航空运输系统多层结构及韧性研究

国家自然科学基金

3+阅读 · 2017年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

关于面板(纵向）数据的动态统计分析

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

A Systems Thinking Approach to Algorithmic Fairness

Arxiv

0+阅读 · 4月23日

Fair Data Pre-Processing with Imperfect Attribute Space

Arxiv

0+阅读 · 3月27日

CausalPre: Scalable and Effective Data Pre-Processing for Causal Fairness

Arxiv

0+阅读 · 3月26日

The Human Factor in Data Cleaning: Exploring Preferences and Biases

Arxiv

0+阅读 · 3月25日

Does Privacy Always Harm Fairness? Data-Dependent Trade-offs via Chernoff Information Neural Estimation

Arxiv

0+阅读 · 3月24日

Nonlinear Information Theory: Characterizing Distributional Uncertainty in Communication Models with Sublinear Expectation

Arxiv

0+阅读 · 3月17日

Measuring Perceptions of Fairness in AI Systems: The Effects of Infra-marginality

Arxiv

0+阅读 · 3月6日

On Demographic Group Fairness Guarantees in Deep Learning

Arxiv

0+阅读 · 2月28日

Fair Division Under Inaccurate Preferences

Arxiv

0+阅读 · 2月27日

The influence of missing data mechanisms and simple missing data handling techniques on fairness

Arxiv

0+阅读 · 2月19日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

3+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

3+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

【新书】数据科学中的因果推断，638页pdf

【新书】数据科学中的因果推断，638页pdf

专知会员服务

80+阅读 · 2025年2月19日

不平衡数据学习的全面综述

不平衡数据学习的全面综述

专知会员服务

44+阅读 · 2025年2月15日

数据科学平台:特征、技术及趋势

数据科学平台:特征、技术及趋势

专知会员服务

46+阅读 · 2022年4月17日

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

专知会员服务

33+阅读 · 2022年3月10日

概率如何理解？普渡大学CHAN教授新书《数据科学概率导论》图文并茂带你学习概率，附709页pdf与课件

概率如何理解？普渡大学CHAN教授新书《数据科学概率导论》图文并茂带你学习概率，附709页pdf与课件

专知会员服务

108+阅读 · 2021年9月8日

可信机器学习的公平性综述

可信机器学习的公平性综述

专知会员服务

69+阅读 · 2021年2月23日

最新《从观察数据发现因果性》，150页ppt

专知会员服务

66+阅读 · 2021年1月6日

【UC伯克利郁彬教授PNAS最新论文】真实数据科学，Veridical data science

【UC伯克利郁彬教授PNAS最新论文】真实数据科学，Veridical data science

专知会员服务

49+阅读 · 2020年2月21日

【论文推荐】数据科学中有关矩阵方法的文献综述：A LITERATURE SURVEY OF MATRIX METHODS FOR DATASCIENCE

【论文推荐】数据科学中有关矩阵方法的文献综述：A LITERATURE SURVEY OF MATRIX METHODS FOR DATASCIENCE

专知会员服务

25+阅读 · 2019年12月19日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【硬核书】数据科学，282页pdf

【硬核书】数据科学，282页pdf

专知

26+阅读 · 2022年11月29日

【2022新书】数据科学基础数学，517页pdf带你用基本线性代数，概率和统计来掌握你的数据

【2022新书】数据科学基础数学，517页pdf带你用基本线性代数，概率和统计来掌握你的数据

专知

22+阅读 · 2022年6月12日

【干货书】数据科学手册，456页pdf

【干货书】数据科学手册，456页pdf

专知

15+阅读 · 2021年4月28日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

《机器学习与公平性》新书发布，附127页PDF下载

《机器学习与公平性》新书发布，附127页PDF下载

专知

25+阅读 · 2019年9月13日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

【UC伯克利郁彬老师最新论文】数据科学的三原则：可预测性、可计算、稳定性

【UC伯克利郁彬老师最新论文】数据科学的三原则：可预测性、可计算、稳定性

专知

12+阅读 · 2019年1月25日

统计学常用数据类型

统计学常用数据类型

论智

19+阅读 · 2018年7月6日

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

哈工大SCIR

14+阅读 · 2018年6月28日

相关论文

A Systems Thinking Approach to Algorithmic Fairness

Arxiv

0+阅读 · 4月23日

Fair Data Pre-Processing with Imperfect Attribute Space

Arxiv

0+阅读 · 3月27日

CausalPre: Scalable and Effective Data Pre-Processing for Causal Fairness

Arxiv

0+阅读 · 3月26日

The Human Factor in Data Cleaning: Exploring Preferences and Biases

Arxiv

0+阅读 · 3月25日

Does Privacy Always Harm Fairness? Data-Dependent Trade-offs via Chernoff Information Neural Estimation

Arxiv

0+阅读 · 3月24日

Nonlinear Information Theory: Characterizing Distributional Uncertainty in Communication Models with Sublinear Expectation

Arxiv

0+阅读 · 3月17日

Measuring Perceptions of Fairness in AI Systems: The Effects of Infra-marginality

Arxiv

0+阅读 · 3月6日

On Demographic Group Fairness Guarantees in Deep Learning

Arxiv

0+阅读 · 2月28日

Fair Division Under Inaccurate Preferences

Arxiv

0+阅读 · 2月27日

The influence of missing data mechanisms and simple missing data handling techniques on fairness

Arxiv

0+阅读 · 2月19日

相关基金

数据驱动的航空运输系统多层结构及韧性研究

国家自然科学基金

3+阅读 · 2017年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

关于面板(纵向）数据的动态统计分析

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员