Prediction tasks over individual futures, which are inherently noisy, often admit multiple similarly accurate models. When these models produce different predictions for the same individual, they raise concerns of arbitrariness in decision-making. How severe can this arbitrariness be, in theory and in practice? How can it be resolved to support high-stakes risk assessment? We address these questions through a study of a machine learning-based decision support system for recidivism risk assessment that has been in use for over 15 years. By translating complex legal rules into an algorithm for labeling post release outcomes (recidivist or non-recidivist), we first construct a dataset of thousands of inmate releases. Using this dataset, we learn interpretable models that improve predictive performance, reduce error-rate disparities between groups, and ensure that rehabilitative progress lowers risk scores. Next, we study predictive multiplicity, by first deriving a tight lower bound on the expected predictive agreement of any finite set of models over a dataset, and then by evaluating the extent to which structural diversity (e.g., different model coefficients) within this set translates to predictive multiplicity (i.e., different predictions for the same individual). Our experiments indicate that the existence of many similarly accurate models with comparable error-rate disparities does not necessarily translate into severe predictive multiplicity. Empirically, similarly performant models can exhibit substantially higher predictive agreement than worst-case theoretical guarantees suggest. We find that a simple policy that assigns each inmate the lowest risk among these models is effective for addressing predictive arbitrariness.


翻译:针对个体未来的预测任务天生带有噪声,往往会产生多个准确度相近的模型。当这些模型对同一对象产生不同预测时,便引发了决策任意性的担忧。这种任意性在理论与实践中有多严重?如何在高风险评估场景中解决这一问题?我们通过研究一个已使用逾15年的机器学习辅助再犯风险评估决策支持系统来探讨这些问题。通过将复杂的法律规则转化为标注释放后结果(再犯者或非再犯者)的算法,我们首先构建了一个包含数千条囚犯释放记录的数据集。基于该数据集,我们学习可解释模型,在提升预测性能、降低群体间错误率差异的同时,确保矫正进展能够降低风险评分。接着研究预测多重性:首先推导数据集上任何有限模型集合预期预测一致性的严格下界,然后评估该集合内结构多样性(如不同模型系数)转化为预测多重性(即对同一对象产生不同预测)的程度。实验表明,存在多个准确度相近且错误率差异相当的模型并不必然导致严重的预测多重性。经验数据显示,性能相近的模型实际展现的预测一致性可能显著高于最坏情况下的理论保证。我们发现,为每名囚犯分配这些模型中最低风险的简单策略,能有效应对预测任意性问题。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【博士论文】小型和大型模型的不确定性估计
专知会员服务
21+阅读 · 2025年7月11日
《军事危机模拟中语言模型自由决策不一致性度量》
专知会员服务
22+阅读 · 2024年10月29日
多模态大模型的幻觉问题与评估
专知会员服务
57+阅读 · 2023年7月28日
视觉语言多模态预训练综述
专知会员服务
122+阅读 · 2022年7月11日
多模态预训练模型简述
专知会员服务
115+阅读 · 2021年4月27日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
【博士论文】小型和大型模型的不确定性估计
专知会员服务
21+阅读 · 2025年7月11日
《军事危机模拟中语言模型自由决策不一致性度量》
专知会员服务
22+阅读 · 2024年10月29日
多模态大模型的幻觉问题与评估
专知会员服务
57+阅读 · 2023年7月28日
视觉语言多模态预训练综述
专知会员服务
122+阅读 · 2022年7月11日
多模态预训练模型简述
专知会员服务
115+阅读 · 2021年4月27日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员