Training ML Models with Predictable Failures - 专知论文

会员服务 ·

0

学习模型 · 机器学习模型 · 偏差 · 微调 · 机器学习 ·

Training ML Models with Predictable Failures

翻译：训练可预测失败的机器学习模型

Will Schwarzer,Scott Niekum

from arxiv, 32 pages, 9 figures

Estimating how often an ML model will fail at deployment scale is central to pre-deployment safety assessment, but a feasible evaluation set is rarely large enough to observe the failures that matter. Jones et al. (2025) address this by extrapolating from the largest k failure scores in an evaluation set to predict deployment-scale failure rates. We give a finite-k decomposition of this estimator's forecast error and show that it has a built-in bias toward over-prediction in the typical case, which is the safety-favorable direction. This bias is offset when the evaluation set misses a rare high-failure mode that the deployment set contains, leaving the forecast to under-predict at deployment scale. We propose a fine-tuning objective, the forecastability loss, that addresses this failure mode. In two proof-of-concept experiments, a language-model password game and an RL gridworld, fine-tuning substantially reduces held-out forecast error while preserving primary-task capability and achieving safety similar to that of supervised baselines.

翻译：评估机器学习模型在部署规模下的失败频率是部署前安全评估的核心，但可行的评估集通常不足以观测到关键失败案例。Jones等人（2025）通过从评估集中最大k个失败分数进行外推来预测部署规模的失败率。我们给出该估计量预测误差的有限k分解，并证明其典型情况下存在对过度预测（即偏向安全方向）的内置偏差。当评估集遗漏部署集包含的罕见高失败模式时，该偏差会被抵消，导致预测在部署规模下出现欠预测。我们提出一种微调目标——可预测性损失函数，以应对该失败模式。在两项概念验证实验中（语言模型密码游戏与强化学习网格世界），微调在保持主任务能力并实现与监督基线相似安全性的同时，显著降低了保留数据集的预测误差。

0

相关内容

学习模型

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

24+阅读 · 2025年6月19日

可解释的机器学习模型和架构

可解释的机器学习模型和架构

专知会员服务

93+阅读 · 2023年9月17日

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

专知会员服务

47+阅读 · 2023年4月2日

【MIT博士论文】机器学习模型调试的有效工具，149页pdf

【MIT博士论文】机器学习模型调试的有效工具，149页pdf

专知会员服务

49+阅读 · 2023年3月29日

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

专知会员服务

71+阅读 · 2023年1月17日

机器学习损失函数概述，Loss Functions in Machine Learning

机器学习损失函数概述，Loss Functions in Machine Learning

专知会员服务

85+阅读 · 2022年3月19日

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

专知会员服务

51+阅读 · 2020年12月8日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

【开放书】预测模型:探索、解释和调试，以人为本的可解释机器学习，Predictive Models: Explore, Explain, and Debug，Human-Centered Interpretable Machine Learning

【开放书】预测模型:探索、解释和调试，以人为本的可解释机器学习，Predictive Models: Explore, Explain, and Debug，Human-Centered Interpretable Machine Learning

专知会员服务

37+阅读 · 2019年12月26日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

专知

16+阅读 · 2018年5月24日

【干货】机器学习中的五种回归模型及其优缺点

【干货】机器学习中的五种回归模型及其优缺点

专知

21+阅读 · 2018年3月29日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

【机器学习】【案例分析】基于机器学习的磁盘故障预测

【机器学习】【案例分析】基于机器学习的磁盘故障预测

产业智能官

12+阅读 · 2017年8月13日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

Visualizing Uncertainty: Spatial Maps of Missing and Conflicting Evidence in Deep Learning

Arxiv

0+阅读 · 6月14日

Beyond the Training Distribution: Evaluating Predictions Under Distribution Shift and Selection Bias

Arxiv

0+阅读 · 6月12日

An Attention-based Model for Robust Forecasting with Missing Modality

Arxiv

0+阅读 · 6月11日

Recursively Trained Diffusion Models: Limiting Collapse Distribution and Spectral Characterization

Arxiv

0+阅读 · 6月11日

Possibilistic Predictive Uncertainty for Deep Learning

Arxiv

0+阅读 · 6月11日

When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models

Arxiv

0+阅读 · 6月9日

Data-aware Static Analysis: Improving Detection of Semantic Faults in Machine Learning Code Using Data Characteristics

Arxiv

0+阅读 · 6月8日

Failed Reasoning Traces Tell You What Is Fixable (But Not by Reading Them)

Arxiv

0+阅读 · 6月3日

How to Utilize Failure Demo Data?: Effective Data Selection for Imitation Learning Using Distribution Differences in Attention Mechanism

Arxiv

0+阅读 · 5月20日

Combining pre-trained models via localized model averaging

Arxiv

0+阅读 · 5月13日

VIP会员

文章信息

相关主题

机器学习模型

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

24+阅读 · 2025年6月19日

可解释的机器学习模型和架构

可解释的机器学习模型和架构

专知会员服务

93+阅读 · 2023年9月17日

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

专知会员服务

47+阅读 · 2023年4月2日

【MIT博士论文】机器学习模型调试的有效工具，149页pdf

【MIT博士论文】机器学习模型调试的有效工具，149页pdf

专知会员服务

49+阅读 · 2023年3月29日

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

专知会员服务

71+阅读 · 2023年1月17日

机器学习损失函数概述，Loss Functions in Machine Learning

机器学习损失函数概述，Loss Functions in Machine Learning

专知会员服务

85+阅读 · 2022年3月19日

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

【NeurIPS 2020】深度学习的不确定性估计和鲁棒性

专知会员服务

51+阅读 · 2020年12月8日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

【开放书】预测模型:探索、解释和调试，以人为本的可解释机器学习，Predictive Models: Explore, Explain, and Debug，Human-Centered Interpretable Machine Learning

【开放书】预测模型:探索、解释和调试，以人为本的可解释机器学习，Predictive Models: Explore, Explain, and Debug，Human-Centered Interpretable Machine Learning

专知会员服务

37+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

专知

16+阅读 · 2018年5月24日

【干货】机器学习中的五种回归模型及其优缺点

【干货】机器学习中的五种回归模型及其优缺点

专知

21+阅读 · 2018年3月29日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

【机器学习】【案例分析】基于机器学习的磁盘故障预测

【机器学习】【案例分析】基于机器学习的磁盘故障预测

产业智能官

12+阅读 · 2017年8月13日

相关论文

Visualizing Uncertainty: Spatial Maps of Missing and Conflicting Evidence in Deep Learning

Arxiv

0+阅读 · 6月14日

Beyond the Training Distribution: Evaluating Predictions Under Distribution Shift and Selection Bias

Arxiv

0+阅读 · 6月12日

An Attention-based Model for Robust Forecasting with Missing Modality

Arxiv

0+阅读 · 6月11日

Recursively Trained Diffusion Models: Limiting Collapse Distribution and Spectral Characterization

Arxiv

0+阅读 · 6月11日

Possibilistic Predictive Uncertainty for Deep Learning

Arxiv

0+阅读 · 6月11日

When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models

Arxiv

0+阅读 · 6月9日

Data-aware Static Analysis: Improving Detection of Semantic Faults in Machine Learning Code Using Data Characteristics

Arxiv

0+阅读 · 6月8日

Failed Reasoning Traces Tell You What Is Fixable (But Not by Reading Them)

Arxiv

0+阅读 · 6月3日

How to Utilize Failure Demo Data?: Effective Data Selection for Imitation Learning Using Distribution Differences in Attention Mechanism

Arxiv

0+阅读 · 5月20日

Combining pre-trained models via localized model averaging

Arxiv

0+阅读 · 5月13日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员