配对种子评估：基于学习的模拟器的统计可靠性 (Paired Seed Evaluation: Statistical Reliability for Learning-Based Simulators) - 专知论文

会员服务 ·

0

相关性 · 设计 · 系统 · 相同 · 方差 ·

2025 年 12 月 30 日

Paired Seed Evaluation: Statistical Reliability for Learning-Based Simulators

翻译：配对种子评估：基于学习的模拟器的统计可靠性

from arxiv, 12 pages, 3 figures

Machine learning systems appear stochastic but are deterministically random, as seeded pseudorandom number generators produce identical realisations across executions. Learning-based simulators are widely used to compare algorithms, design choices, and interventions under such dynamics, yet evaluation outcomes often exhibit high variance due to random initialisation and learning stochasticity. We analyse the statistical structure of comparative evaluation in these settings and show that standard independent evaluation designs fail to exploit shared sources of randomness across alternatives. We formalise a paired seed evaluation design in which competing systems are evaluated under identical random seeds, inducing matched realisations of stochastic components and strict variance reduction whenever outcomes are positively correlated at the seed level. This yields tighter confidence intervals, higher statistical power, and effective sample size gains at fixed computational budgets. Empirically, seed-level correlations are typically large and positive, producing order-of-magnitude efficiency gains. Paired seed evaluation is weakly dominant in practice, improving statistical reliability when correlation is present and reducing to independent evaluation without loss of validity when it is not.

翻译：机器学习系统看似随机，实则具有确定性随机特性，因为基于种子的伪随机数生成器在不同执行中会产生相同的随机实现。基于学习的模拟器被广泛用于在此类动态下比较算法、设计选择和干预措施，然而由于随机初始化和学习随机性，评估结果往往表现出高方差。我们分析了此类场景下比较评估的统计结构，并证明标准的独立评估设计未能利用不同方案间共享的随机性来源。我们形式化了一种配对种子评估设计，其中竞争系统在相同的随机种子下进行评估，从而诱导随机成分的匹配实现，并在结果于种子层面呈正相关时实现严格的方差缩减。这能在固定计算预算下产生更紧凑的置信区间、更高的统计功效以及有效的样本量增益。实证研究表明，种子层面的相关性通常呈现强正相关，可产生数量级的效率提升。配对种子评估在实践中具有弱主导性：当相关性存在时可提升统计可靠性，当相关性不存在时则退化为独立评估且不损失有效性。

0

相关内容

相关性

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

21+阅读 · 2025年6月19日

【斯坦福大学博士论文】个性化机器学习的理论进展

【斯坦福大学博士论文】个性化机器学习的理论进展

专知会员服务

25+阅读 · 2025年3月25日

【博士论文】社交与对抗性数据源下的可信机器学习

【博士论文】社交与对抗性数据源下的可信机器学习

专知会员服务

18+阅读 · 2024年8月9日

可信机器学习综述

可信机器学习综述

专知会员服务

48+阅读 · 2024年7月15日

马毅乔丹联合指导，Yaodong Yu伯克利博士论文《可靠表示学习：理论与实践》

马毅乔丹联合指导，Yaodong Yu伯克利博士论文《可靠表示学习：理论与实践》

专知会员服务

43+阅读 · 2024年5月11日

【斯坦福博士论文】可靠机器学习在真实世界中, 519页pdf

【斯坦福博士论文】可靠机器学习在真实世界中, 519页pdf

专知会员服务

56+阅读 · 2023年7月14日

机器学习模型如何可靠？191页最新《机器学习模型在户外的鲁棒性、评估和自适应》博士论文

机器学习模型如何可靠？191页最新《机器学习模型在户外的鲁棒性、评估和自适应》博士论文

专知会员服务

46+阅读 · 2023年3月11日

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

专知会员服务

58+阅读 · 2022年7月26日

【ICML2022教程】效度，可靠性和意义:可复现机器学习的统计方法教程，147页ppt

【ICML2022教程】效度，可靠性和意义:可复现机器学习的统计方法教程，147页ppt

专知会员服务

16+阅读 · 2022年7月20日

【2022新书】知识表示和机器学习的预测和分析，232页pdf

【2022新书】知识表示和机器学习的预测和分析，232页pdf

专知

41+阅读 · 2022年3月12日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

17+阅读 · 2019年1月24日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

随机接入中的分布式功率控制和数据包编码传输

国家自然科学基金

0+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基因表达随机调控的数学模型及动态分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

When Does Pairing Seeds Reduce Variance? Evidence from a Multi-Agent Economic Simulation

Arxiv

0+阅读 · 1月31日

How Many Ratings per Item are Necessary for Reliable Significance Testing?

Arxiv

0+阅读 · 1月29日

Machine Learning. The Science of Selection under Uncertainty

Arxiv

0+阅读 · 1月29日

Beyond Predictive Uncertainty: Reliable Representation Learning with Structural Constraints

Arxiv

0+阅读 · 1月22日

PAC Learnability in the Presence of Performativity

Arxiv

0+阅读 · 1月19日

When Does Pairing Seeds Reduce Variance? Evidence from a Multi-Agent Economic Simulation

Arxiv

0+阅读 · 1月17日

Evaluating Large Language Models for Fair and Reliable Organ Allocation

Arxiv

0+阅读 · 1月14日

Beyond Perfect Scores: Proof-by-Contradiction for Trustworthy Machine Learning

Arxiv

0+阅读 · 1月10日

MDAS: A Diagnostic Approach to Assess the Quality of Data Splitting in Machine Learning

Arxiv

0+阅读 · 1月8日

PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

相关VIP内容

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

21+阅读 · 2025年6月19日

【斯坦福大学博士论文】个性化机器学习的理论进展

【斯坦福大学博士论文】个性化机器学习的理论进展

专知会员服务

25+阅读 · 2025年3月25日

【博士论文】社交与对抗性数据源下的可信机器学习

【博士论文】社交与对抗性数据源下的可信机器学习

专知会员服务

18+阅读 · 2024年8月9日

可信机器学习综述

可信机器学习综述

专知会员服务

48+阅读 · 2024年7月15日

马毅乔丹联合指导，Yaodong Yu伯克利博士论文《可靠表示学习：理论与实践》

马毅乔丹联合指导，Yaodong Yu伯克利博士论文《可靠表示学习：理论与实践》

专知会员服务

43+阅读 · 2024年5月11日

【斯坦福博士论文】可靠机器学习在真实世界中, 519页pdf

【斯坦福博士论文】可靠机器学习在真实世界中, 519页pdf

专知会员服务

56+阅读 · 2023年7月14日

机器学习模型如何可靠？191页最新《机器学习模型在户外的鲁棒性、评估和自适应》博士论文

机器学习模型如何可靠？191页最新《机器学习模型在户外的鲁棒性、评估和自适应》博士论文

专知会员服务

46+阅读 · 2023年3月11日

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

专知会员服务

58+阅读 · 2022年7月26日

【ICML2022教程】效度，可靠性和意义:可复现机器学习的统计方法教程，147页ppt

【ICML2022教程】效度，可靠性和意义:可复现机器学习的统计方法教程，147页ppt

专知会员服务

16+阅读 · 2022年7月20日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

【2022新书】知识表示和机器学习的预测和分析，232页pdf

【2022新书】知识表示和机器学习的预测和分析，232页pdf

专知

41+阅读 · 2022年3月12日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

17+阅读 · 2019年1月24日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

相关论文

When Does Pairing Seeds Reduce Variance? Evidence from a Multi-Agent Economic Simulation

Arxiv

0+阅读 · 1月31日

How Many Ratings per Item are Necessary for Reliable Significance Testing?

Arxiv

0+阅读 · 1月29日

Machine Learning. The Science of Selection under Uncertainty

Arxiv

0+阅读 · 1月29日

Beyond Predictive Uncertainty: Reliable Representation Learning with Structural Constraints

Arxiv

0+阅读 · 1月22日

PAC Learnability in the Presence of Performativity

Arxiv

0+阅读 · 1月19日

When Does Pairing Seeds Reduce Variance? Evidence from a Multi-Agent Economic Simulation

Arxiv

0+阅读 · 1月17日

Evaluating Large Language Models for Fair and Reliable Organ Allocation

Arxiv

0+阅读 · 1月14日

Beyond Perfect Scores: Proof-by-Contradiction for Trustworthy Machine Learning

Arxiv

0+阅读 · 1月10日

MDAS: A Diagnostic Approach to Assess the Quality of Data Splitting in Machine Learning

Arxiv

0+阅读 · 1月8日

PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies

Arxiv

0+阅读 · 2025年12月30日

相关基金

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

随机接入中的分布式功率控制和数据包编码传输

国家自然科学基金

0+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基因表达随机调控的数学模型及动态分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员