Inference for models with recursively defined likelihoods is computationally demanding, limiting scalability to large datasets. We propose a stabilised weighted subsampling methodology for accelerated inference based on an unbiased estimator of the log-likelihood. By assigning higher sampling probabilities to early observations, the method reduces the effective depth of recursive likelihood evaluations and hence expected computational cost. However, slow decay leads to frequent inclusion of late observations and high computational cost, while overly aggressive decay can substantially inflate estimator variance. We develop a stabilisation framework, underpinned by theoretical results, that restricts the decay of the sampling probabilities to avoid both variance and computational pathologies through principled hyperparameter tuning. We further consider an unbiased subsampling estimator of the log-likelihood gradient, enabling gradient-based inference. The proposed estimators are generic building blocks for subsampling-based inference and can be embedded within frameworks including stochastic optimisation, variational Bayes, and Markov chain Monte Carlo. Applications to conditional volatility models, including standard and threshold generalised autoregressive conditional heteroskedasticity models, demonstrate substantial computational speed-ups while maintaining inferential accuracy. The proposed approach outperforms uniform subsampling and compares favourably with recent stochastic gradient and divide-and-conquer MCMC methods for dependent data.


翻译:递归定义似然的模型推断计算成本高昂,限制了其在大规模数据集上的可扩展性。我们提出一种基于对数似然无偏估计量的稳定加权子采样方法,以实现加速推断。通过为早期观测值分配更高的采样概率,该方法减少了递归似然评估的有效深度,从而降低了预期计算成本。然而,缓慢衰减会导致后期观测值频繁被纳入,增加计算成本;而过快衰减则可能大幅增大估计量方差。我们基于理论结果建立了一个稳定化框架,通过原则性的超参数调整限制采样概率的衰减速率,以避免方差和计算病理学问题。我们还进一步考虑了对数似然梯度的无偏子采样估计量,以支持基于梯度的推断。所提出的估计量是子采样推断的通用构建模块,可嵌入随机优化、变分贝叶斯和马尔可夫链蒙特卡洛等框架中。在条件波动率模型(包括标准广义自回归条件异方差模型和阈值广义自回归条件异方差模型)上的应用表明,该方法在保持推断精度的同时实现了显著的计算加速。该方法优于均匀子采样,并与近期针对依赖数据的随机梯度和分治MCMC方法相比具有竞争力。

0
下载
关闭预览

相关内容

【ICML2025】SADA:基于稳定性引导的自适应扩散加速方法
专知会员服务
7+阅读 · 2025年7月30日
【ICML2025】SADA:稳定性引导的自适应扩散加速
专知会员服务
12+阅读 · 2025年7月24日
【华盛顿大学博士论文】因果模型的似然分析,190页pdf
专知会员服务
35+阅读 · 2022年11月14日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
统计学常用数据类型
论智
19+阅读 · 2018年7月6日
超全总结:神经网络加速之量化模型 | 附带代码
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员