Dirichlet process mixture (DPM) models are widely used for semiparametric Bayesian analysis in educational and behavioral research, yet specifying the concentration parameter remains a critical barrier. Default hyperpriors often impose strong, unintended assumptions about clustering, while existing calibration methods based on cluster counts suffer from computational inefficiency and fail to control the distribution of mixture weights. This article introduces Design-Conditional Elicitation (DCE), a unified framework that translates practitioner beliefs about cluster structure into coherent Gamma hyperpriors for a fixed design size J. DCE makes three contributions. First, it solves the computational bottleneck using Two-Stage Moment Matching (TSMM), which couples a closed-form approximation with an exact Newton refinement to calibrate hyperparameters without grid search. Second, addressing the "unintended prior" phenomenon, DCE incorporates a Dual-Anchor protocol to diagnose and optionally constrain the risk of weight dominance while transparently reporting the resulting trade-off against cluster-count fidelity. Third, the complete workflow is implemented in the open-source DPprior R package with reproducible diagnostics and a reporting checklist. Simulation studies demonstrate that common defaults such as Gamma(1, 1) induce posterior collapse rates exceeding 60% regardless of the true cluster structure, while DCE-calibrated priors substantially reduce bias and improve recovery across varying levels of data informativeness.


翻译:狄利克雷过程混合模型在教育与行为研究的半参数贝叶斯分析中应用广泛,但其浓度参数的设定仍是关键障碍。默认超先验常对聚类结构施加强烈且非预期的假设,而现有基于聚类数量的校准方法存在计算效率低下且无法控制混合权重分布的问题。本文提出设计条件先验设定框架,该统一框架可将研究者对聚类结构的先验信念转化为针对固定设计规模J的一致Gamma超先验。本框架作出三方面贡献:首先,通过两阶段矩匹配方法解决计算瓶颈,该方法将闭式近似与精确牛顿修正相结合,无需网格搜索即可校准超参数;其次,针对“非预期先验”现象,框架引入双锚定协议以诊断并可选地约束权重主导风险,同时透明报告由此产生的与聚类数量保真度的权衡关系;第三,完整工作流程已在开源DPprior R包中实现,包含可复现的诊断工具与报告清单。模拟研究表明,常见默认设置(如Gamma(1,1))会导致超过60%的后验坍缩率(与真实聚类结构无关),而经DCE校准的先验能显著减少偏差,并在不同数据信息量水平下提升结构恢复能力。

0
下载
关闭预览

相关内容

混合战背景下抵抗强度评估模型研究
专知会员服务
21+阅读 · 2024年10月23日
NeurIPS 2021 | 微观特征混合进行宏观时间序列预测
专知会员服务
42+阅读 · 2021年11月12日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【APC】先进过程控制系统(APC: Advanced Process Control)
产业智能官
69+阅读 · 2020年7月12日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
混合战背景下抵抗强度评估模型研究
专知会员服务
21+阅读 · 2024年10月23日
NeurIPS 2021 | 微观特征混合进行宏观时间序列预测
专知会员服务
42+阅读 · 2021年11月12日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员