We study a simple statistic for benchmarking how well a sample preserves a known bivariate dependence structure. Given a target copula family (Clayton or Gumbel) and parameter $θ_P$, the Copula Discrepancy (CD) compares the target Kendall's tau $τ(θ_P)$ with the Kendall's tau implied by a parameter $\hatθ$ fitted to the sample within the target family, i.e., $|τ(θ_P)-τ(\hatθ)|$. We develop a moment-based version, prove consistency, asymptotic normality, and robustness results under i.i.d.\ sampling, and use an MLE-based version empirically for greater power against tail-structure misspecification. Building on this, we define two information-theoretic copula summaries, a copula KL divergence (CKL) and a copula entropy gap (CED), and establish basic consistency and central limit results for their plug-in estimators. In controlled experiments, CD reliably separates on-target and off-target copulas with matched Kendall's $τ$, provides a dependence-aware signal for tuning SGLD step sizes where Effective Sample Size favors overly aggressive (and biased) settings, and remains stably nonzero under deliberate tail-dependence mismatch where a naive $τ$-based diagnostic fails; CKL and CED offer a complementary Shannon-style view that echoes these findings. Timing benchmarks show that both CD variants incur only millisecond-level overhead over the tested range and exhibit near-linear empirical scaling in sample size, providing a lightweight, dependence-focused complement to quadratic-cost omnibus discrepancies such as the Kernel Stein Discrepancy (KSD).


翻译:我们研究了一种用于基准测试样本在多大程度上保留已知二元相依结构的简单统计量。给定目标Copula族(Clayton或Gumbel)及参数$θ_P$,Copula差异(CD)通过比较目标Kendall's tau $τ(θ_P)$与在目标族内基于样本拟合参数$\hatθ$所隐含的Kendall's tau,即$|τ(θ_P)-τ(\hatθ)|$,来衡量差异。我们开发了基于矩的版本,证明了在独立同分布采样下的一致性、渐近正态性和稳健性结果,并在实证中采用基于极大似然估计的版本以增强对尾部结构误设的检验功效。在此基础上,我们定义了两个信息论Copula摘要量:Copula KL散度(CKL)和Copula熵差(CED),并为它们的插件估计量建立了基本的一致性及中心极限定理结果。在受控实验中,CD能可靠地区分具有匹配Kendall's $τ$的目标与非目标Copula;在为SGLD步长调参时提供依赖感知信号(此时有效样本量倾向于选择过于激进且有偏的设置);在故意引入尾部依赖失配的情况下保持稳定非零(而基于$τ$的朴素诊断方法会失效)。CKL和CED提供了互补的香农式视角,呼应了这些发现。时序基准测试表明,两种CD变体在测试范围内仅产生毫秒级开销,且在样本量上呈现近乎线性的经验缩放,为核斯坦差异(KSD)等二次成本全盘差异提供了轻量级、聚焦相依结构的补充。

0
下载
关闭预览

相关内容

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型
专知会员服务
15+阅读 · 2025年2月4日
专知会员服务
50+阅读 · 2021年6月2日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员