Differentiable matching layers, often implemented via entropy-regularized Optimal Transport, serve as a critical approximate inference mechanism in structural prediction. However, recovering discrete permutations via annealing $ε\to 0$ is notoriously unstable. We identify a fundamental mechanism for this failure: \textbf{Premature Mode Collapse}. By analyzing the non-normal dynamics of the Sinkhorn fixed-point map, we reveal a theoretical \textbf{thermodynamic speed limit}. Under standard exponential cooling, the shift in the target posterior ($O(1)$) outpaces the contraction rate of the inference operator, which degrades as $O(1/ε)$. This mismatch inevitably forces the inference trajectory into spurious local basins. To address this, we propose \textbf{Efficient PH-ASC}, an adaptive scheduling algorithm that monitors the stability of the inference process. By enforcing a linear stability law, we decouple expensive spectral diagnostics from the training loop, reducing overhead from $O(N^3)$ to amortized $O(1)$. Our implementation and interactive demo are available at https://github.com/xxx0438/torch-sinkhorn-asc and https://huggingface.co/spaces/leon0923/torch-sinkhorn-asc-demo. bounded away from zero in generic training dynamics unless the feature extractor converges unrealistically fast.


翻译:可微匹配层(通常通过熵正则化最优传输实现)是结构预测中一种关键的近似推断机制。然而,通过退火 $ε\to 0$ 来恢复离散排列是众所周知的不稳定过程。我们识别了导致此失败的一个根本机制:\textbf{过早模态坍缩}。通过分析 Sinkhorn 不动点映射的非正规动力学,我们揭示了一个理论上的\textbf{热力学速度极限}。在标准的指数冷却方案下,目标后验的偏移($O(1)$)超过了推断算子的收缩速率,而该收缩速率以 $O(1/ε)$ 退化。这种不匹配不可避免地迫使推断轨迹陷入虚假的局部盆地。为解决此问题,我们提出了\textbf{Efficient PH-ASC},一种监测推断过程稳定性的自适应调度算法。通过强制执行线性稳定性定律,我们将昂贵的谱诊断从训练循环中解耦,将开销从 $O(N^3)$ 降低至摊销 $O(1)$。我们的实现和交互式演示可在 https://github.com/xxx0438/torch-sinkhorn-asc 和 https://huggingface.co/spaces/leon0923/torch-sinkhorn-asc-demo 获取。除非特征提取器以不切实际的速度收敛,否则在一般的训练动力学中,该值有界且远离零。

0
下载
关闭预览

相关内容

【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
41+阅读 · 2020年3月9日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
自定义损失函数Gradient Boosting
AI研习社
14+阅读 · 2018年10月16日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
41+阅读 · 2020年3月9日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员