Test-time entropy minimization helps adapt a model to novel environments and incentivize its reasoning capability, unleashing the model's potential during inference by allowing it to evolve and improve in real-time using its own predictions, achieving promising performance. However, pure entropy minimization can favor non-generalizable shortcuts, such as inflating the logit norm and driving all predictions to a dominant class to reduce entropy, risking collapsed solutions (e.g., constant one-hot outputs) that trivially minimize the objective without meaningful learning. In this paper, we reveal asymmetry as a key mechanism for collapse prevention and introduce ZeroSiam--an efficient asymmetric Siamese architecture tailored for test-time entropy minimization. ZeroSiam prevents collapse through asymmetric divergence alignment, efficiently achieved by a learnable predictor and a stop-gradient operator before the classifier. We provide empirical and theoretical evidence that ZeroSiam not only prevents collapse, but also regularizes biased learning signals, enhancing performance even when no collapse occurs. Despite its simplicity, extensive results show that ZeroSiam performs more stably over prior methods using negligible overhead, demonstrating efficacy on both vision adaptation and large language model reasoning tasks across challenging test scenarios and diverse models, including particularly collapse-prone tiny models.


翻译:摘要:测试时熵最小化有助于使模型适应新环境并激发其推理能力,通过在推理过程中允许模型利用自身预测进行实时演进与改进,释放模型潜力,从而取得良好性能。然而,纯熵最小化可能偏向不可泛化的捷径,例如放大对数几率范数并将所有预测推向主导类别以降低熵,从而存在坍塌风险(例如产生恒定的独热输出),此类解虽能琐碎地最小化目标函数却无法实现有意义的学习。本文揭示非对称性是防止坍塌的关键机制,并提出ZeroSiam——一种专为测试时熵最小化设计的高效非对称孪生架构。ZeroSiam通过非对称散度对齐防止坍塌,该机制通过可学习预测器及分类器前的停止梯度算子高效实现。我们提供实证与理论证据表明,ZeroSiam不仅能防止坍塌,还可正则化有偏学习信号,甚至在无坍塌情况下也能提升性能。尽管其设计简洁,大量实验结果表明,ZeroSiam在仅引入可忽略开销的情况下,相比先前方法表现更稳定,在具有挑战性的测试场景及多种模型(特别是易坍塌的微型模型)上,其有效性在视觉自适应与大语言模型推理任务中均得到验证。

0
下载
关闭预览

相关内容

【NeurIPS2022】基于最大熵编码的自监督学习
专知会员服务
27+阅读 · 2022年10月23日
【ICML2022】熵因果推理:图的可辨识性
专知会员服务
28+阅读 · 2022年8月6日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
机器学习各种熵:从入门到全面掌握
AI研习社
10+阅读 · 2018年3月22日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【NeurIPS2022】基于最大熵编码的自监督学习
专知会员服务
27+阅读 · 2022年10月23日
【ICML2022】熵因果推理:图的可辨识性
专知会员服务
28+阅读 · 2022年8月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员