The choice of loss function in classification involves a fundamental trade-off: smooth losses (like Cross-Entropy) enable fast optimization rates but yield slow square-root consistency bounds, while piecewise-linear losses (like Hinge) offer fast linear consistency rates but suffer from non-differentiability. We propose Linear-Core (LC) Surrogates, a new family of convex loss functions that resolve this tension by stitching a linear core to a smooth tail. We prove that these surrogates are differentiable everywhere while retaining strict linear $H$-consistency bounds, effectively combining the optimization benefits of smoothness with the statistical efficiency of margin-based losses. In the structured prediction setting, we show that this smoothness unlocks a massive computational and energy advantage: it allows for an unbiased stochastic gradient estimator that bypasses the quadratic complexity $O(|\mathscr{Y}|^2)$ of exact inference (e.g., Viterbi). Empirically, our method achieves a 23$\times$ speedup over Structured SVMs on large-vocabulary sequence tagging tasks and demonstrates superior robustness to instance-dependent label noise, outperforming Cross-Entropy by 2.6% on corrupted CIFAR-10.


翻译:损失函数的选择在分类中涉及一个基本权衡:光滑损失(如交叉熵)能够实现快速的优化速率,但产生缓慢的平方根一致性边界;而分段线性损失(如合页损失)提供快速的线性一致性速率,却面临不可微性问题。我们提出线性核心(Linear-Core, LC)代理函数,这是一类新的凸损失函数族,通过将线性核心与光滑尾部拼接来解决这一矛盾。我们证明这些代理函数在保持严格线性$H$-一致性边界的同时处处可微,有效结合了光滑性的优化优势与基于间隔损失的统计效率。在结构化预测场景中,我们展示了这种光滑性带来了巨大的计算和能量优势:它允许一种无偏随机梯度估计器,绕过了精确推理(如维特比算法)的二次复杂度$O(|\mathscr{Y}|^2)$。实验上,我们的方法在大词汇量序列标注任务上比结构化支持向量机实现了23倍的加速,并在对实例相关标签噪声表现出优越的鲁棒性,在受损CIFAR-10数据集上比交叉熵高出2.6%。

0
下载
关闭预览

相关内容

【2023新书】光滑流形上的优化引论,368页pdf
专知会员服务
56+阅读 · 2023年8月7日
机器学习损失函数概述,Loss Functions in Machine Learning
专知会员服务
84+阅读 · 2022年3月19日
专知会员服务
78+阅读 · 2021年3月16日
【经典书】线性代数,Linear Algebra,525页pdf
专知会员服务
79+阅读 · 2021年1月29日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
那些值得推荐和收藏的线性代数学习资源
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
【干货】​深度学习中的线性代数
专知
21+阅读 · 2018年3月30日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
那些值得推荐和收藏的线性代数学习资源
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
【干货】​深度学习中的线性代数
专知
21+阅读 · 2018年3月30日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员