Generalized Kullback-Leibler Divergence Loss - 专知论文

会员服务 ·

0

损失 · 散度 · 知识 (knowledge) · 蒸馏 · Weight ·

Generalized Kullback-Leibler Divergence Loss

翻译：暂无翻译

Jiequan Cui,Beier Zhu,Qingshan Xu,Zhuotao Tian,Xiaojuan Qi,Bei Yu,Hanwang Zhang,Richang Hong

from arxiv, TPAMI 2026, extension of our NeurIPS paper "Decoupled Kullback-Leibler Divergence Loss". arXiv admin note: substantial text overlap with arXiv:2305.13948

In this paper, we delve deeper into the Kullback-Leibler (KL) Divergence loss and mathematically prove that it is equivalent to the Decoupled Kullback-Leibler (DKL) Divergence loss that consists of (1) a weighted Mean Square Error (wMSE) loss and (2) a Cross-Entropy loss incorporating soft labels. Thanks to the decoupled structure of DKL loss, we have identified two areas for improvement. Firstly, we address the limitation of KL loss in scenarios like knowledge distillation by breaking its asymmetric optimization property along with a smoother weight function. This modification effectively alleviates convergence challenges in optimization, particularly for classes with high predicted scores in soft labels. Secondly, we introduce class-wise global information into KL/DKL to reduce bias arising from individual samples. With these two enhancements, we derive the Generalized Kullback-Leibler (GKL) Divergence loss and evaluate its effectiveness by conducting experiments on CIFAR-10/100, ImageNet, and vision-language datasets, focusing on adversarial training, and knowledge distillation tasks. Specifically, we achieve new state-of-the-art adversarial robustness on the public leaderboard -- RobustBench and competitive knowledge distillation performance across CIFAR/ImageNet models and CLIP models, demonstrating the substantial practical merits. Our code is available at https://github.com/jiequancui/DKL.

翻译：暂无翻译

0

相关内容

从Idea构想到论文发表：AI for Research全链路综述与实践

从Idea构想到论文发表：AI for Research全链路综述与实践

专知会员服务

24+阅读 · 2025年7月21日

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

专知会员服务

14+阅读 · 2025年3月6日

Nat. Commun. | 深度学习将大分子分解为独立的马尔可夫域

Nat. Commun. | 深度学习将大分子分解为独立的马尔可夫域

专知会员服务

17+阅读 · 2022年12月9日

NeurlPS 2022 | 深度双向语言-知识图谱预训练

NeurlPS 2022 | 深度双向语言-知识图谱预训练

专知会员服务

10+阅读 · 2022年11月28日

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

专知会员服务

42+阅读 · 2022年10月15日

速看！上海交大卢策吾团队在Nature发表行为理解最新研究成果！

速看！上海交大卢策吾团队在Nature发表行为理解最新研究成果！

专知会员服务

40+阅读 · 2022年4月12日

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

专知会员服务

16+阅读 · 2022年3月13日

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

专知会员服务

15+阅读 · 2019年12月17日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

开源书：PyTorch深度学习起步

开源书：PyTorch深度学习起步

专知会员服务

51+阅读 · 2019年10月11日

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

学术头条

18+阅读 · 2019年12月8日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

手把手教 | 深度学习库PyTorch（附代码）

手把手教 | 深度学习库PyTorch（附代码）

数据派THU

27+阅读 · 2018年3月15日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

一文读懂「Attention is All You Need」| 附代码实现

一文读懂「Attention is All You Need」| 附代码实现

PaperWeekly

37+阅读 · 2018年1月10日

论文浅尝 | Question Answering over Freebase

论文浅尝 | Question Answering over Freebase

开放知识图谱

19+阅读 · 2018年1月9日

复双曲Klein群刚性问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

Zakharov系统的解的动力学行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

自相似序列的无理指数、分形及相关问题

国家自然科学基金

0+阅读 · 2015年12月31日

K连通抗毁性拓扑条件下异构群体的协同一致

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

关于全空间上一类Kirchhoff型方程正解的存在性和多重性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

带跳非耦合正倒向随机微分方程的Crank-Nicolson数值解法研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

常染色体隐性遗传小脑性共济失调新的致病基因CAX的功能研究

国家自然科学基金

0+阅读 · 2014年12月31日

Generalized nonparametric regression in reproducing kernel Hilbert spaces: Consistency and rates of convergence

Arxiv

0+阅读 · 6月22日

Risk-Aware Information Theory

Arxiv

0+阅读 · 6月21日

UniRank: Unified Rank Allocation for Low-Rank LLM Compression

Arxiv

0+阅读 · 6月20日

MBRarefy: data-adaptive multi-bin rarefying for alpha diversity association analysis

Arxiv

0+阅读 · 6月19日

Improved Stochastic Optimization of LogSumExp

Arxiv

0+阅读 · 6月18日

On Feedback Speed Control for a Planar Tracking

Arxiv

0+阅读 · 6月17日

LLM Compression by Block Removal with Constrained Binary Optimization

Arxiv

0+阅读 · 6月17日

Evolution & Foundation: AI Shares Creative Control

Arxiv

0+阅读 · 6月17日

Approximation and Irrationality in Hylland--Zeckhauser Equilibria

Arxiv

0+阅读 · 6月17日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

VIP会员

文章信息

相关主题

知识 (knowledge)

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

3+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

5+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

4+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

从Idea构想到论文发表：AI for Research全链路综述与实践

从Idea构想到论文发表：AI for Research全链路综述与实践

专知会员服务

24+阅读 · 2025年7月21日

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

专知会员服务

14+阅读 · 2025年3月6日

Nat. Commun. | 深度学习将大分子分解为独立的马尔可夫域

Nat. Commun. | 深度学习将大分子分解为独立的马尔可夫域

专知会员服务

17+阅读 · 2022年12月9日

NeurlPS 2022 | 深度双向语言-知识图谱预训练

NeurlPS 2022 | 深度双向语言-知识图谱预训练

专知会员服务

10+阅读 · 2022年11月28日

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

专知会员服务

42+阅读 · 2022年10月15日

速看！上海交大卢策吾团队在Nature发表行为理解最新研究成果！

速看！上海交大卢策吾团队在Nature发表行为理解最新研究成果！

专知会员服务

40+阅读 · 2022年4月12日

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

专知会员服务

16+阅读 · 2022年3月13日

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

专知会员服务

15+阅读 · 2019年12月17日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

开源书：PyTorch深度学习起步

开源书：PyTorch深度学习起步

专知会员服务

51+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

学术头条

18+阅读 · 2019年12月8日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

手把手教 | 深度学习库PyTorch（附代码）

手把手教 | 深度学习库PyTorch（附代码）

数据派THU

27+阅读 · 2018年3月15日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

一文读懂「Attention is All You Need」| 附代码实现

一文读懂「Attention is All You Need」| 附代码实现

PaperWeekly

37+阅读 · 2018年1月10日

论文浅尝 | Question Answering over Freebase

论文浅尝 | Question Answering over Freebase

开放知识图谱

19+阅读 · 2018年1月9日

相关论文

Generalized nonparametric regression in reproducing kernel Hilbert spaces: Consistency and rates of convergence

Arxiv

0+阅读 · 6月22日

Risk-Aware Information Theory

Arxiv

0+阅读 · 6月21日

UniRank: Unified Rank Allocation for Low-Rank LLM Compression

Arxiv

0+阅读 · 6月20日

MBRarefy: data-adaptive multi-bin rarefying for alpha diversity association analysis

Arxiv

0+阅读 · 6月19日

Improved Stochastic Optimization of LogSumExp

Arxiv

0+阅读 · 6月18日

On Feedback Speed Control for a Planar Tracking

Arxiv

0+阅读 · 6月17日

LLM Compression by Block Removal with Constrained Binary Optimization

Arxiv

0+阅读 · 6月17日

Evolution & Foundation: AI Shares Creative Control

Arxiv

0+阅读 · 6月17日

Approximation and Irrationality in Hylland--Zeckhauser Equilibria

Arxiv

0+阅读 · 6月17日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

相关基金

复双曲Klein群刚性问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

Zakharov系统的解的动力学行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

自相似序列的无理指数、分形及相关问题

国家自然科学基金

0+阅读 · 2015年12月31日

K连通抗毁性拓扑条件下异构群体的协同一致

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

关于全空间上一类Kirchhoff型方程正解的存在性和多重性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

带跳非耦合正倒向随机微分方程的Crank-Nicolson数值解法研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

常染色体隐性遗传小脑性共济失调新的致病基因CAX的功能研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员