On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models - 专知论文

会员服务 ·

0

微调 · 分析 · 强化微调 · 语言模型 · 大语言模型 ·

On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

翻译：论大型语言模型强化微调中的熵动态

Shumin Wang,Yuexiang Xie,Wenhao Zhang,Yuchang Sun,Yanxi Chen,Yaliang Li,Yanyong Zhang

Entropy serves as a critical metric for measuring the diversity of outputs generated by large language models (LLMs), providing valuable insights into their exploration capabilities. While recent studies increasingly focus on monitoring and adjusting entropy to better balance exploration and exploitation in reinforcement fine-tuning (RFT), a principled understanding of entropy dynamics during this process is yet to be thoroughly investigated. In this paper, we establish a theoretical framework for analyzing the entropy dynamics during the RFT process, which begins with a discriminant expression that quantifies entropy change under a single logit update. This foundation enables the derivation of a first-order expression for entropy change, which can be further extended to the update formula of Group Relative Policy Optimization (GRPO). The corollaries and insights drawn from the theoretical analysis inspire the design of entropy control methods, and also offer a unified lens for interpreting various entropy-based methods in existing studies. We provide empirical evidence to support the main conclusions of our analysis and demonstrate the effectiveness of the derived entropy-discriminator clipping methods. This study yields novel insights into RFT training dynamics, providing theoretical support and practical strategies for optimizing the exploration-exploitation balance during LLM fine-tuning.

翻译：熵作为衡量大型语言模型（LLM）输出多样性的关键指标，为理解其探索能力提供了重要视角。尽管近期研究日益关注在强化微调（RFT）过程中通过监控和调整熵来优化探索与利用的平衡，但对该过程中熵动态的机理认知仍有待深入探究。本文建立了分析RFT过程中熵动态的理论框架，该框架始于一个量化单次逻辑值更新下熵变化的判别表达式。基于此基础，我们推导出熵变化的一阶表达式，并可进一步扩展至组相对策略优化（GRPO）的更新公式。理论分析所得的推论与启示不仅启发了熵控制方法的设计，也为现有研究中各类基于熵的方法提供了统一的解释视角。我们通过实证证据支持分析的主要结论，并验证了所推导的熵判别器截断方法的有效性。本研究为RFT训练动态提供了新的见解，为优化LLM微调过程中的探索-利用平衡提供了理论支撑与实践策略。

0

相关内容

通过强化学习增强代码生成中的代码大语言模型：综述

通过强化学习增强代码生成中的代码大语言模型：综述

专知会员服务

29+阅读 · 2025年1月1日

强化学习增强的大型语言模型：综述

强化学习增强的大型语言模型：综述

专知会员服务

52+阅读 · 2024年12月17日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

数据与多模态大型语言模型的协同作用综述

数据与多模态大型语言模型的协同作用综述

专知会员服务

59+阅读 · 2024年7月13日

大模型如何迭代？北大等《大型语言模型自我进化》综述

大模型如何迭代？北大等《大型语言模型自我进化》综述

专知会员服务

60+阅读 · 2024年4月29日

大型语言模型增强强化学习综述:概念、分类和方法

大型语言模型增强强化学习综述:概念、分类和方法

专知会员服务

57+阅读 · 2024年4月4日

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

专知会员服务

72+阅读 · 2024年1月3日

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

专知会员服务

46+阅读 · 2023年12月5日

《大型语言模型指令调优》综述

《大型语言模型指令调优》综述

专知会员服务

74+阅读 · 2023年8月27日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知

10+阅读 · 2020年3月9日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

机器学习各种熵：从入门到全面掌握

机器学习各种熵：从入门到全面掌握

AI研习社

10+阅读 · 2018年3月22日

从香农熵到手推KL散度：一文带你纵览机器学习中的信息论

从香农熵到手推KL散度：一文带你纵览机器学习中的信息论

算法与数学之美

10+阅读 · 2018年1月14日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

【直观详解】信息熵、交叉熵和相对熵

【直观详解】信息熵、交叉熵和相对熵

机器学习研究会

10+阅读 · 2017年11月7日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

小分子动力学演化量子速度极限的代数理论

国家自然科学基金

0+阅读 · 2015年12月31日

复多项式的核拓扑熵

国家自然科学基金

0+阅读 · 2015年12月31日

随机波动率模型的统计推断及数值解

国家自然科学基金

1+阅读 · 2015年12月31日

光滑函数类的熵数估计

国家自然科学基金

0+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

随机动力系统中熵结构与热力学形式的研究

国家自然科学基金

0+阅读 · 2014年12月31日

生物膜间的熵力及其性质研究

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

基于高频数据的金融市场间信息溢出与风险传染的微观机理、动态模型及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

Entropy in Large Language Models

Arxiv

0+阅读 · 2月23日

Semantic Chunking and the Entropy of Natural Language

Arxiv

0+阅读 · 2月18日

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Arxiv

0+阅读 · 2月17日

Temperature as a Meta-Policy: Adaptive Temperature in LLM Reinforcement Learning

Arxiv

0+阅读 · 2月12日

Improving the Robustness of Large Language Models for Code Tasks via Fine-tuning with Perturbed Data

Arxiv

0+阅读 · 2月11日

Understanding and Guiding Layer Placement in Parameter-Efficient Fine-Tuning of Large Language Models

Arxiv

0+阅读 · 2月8日

Estimating Semantic Alphabet Size for LLM Uncertainty Quantification

Arxiv

0+阅读 · 2月6日

Can LLMs capture stable human-generated sentence entropy measures?

Arxiv

0+阅读 · 2月4日

Entropy-Lens: Uncovering Decision Strategies in LLMs

Arxiv

0+阅读 · 2月2日

Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

大语言模型

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

2+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

2+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

9+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

5+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

6+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

6+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

9+阅读 · 5月29日

相关VIP内容

通过强化学习增强代码生成中的代码大语言模型：综述

通过强化学习增强代码生成中的代码大语言模型：综述

专知会员服务

29+阅读 · 2025年1月1日

强化学习增强的大型语言模型：综述

强化学习增强的大型语言模型：综述

专知会员服务

52+阅读 · 2024年12月17日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

数据与多模态大型语言模型的协同作用综述

数据与多模态大型语言模型的协同作用综述

专知会员服务

59+阅读 · 2024年7月13日

大模型如何迭代？北大等《大型语言模型自我进化》综述

大模型如何迭代？北大等《大型语言模型自我进化》综述

专知会员服务

60+阅读 · 2024年4月29日

大型语言模型增强强化学习综述:概念、分类和方法

大型语言模型增强强化学习综述:概念、分类和方法

专知会员服务

57+阅读 · 2024年4月4日

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

专知会员服务

72+阅读 · 2024年1月3日

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

专知会员服务

46+阅读 · 2023年12月5日

《大型语言模型指令调优》综述

《大型语言模型指令调优》综述

专知会员服务

74+阅读 · 2023年8月27日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知

10+阅读 · 2020年3月9日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

机器学习各种熵：从入门到全面掌握

机器学习各种熵：从入门到全面掌握

AI研习社

10+阅读 · 2018年3月22日

从香农熵到手推KL散度：一文带你纵览机器学习中的信息论

从香农熵到手推KL散度：一文带你纵览机器学习中的信息论

算法与数学之美

10+阅读 · 2018年1月14日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

【直观详解】信息熵、交叉熵和相对熵

【直观详解】信息熵、交叉熵和相对熵

机器学习研究会

10+阅读 · 2017年11月7日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Entropy in Large Language Models

Arxiv

0+阅读 · 2月23日

Semantic Chunking and the Entropy of Natural Language

Arxiv

0+阅读 · 2月18日

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Arxiv

0+阅读 · 2月17日

Temperature as a Meta-Policy: Adaptive Temperature in LLM Reinforcement Learning

Arxiv

0+阅读 · 2月12日

Improving the Robustness of Large Language Models for Code Tasks via Fine-tuning with Perturbed Data

Arxiv

0+阅读 · 2月11日

Understanding and Guiding Layer Placement in Parameter-Efficient Fine-Tuning of Large Language Models

Arxiv

0+阅读 · 2月8日

Estimating Semantic Alphabet Size for LLM Uncertainty Quantification

Arxiv

0+阅读 · 2月6日

Can LLMs capture stable human-generated sentence entropy measures?

Arxiv

0+阅读 · 2月4日

Entropy-Lens: Uncovering Decision Strategies in LLMs

Arxiv

0+阅读 · 2月2日

Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents

Arxiv

0+阅读 · 2月2日

相关基金

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

小分子动力学演化量子速度极限的代数理论

国家自然科学基金

0+阅读 · 2015年12月31日

复多项式的核拓扑熵

国家自然科学基金

0+阅读 · 2015年12月31日

随机波动率模型的统计推断及数值解

国家自然科学基金

1+阅读 · 2015年12月31日

光滑函数类的熵数估计

国家自然科学基金

0+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

随机动力系统中熵结构与热力学形式的研究

国家自然科学基金

0+阅读 · 2014年12月31日

生物膜间的熵力及其性质研究

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

基于高频数据的金融市场间信息溢出与风险传染的微观机理、动态模型及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员