Tool-using agents based on Large Language Models (LLMs) excel in tasks such as mathematical reasoning and multi-hop question answering. However, in long trajectories, agents often trigger excessive and low-quality tool calls, increasing latency and degrading inference performance, making managing tool-use behavior challenging. In this work, we conduct entropy-based pilot experiments and observe a strong positive correlation between entropy reduction and high-quality tool calls. Building on this finding, we propose using entropy reduction as a supervisory signal and design two reward strategies to address the differing needs of optimizing tool-use behavior. Sparse outcome rewards provide coarse, trajectory-level guidance to improve efficiency, while dense process rewards offer fine-grained supervision to enhance performance. Experiments across diverse domains show that both reward designs improve tool-use behavior: the former reduces tool calls by 72.07% compared to the average of baselines, while the latter improves performance by 22.27%. These results position entropy reduction as a key mechanism for enhancing tool-use behavior, enabling agents to be more adaptive in real-world applications.


翻译:暂无翻译

0
下载
关闭预览

相关内容

大语言模型中的检索与结构化增强生成综述
专知会员服务
33+阅读 · 2025年9月17日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
大型语言模型推理引擎的综述:优化与效率的视角
专知会员服务
22+阅读 · 2025年5月13日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
基于大语言模型的复杂任务自主规划处理框架
专知会员服务
102+阅读 · 2024年4月12日
「大型语言模型评测」综述
专知会员服务
70+阅读 · 2024年3月30日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题
开放知识图谱
26+阅读 · 2018年6月26日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
VIP会员
最新内容
《美陆军装备维护程序(2026版)》
专知会员服务
4+阅读 · 今天4:23
第五代作战任务规划:集成系统与算法
专知会员服务
6+阅读 · 今天4:11
《北约科技组织2025年亮点报告》
专知会员服务
2+阅读 · 今天3:42
人工智能在防空反导中的应用系统性综述
专知会员服务
5+阅读 · 今天2:45
新兴反无人机技术与不对称防御对策
专知会员服务
5+阅读 · 5月6日
《美空军条令出版物 3-60,目标定位(2026版)》
《定向能武器交战授权治理管道》
专知会员服务
6+阅读 · 5月6日
《人工智能与海军作战》最新报告
专知会员服务
7+阅读 · 5月6日
相关VIP内容
大语言模型中的检索与结构化增强生成综述
专知会员服务
33+阅读 · 2025年9月17日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
大型语言模型推理引擎的综述:优化与效率的视角
专知会员服务
22+阅读 · 2025年5月13日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
基于大语言模型的复杂任务自主规划处理框架
专知会员服务
102+阅读 · 2024年4月12日
「大型语言模型评测」综述
专知会员服务
70+阅读 · 2024年3月30日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题
开放知识图谱
26+阅读 · 2018年6月26日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员