Large language models excel as few-shot learners when provided with appropriate demonstrations, yet this strength becomes problematic in multiturn agent scenarios, where LLMs erroneously mimic their own previous responses as few-shot examples. Through attention analysis, we identify conversational inertia, a phenomenon where models exhibit strong diagonal attention to previous responses, which is associated with imitation bias that constrains exploration. This reveals a tension when transforming few-shot LLMs into agents: longer context enriches environmental feedback for exploitation, yet also amplifies conversational inertia that undermines exploration. Our key insight is that for identical states, actions generated with longer contexts exhibit stronger inertia than those with shorter contexts, enabling construction of preference pairs without environment rewards. Based on this, we propose Context Preference Learning to calibrate model preferences to favor low-inertia responses over highinertia ones. We further provide context management strategies at inference time to balance exploration and exploitation. Experimental results across eight agentic environments and one deep research scenario validate that our framework reduces conversational inertia and achieves performance improvements.


翻译:大型语言模型在获得适当演示时能够出色地作为少样本学习器,然而这一优势在多轮智能体场景中会引发问题:模型会错误地将自身先前的响应模仿为少样本示例。通过注意力分析,我们识别出对话惯性现象——模型对先前响应表现出强烈的对角线注意力模式,这与限制探索的模仿偏差相关联。这揭示了将少样本LLM转化为智能体时存在的矛盾:更长的上下文虽能丰富环境反馈以促进利用,却同时放大了损害探索的对话惯性。我们的核心发现是:对于相同状态,基于更长上下文生成的动作比基于更短上下文生成的动作表现出更强的惯性,这使得无需环境奖励即可构建偏好对成为可能。基于此,我们提出上下文偏好学习框架,通过校准模型偏好使其倾向于低惯性响应而非高惯性响应。我们进一步在推理阶段提供上下文管理策略以实现探索与利用的平衡。在八个智能体环境和一个深度研究场景中的实验结果表明,我们的框架能有效降低对话惯性并实现性能提升。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
32+阅读 · 2月2日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
赛尔原创 | 教聊天机器人进行多轮对话
哈工大SCIR
18+阅读 · 2017年9月18日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月9日
Arxiv
0+阅读 · 2月1日
Arxiv
0+阅读 · 1月19日
VIP会员
相关VIP内容
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
32+阅读 · 2月2日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员