Diffusion large language models (DLLMs) have emerged as an alternative to autoregressive (AR) decoding with appealing efficiency and modeling properties, yet their implications for agentic multi-step decision making remain underexplored. We ask a concrete question: when the generation paradigm is changed but the agent framework and supervision are held fixed, do diffusion backbones induce systematically different planning and tool-use behaviors, and do these differences translate into end-to-end efficiency gains? We study this in a controlled setting by instantiating DLLM and AR backbones within the same agent workflow (DeepDiver) and performing matched agent-oriented fine-tuning on the same trajectory data, yielding diffusion-backed DLLM Agents and directly comparable AR agents. Across benchmarks and case studies, we find that, at comparable accuracy, DLLM Agents are on average over 30% faster end to end than AR agents, with some cases exceeding 8x speedup. Conditioned on correct task completion, DLLM Agents also require fewer interaction rounds and tool invocations, consistent with higher planner hit rates that converge earlier to a correct action path with less backtracking. We further identify two practical considerations for deploying diffusion backbones in tool-using agents. First, naive DLLM policies are more prone to structured tool-call failures, necessitating stronger tool-call-specific training to emit valid schemas and arguments. Second, for multi-turn inputs interleaving context and action spans, diffusion-style span corruption requires aligned attention masking to avoid spurious context-action information flow; without such alignment, performance degrades. Finally, we analyze attention dynamics across workflow stages and observe paradigm-specific coordination patterns, suggesting stronger global planning signals in diffusion-backed agents.


翻译:扩散大语言模型(DLLM)已成为自回归(AR)解码的一种替代方案,具有引人关注的效率和建模特性,但其对智能体多步决策的影响尚未得到充分探索。我们提出一个具体问题:当生成范式改变,而智能体框架和监督方式保持不变时,扩散主干是否会系统性地引发不同的规划与工具使用行为?这些差异是否能转化为端到端的效率提升?我们在受控设置下进行研究,将DLLM和AR主干实例化到同一智能体工作流(DeepDiver)中,并对相同的轨迹数据执行匹配的智能体导向微调,从而得到基于扩散的DLLM Agent和可直接比较的AR Agent。通过基准测试和案例研究,我们发现,在相近的准确率下,DLLM Agent的端到端速度平均比AR Agent快30%以上,部分案例甚至实现8倍加速。在正确完成任务的前提下,DLLM Agent所需的交互轮次和工具调用次数也更少,这与更高的规划器命中率一致——该命中率能更早收敛到正确的动作路径,且回溯更少。我们进一步识别出在工具使用型智能体中部署扩散主干的两项实践考量。首先,原始的DLLM策略更容易出现结构化的工具调用失败,因此需要更强的工具调用专用训练以输出有效模式与参数。其次,对于穿插上下文和动作块的多轮输入,扩散式块破坏需配合对齐的注意力掩码,以避免虚假的上下文-动作信息流;若未进行此类对齐,性能将下降。最后,我们分析了跨工作流阶段的注意力动态,观察到范式特定的协调模式,这表明扩散支持的智能体中存在更强的全局规划信号。

0
下载
关闭预览

相关内容

AgentOps综述:分类、挑战与未来方向
专知会员服务
40+阅读 · 2025年8月6日
Al Agent--大模型时代重要落地方向
专知会员服务
107+阅读 · 2024年4月8日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
8+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
2+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员