The pursuit of real-time agentic interaction has driven interest in Diffusion-based Large Language Models (dLLMs) as alternatives to auto-regressive backbones, promising to break the sequential latency bottleneck. However, does such efficiency gains translate into effective agentic behavior? In this work, we present a comprehensive evaluation of dLLMs (e.g., LLaDA, Dream) across two distinct agentic paradigms: Embodied Agents (requiring long-horizon planning) and Tool-Calling Agents (requiring precise formatting). Contrary to the efficiency hype, our results on Agentboard and BFCL reveal a "bitter lesson": current dLLMs fail to serve as reliable agentic backbones, frequently leading to systematically failure. (1) In Embodied settings, dLLMs suffer repeated attempts, failing to branch under temporal feedback. (2) In Tool-Calling settings, dLLMs fail to maintain symbolic precision (e.g. strict JSON schemas) under diffusion noise. To assess the potential of dLLMs in agentic workflows, we introduce DiffuAgent, a multi-agent evaluation framework that integrates dLLMs as plug-and-play cognitive cores. Our analysis shows that dLLMs are effective in non-causal roles (e.g., memory summarization and tool selection) but require the incorporation of causal, precise, and logically grounded reasoning mechanisms into the denoising process to be viable for agentic tasks.


翻译:追求实时智能体交互推动了基于扩散的大型语言模型作为自回归主干替代方案的研究兴趣,其有望打破序列延迟瓶颈。然而,这种效率提升能否转化为有效的智能体行为?本研究对dLLM(如LLaDA、Dream)在两种不同的智能体范式下进行了全面评估:具身智能体(需要长时程规划)和工具调用智能体(需要精确格式化)。与效率炒作相反,我们在Agentboard和BFCL上的结果揭示了一个“苦涩的教训”:当前的dLLM无法作为可靠的智能体主干,经常导致系统性故障。(1) 在具身环境中,dLLM反复尝试失败,无法在时序反馈下进行分支决策。(2) 在工具调用环境中,dLLM在扩散噪声下无法保持符号精度(如严格的JSON模式)。为评估dLLM在智能体工作流中的潜力,我们提出了DiffuAgent——一个将dLLM作为即插即用认知核心的多智能体评估框架。分析表明,dLLM在非因果角色中表现良好(如记忆总结和工具选择),但需在去噪过程中融入因果性、精确且逻辑严密的推理机制,才能适用于智能体任务。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
《大语言模型智能体:方法、应用与挑战综述》
专知会员服务
60+阅读 · 2025年3月28日
基于大语言模型的智能体优化研究综述
专知会员服务
61+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
《大语言模型智能体:方法、应用与挑战综述》
专知会员服务
60+阅读 · 2025年3月28日
基于大语言模型的智能体优化研究综述
专知会员服务
61+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员