扩散语言模型在智能体工作流中的苦涩教训：一项全面的现实检验 (The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check) - 专知论文

会员服务 ·

0

智能体 · 工具 · 语言模型 · 扩散语言模型 · 交互 ·

The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check

翻译：扩散语言模型在智能体工作流中的苦涩教训：一项全面的现实检验

Qingyu Lu,Liang Ding,Kanjian Zhang,Jinxia Zhang,Dacheng Tao

from arxiv, Under Review

The pursuit of real-time agentic interaction has driven interest in Diffusion-based Large Language Models (dLLMs) as alternatives to auto-regressive backbones, promising to break the sequential latency bottleneck. However, does such efficiency gains translate into effective agentic behavior? In this work, we present a comprehensive evaluation of dLLMs (e.g., LLaDA, Dream) across two distinct agentic paradigms: Embodied Agents (requiring long-horizon planning) and Tool-Calling Agents (requiring precise formatting). Contrary to the efficiency hype, our results on Agentboard and BFCL reveal a "bitter lesson": current dLLMs fail to serve as reliable agentic backbones, frequently leading to systematically failure. (1) In Embodied settings, dLLMs suffer repeated attempts, failing to branch under temporal feedback. (2) In Tool-Calling settings, dLLMs fail to maintain symbolic precision (e.g. strict JSON schemas) under diffusion noise. To assess the potential of dLLMs in agentic workflows, we introduce DiffuAgent, a multi-agent evaluation framework that integrates dLLMs as plug-and-play cognitive cores. Our analysis shows that dLLMs are effective in non-causal roles (e.g., memory summarization and tool selection) but require the incorporation of causal, precise, and logically grounded reasoning mechanisms into the denoising process to be viable for agentic tasks.

翻译：追求实时智能体交互推动了基于扩散的大型语言模型作为自回归主干替代方案的研究兴趣，其有望打破序列延迟瓶颈。然而，这种效率提升能否转化为有效的智能体行为？本研究对dLLM（如LLaDA、Dream）在两种不同的智能体范式下进行了全面评估：具身智能体（需要长时程规划）和工具调用智能体（需要精确格式化）。与效率炒作相反，我们在Agentboard和BFCL上的结果揭示了一个“苦涩的教训”：当前的dLLM无法作为可靠的智能体主干，经常导致系统性故障。(1) 在具身环境中，dLLM反复尝试失败，无法在时序反馈下进行分支决策。(2) 在工具调用环境中，dLLM在扩散噪声下无法保持符号精度（如严格的JSON模式）。为评估dLLM在智能体工作流中的潜力，我们提出了DiffuAgent——一个将dLLM作为即插即用认知核心的多智能体评估框架。分析表明，dLLM在非因果角色中表现良好（如记忆总结和工具选择），但需在去噪过程中融入因果性、精确且逻辑严密的推理机制，才能适用于智能体任务。

0

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

17+阅读 · 1月14日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

41+阅读 · 1月8日

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

31+阅读 · 2025年9月27日

扩散语言模型综述

扩散语言模型综述

专知会员服务

19+阅读 · 2025年8月15日

《大语言模型智能体：方法、应用与挑战综述》

《大语言模型智能体：方法、应用与挑战综述》

专知会员服务

60+阅读 · 2025年3月28日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

61+阅读 · 2025年3月25日

大语言模型智能体

大语言模型智能体

专知会员服务

97+阅读 · 2024年12月25日

基于大型语言模型的软件工程智能体综述

基于大型语言模型的软件工程智能体综述

专知会员服务

58+阅读 · 2024年9月6日

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

专知会员服务

54+阅读 · 2024年2月4日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

Agentic AI in Healthcare & Medicine: A Seven-Dimensional Taxonomy for Empirical Evaluation of LLM-based Agents

Arxiv

0+阅读 · 2月4日

An Empirical Study of Collective Behaviors and Social Dynamics in Large Language Model Agents

Arxiv

0+阅读 · 2月3日

Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents

Arxiv

0+阅读 · 2月2日

Towards Real-time Adaptation of Embodied Agent in Human-Robot Collaboration

Arxiv

0+阅读 · 1月26日

The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check

Arxiv

0+阅读 · 1月23日

Controlling Long-Horizon Behavior in Language Model Agents with Explicit State Dynamics

Arxiv

0+阅读 · 1月22日

Batch Query Processing and Optimization for Agentic Workflows

Arxiv

0+阅读 · 1月19日

Towards Verifiably Safe Tool Use for LLM Agents

Arxiv

0+阅读 · 1月12日

Agents of Diffusion: Enhancing Diffusion Language Models with Multi-Agent Reinforcement Learning for Structured Data Generation (Extended Version)

Arxiv

0+阅读 · 1月12日

VIP会员

文章信息

相关主题

扩散语言模型

相关VIP内容

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

17+阅读 · 1月14日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

41+阅读 · 1月8日

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

31+阅读 · 2025年9月27日

扩散语言模型综述

扩散语言模型综述

专知会员服务

19+阅读 · 2025年8月15日

《大语言模型智能体：方法、应用与挑战综述》

《大语言模型智能体：方法、应用与挑战综述》

专知会员服务

60+阅读 · 2025年3月28日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

61+阅读 · 2025年3月25日

大语言模型智能体

大语言模型智能体

专知会员服务

97+阅读 · 2024年12月25日

基于大型语言模型的软件工程智能体综述

基于大型语言模型的软件工程智能体综述

专知会员服务

58+阅读 · 2024年9月6日

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

专知会员服务

54+阅读 · 2024年2月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于状态维修的B-1飞机零件预测》98页

《可变规模无人机蜂群的任务分配研究》最新90页

《构建无人自主载具协同自主性框架——以层级交互为重点》最新145页

《缩小陆军反小型无人机系统差距》最新79页

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

Agentic AI in Healthcare & Medicine: A Seven-Dimensional Taxonomy for Empirical Evaluation of LLM-based Agents

Arxiv

0+阅读 · 2月4日

An Empirical Study of Collective Behaviors and Social Dynamics in Large Language Model Agents

Arxiv

0+阅读 · 2月3日

Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents

Arxiv

0+阅读 · 2月2日

Towards Real-time Adaptation of Embodied Agent in Human-Robot Collaboration

Arxiv

0+阅读 · 1月26日

The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check

Arxiv

0+阅读 · 1月23日

Controlling Long-Horizon Behavior in Language Model Agents with Explicit State Dynamics

Arxiv

0+阅读 · 1月22日

Batch Query Processing and Optimization for Agentic Workflows

Arxiv

0+阅读 · 1月19日

Towards Verifiably Safe Tool Use for LLM Agents

Arxiv

0+阅读 · 1月12日

Agents of Diffusion: Enhancing Diffusion Language Models with Multi-Agent Reinforcement Learning for Structured Data Generation (Extended Version)

Arxiv

0+阅读 · 1月12日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员