At present, executable visual workflows have emerged as a mainstream paradigm in real-world industrial deployments, offering strong reliability and controllability. However, in current practice, such workflows are almost entirely constructed through manual engineering: developers must carefully design workflows, write prompts for each step, and repeatedly revise the logic as requirements evolve-making development costly, time-consuming, and error-prone. To study whether large language models can automate this multi-round interaction process, we introduce Chat2Workflow, a benchmark for generating executable visual workflows directly from natural language, and propose a robust agentic framework to mitigate recurrent execution errors. Chat2Workflow is built from a large collection of real-world business workflows, with each instance designed so that the generated workflow can be transformed and directly deployed to practical workflow platforms such as Dify and Coze. Experimental results show that while state-of-the-art language models can often capture high-level intent, they struggle to generate correct, stable, and executable workflows, especially under complex or changing requirements. Although our agentic framework yields up to 5.34% resolve rate gains, the remaining real-world gap positions Chat2Workflow as a foundation for advancing industrial-grade automation. Code is available at https://github.com/zjunlp/Chat2Workflow.


翻译:当前,可执行的可视化工作流已成为实际工业部署中的主流范式,具备强大的可靠性和可控性。然而,在实践中,此类工作流几乎完全依赖人工构建:开发者需精心设计工作流、为每个步骤编写提示词,并随需求变化反复修订逻辑——导致开发成本高昂、耗时且易出错。为探究大语言模型能否自动化这一多轮交互过程,我们提出Chat2Workflow——一个从自然语言直接生成可执行可视化工作流的基准,并设计了一套稳健的智能体框架以缓解反复出现的执行错误。Chat2Workflow基于大量真实商业工作流构建,每个实例所生成的工作流均可转换并直接部署至Dify、Coze等实际工作流平台。实验结果表明,尽管当前最优语言模型通常能理解高层意图,但在生成正确、稳定且可执行的工作流方面仍存在不足,尤其在复杂或动态需求场景下。尽管我们的智能体框架带来了最高5.34%的解决率提升,但剩余的真实场景差距使Chat2Workflow成为推动工业级自动化的基础。代码已开源:https://github.com/zjunlp/Chat2Workflow。

0
下载
关闭预览

相关内容

【博士论文】结构化数据自动可视化关键技术研究
专知会员服务
47+阅读 · 2023年12月6日
ChatGPT如何work的?最新《大型语言模型》综述,51页slides
专知会员服务
162+阅读 · 2023年2月28日
【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》,63页PPT
专知会员服务
28+阅读 · 2019年11月2日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
tensorflow项目学习路径
北京思腾合力科技有限公司
10+阅读 · 2017年11月23日
【NLP】十分钟快览自然语言处理学习总结
专知
17+阅读 · 2017年11月21日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
21世纪的无人机战争
专知会员服务
1+阅读 · 54分钟前
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【博士论文】结构化数据自动可视化关键技术研究
专知会员服务
47+阅读 · 2023年12月6日
ChatGPT如何work的?最新《大型语言模型》综述,51页slides
专知会员服务
162+阅读 · 2023年2月28日
【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》,63页PPT
专知会员服务
28+阅读 · 2019年11月2日
相关资讯
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
tensorflow项目学习路径
北京思腾合力科技有限公司
10+阅读 · 2017年11月23日
【NLP】十分钟快览自然语言处理学习总结
专知
17+阅读 · 2017年11月21日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员