评估大型语言模型的业务流程建模能力 (Assessing the Business Process Modeling Competences of Large Language Models) - 专知论文

会员服务 ·

0

流程建模 · 大语言模型 · 有效性 · 语言模型 · 领域知识 ·

Assessing the Business Process Modeling Competences of Large Language Models

翻译：评估大型语言模型的业务流程建模能力

Chantale Lauer,Peter Pfeiffer,Alexander Rombach,Nijat Mehdiyev

The creation of Business Process Model and Notation (BPMN) models is a complex and time-consuming task requiring both domain knowledge and proficiency in modeling conventions. Recent advances in large language models (LLMs) have significantly expanded the possibilities for generating BPMN models directly from natural language, building upon earlier text-to-process methods with enhanced capabilities in handling complex descriptions. However, there is a lack of systematic evaluations of LLM-generated process models. Current efforts either use LLM-as-a-judge approaches or do not consider established dimensions of model quality. To this end, we introduce BEF4LLM, a novel LLM evaluation framework comprising four perspectives: syntactic quality, pragmatic quality, semantic quality, and validity. Using BEF4LLM, we conduct a comprehensive analysis of open-source LLMs and benchmark their performance against human modeling experts. Results indicate that LLMs excel in syntactic and pragmatic quality, while humans outperform in semantic aspects; however, the differences in scores are relatively modest, highlighting LLMs' competitive potential despite challenges in validity and semantic quality. The insights highlight current strengths and limitations of using LLMs for BPMN modeling and guide future model development and fine-tuning. Addressing these areas is essential for advancing the practical deployment of LLMs in business process modeling.

翻译：业务流程模型与符号（BPMN）模型的创建是一项复杂且耗时的任务，既需要领域知识，又要求熟练掌握建模规范。近年来，大型语言模型（LLMs）的进展显著扩展了直接从自然语言生成BPMN模型的可能性，这建立在早期文本到流程方法的基础上，并增强了处理复杂描述的能力。然而，目前缺乏对LLM生成的流程模型的系统性评估。现有研究要么采用LLM作为评判者的方法，要么未考虑模型质量的既定维度。为此，我们提出了BEF4LLM，一个新颖的LLM评估框架，包含四个维度：句法质量、语用质量、语义质量和有效性。利用BEF4LLM，我们对开源LLMs进行了全面分析，并将其性能与人类建模专家进行了基准比较。结果表明，LLMs在句法和语用质量方面表现优异，而人类在语义方面更胜一筹；然而，得分差异相对较小，这凸显了LLMs尽管在有效性和语义质量方面面临挑战，但仍具备竞争潜力。这些见解揭示了当前使用LLMs进行BPMN建模的优势与局限，并为未来模型的开发和微调提供了指导。解决这些领域的问题对于推动LLMs在业务流程建模中的实际部署至关重要。

0

相关内容

流程建模

【斯坦福博士论文】大语言模型的AI辅助评估

【斯坦福博士论文】大语言模型的AI辅助评估

专知会员服务

31+阅读 · 2025年3月30日

大语言模型表示工程的分类、机会与挑战

大语言模型表示工程的分类、机会与挑战

专知会员服务

22+阅读 · 2025年2月28日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

70+阅读 · 2024年6月30日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

68+阅读 · 2024年6月4日

「大型语言模型评测」综述

「大型语言模型评测」综述

专知会员服务

70+阅读 · 2024年3月30日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

《大型语言模型自然语言生成评估》综述

《大型语言模型自然语言生成评估》综述

专知会员服务

72+阅读 · 2024年1月20日

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

专知会员服务

46+阅读 · 2023年12月5日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向构建过程的范畴学习模型及其适应性机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于智能特征的手绘组装建模的关键问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

过程感知信息系统的跨组织业务过程建模与分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

大数据商业模式、产业链治理及公共政策研究

国家自然科学基金

12+阅读 · 2013年12月31日

Exploring a New Competency Modeling Process with Large Language Models

Arxiv

0+阅读 · 2月13日

Assessing Spear-Phishing Website Generation in Large Language Model Coding Agents

Arxiv

0+阅读 · 2月13日

Evaluating Large Language Models for Detecting Architectural Decision Violations

Arxiv

0+阅读 · 2月7日

Accounting Reasoning in Large Language Models: Concepts, Evaluation, and Empirical Analysis

Arxiv

0+阅读 · 2月6日

A Guide to Large Language Models in Modeling and Simulation: From Core Techniques to Critical Challenges

A Guide to Large Language Models in Modeling and Simulation: From Core Techniques to Critical Challenges

Arxiv

0+阅读 · 2月5日

Evalet: Evaluating Large Language Models by Fragmenting Outputs into Functions

Arxiv

0+阅读 · 2月3日

BPMN Assistant: An LLM-Based Approach to Business Process Modeling

Arxiv

0+阅读 · 1月22日

StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs

Arxiv

0+阅读 · 1月19日

SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures

Arxiv

0+阅读 · 1月14日

Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

【斯坦福博士论文】大语言模型的AI辅助评估

【斯坦福博士论文】大语言模型的AI辅助评估

专知会员服务

31+阅读 · 2025年3月30日

大语言模型表示工程的分类、机会与挑战

大语言模型表示工程的分类、机会与挑战

专知会员服务

22+阅读 · 2025年2月28日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

70+阅读 · 2024年6月30日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

68+阅读 · 2024年6月4日

「大型语言模型评测」综述

「大型语言模型评测」综述

专知会员服务

70+阅读 · 2024年3月30日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

《大型语言模型自然语言生成评估》综述

《大型语言模型自然语言生成评估》综述

专知会员服务

72+阅读 · 2024年1月20日

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

专知会员服务

46+阅读 · 2023年12月5日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Exploring a New Competency Modeling Process with Large Language Models

Arxiv

0+阅读 · 2月13日

Assessing Spear-Phishing Website Generation in Large Language Model Coding Agents

Arxiv

0+阅读 · 2月13日

Evaluating Large Language Models for Detecting Architectural Decision Violations

Arxiv

0+阅读 · 2月7日

Accounting Reasoning in Large Language Models: Concepts, Evaluation, and Empirical Analysis

Arxiv

0+阅读 · 2月6日

A Guide to Large Language Models in Modeling and Simulation: From Core Techniques to Critical Challenges

A Guide to Large Language Models in Modeling and Simulation: From Core Techniques to Critical Challenges

Arxiv

0+阅读 · 2月5日

Evalet: Evaluating Large Language Models by Fragmenting Outputs into Functions

Arxiv

0+阅读 · 2月3日

BPMN Assistant: An LLM-Based Approach to Business Process Modeling

Arxiv

0+阅读 · 1月22日

StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs

Arxiv

0+阅读 · 1月19日

SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures

Arxiv

0+阅读 · 1月14日

Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

Arxiv

0+阅读 · 1月13日

相关基金

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向构建过程的范畴学习模型及其适应性机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于智能特征的手绘组装建模的关键问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

过程感知信息系统的跨组织业务过程建模与分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

大数据商业模式、产业链治理及公共政策研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员