Prescriptive Process Monitoring is an emerging area within Process Mining that focuses on recommending actions to optimize business outcomes. Most existing works prescribe pre-defined interventions, i.e., sets of actions applied to ongoing process executions to achieve a specific objective or Key Performance Indicator (KPI). In contrast, only a few approaches have explored learning and evaluating optimal behavioral policies, i.e., general strategies that determine the best sequence of actions to maximize a desired KPI. In this paper, we address the problem of learning optimal behavioral policies by proposing an AI-based approach that learns an optimal policy directly from historical process executions using Reinforcement Learning (RL) to recommend the best actions for optimizing a KPI. To this end, we employ two RL techniques. The first is a classical model-based approach that extends previous work by the authors through the construction of a Markov Decision Process (MDP) capturing process behavior. The second is a model-free technique based on offline Deep RL. Unlike state-of-the-art work, we aim to minimize the use of domain knowledge and learn optimal policies directly from historical event data. This allows us to learn when to apply interventions and discover effective ones directly from data. Moreover, we target complex scenarios involving external actors, where the process owner controls only part of the activities. We adopt a data-driven Business Process Simulation (BPS) environment to evaluate the learned policies. Results show that both methods improve the targeted KPI with similar effectiveness, while the model-based approach outperforms offline Deep RL in computational efficiency.


翻译:规范流程监控是流程挖掘领域的一个新兴分支,专注于推荐行动以优化业务成果。现有工作大多预定义干预措施,即针对正在执行的流程采取一系列行动,以实现特定目标或关键绩效指标(KPI)。相比之下,仅少数研究探索了学习与评估最优行为策略,即确定最大化期望KPI的最佳行动序列的通用策略。本文通过提出一种基于人工智能的方法,直接从历史流程执行中利用强化学习(RL)学习最优策略,以推荐优化KPI的最佳行动,从而解决最优行为策略的学习问题。为此,我们采用了两种RL技术:第一种是基于经典模型的方法,通过构建捕捉流程行为的马尔可夫决策过程(MDP)扩展了作者前期工作;第二种是基于离线深度RL的无模型技术。与当前先进研究不同,我们旨在最小化领域知识的运用,直接从历史事件数据中学习最优策略,从而能学习何时实施干预并发现数据中有效的干预手段。此外,我们针对涉及外部参与者的复杂场景,其中流程所有者仅控制部分活动。我们采用数据驱动的业务流程模拟(BPS)环境评估所学策略。结果表明,两种方法均能有效提升目标KPI且效果相近,而基于模型的方法在计算效率上优于离线深度RL方法。

0
下载
关闭预览

相关内容

《基于深度强化学习的战场策略》
专知会员服务
38+阅读 · 2025年1月13日
有监督深度学习的优化方法研究综述
专知会员服务
40+阅读 · 2023年5月15日
专知会员服务
130+阅读 · 2021年8月25日
深度学习目标检测方法综述
专知会员服务
280+阅读 · 2020年8月1日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
Arxiv
0+阅读 · 5月18日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
2+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
2+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
3+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员