This paper presents a logic programming-based framework for policy-aware autonomous agents that can reason about potential penalties for non-compliance and act accordingly. While prior work has primarily focused on ensuring compliance, our approach considers scenarios where deviating from policies may be necessary to achieve high-stakes goals. Additionally, modeling non-compliant behavior can assist policymakers by simulating realistic human decision-making. Our framework extends Gelfond and Lobo's Authorization and Obligation Policy Language (AOPL) to incorporate penalties and integrates Answer Set Programming (ASP) for reasoning. Compared to previous approaches, our method ensures well-formed policies, accounts for policy priorities, and enhances explainability by explicitly identifying rule violations and their consequences. Building on the work of Harders and Inclezan, we introduce penalty-based reasoning to distinguish between non-compliant plans, prioritizing those with minimal repercussions. To support this, we develop an automated translation from the extended AOPL into ASP and refine ASP-based planning algorithms to account for incurred penalties. Experiments in two domains demonstrate that our framework generates higher-quality plans that avoid harmful actions while, in some cases, also improving computational efficiency. These findings underscore its potential for enhancing autonomous decision-making and informing policy refinement. Under consideration in Theory and Practice of Logic Programming (TPLP).


翻译:本文提出了一种基于逻辑编程的政策感知自主智能体框架,该框架能够推理不合规行为可能带来的惩罚并据此行动。先前的研究主要侧重于确保合规性,而我们的方法考虑了在某些高风险目标下偏离政策可能是必要的情形。此外,通过模拟现实中的人类决策过程,对不合规行为进行建模有助于政策制定者优化政策设计。本框架扩展了Gelfond与Lobo的授权与义务策略语言(AOPL),以纳入惩罚机制,并集成答案集编程(ASP)进行推理。相较于既有方法,我们的方法能确保策略的规范性,考虑策略优先级,并通过明确识别规则违反及其后果来增强可解释性。基于Harders和Inclezan的研究,我们引入了基于惩罚的推理机制,以区分不同的不合规计划,并优先选择影响最小的方案。为此,我们开发了从扩展AOPL到ASP的自动转换方法,并改进了基于ASP的规划算法以计入已发生的惩罚。在两个领域的实验表明,本框架能够生成更高质量的计划,避免有害行为,并在某些情况下提升计算效率。这些发现凸显了该框架在增强自主决策能力及优化政策制定方面的潜力。本文已提交至《逻辑编程理论与实践》(TPLP)期刊审议。

0
下载
关闭预览

相关内容

人们为了让计算机解决各种棘手的问题,使用编程语言 编写程序代码并通过计算机运算得到最终结果的过程。
【ICML2025】通用智能体需要世界模型
专知会员服务
23+阅读 · 2025年6月4日
【CVPR2024】MoReVQA:探索视频问答的模块化推理模型
专知会员服务
18+阅读 · 2024年4月10日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
22+阅读 · 2021年4月11日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【ICML2025】通用智能体需要世界模型
专知会员服务
23+阅读 · 2025年6月4日
【CVPR2024】MoReVQA:探索视频问答的模块化推理模型
专知会员服务
18+阅读 · 2024年4月10日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
22+阅读 · 2021年4月11日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员