As AI agents become increasingly autonomous, widely deployed in consequential contexts, and efficacious in bringing about real-world impacts, ensuring that their decisions are not only instrumentally effective but also normatively aligned has become critical. We introduce a neuro-symbolic reason-based containment architecture, Governor for Reason-Aligned ContainmEnt (GRACE), that decouples normative reasoning from instrumental decision-making and can contain AI agents of virtually any design. GRACE restructures decision-making into three modules: a Moral Module (MM) that determines permissible macro actions via deontic logic-based reasoning; a Decision-Making Module (DMM) that encapsulates the target agent while selecting instrumentally optimal primitive actions in accordance with derived macro actions; and a Guard that monitors and enforces moral compliance. The MM uses a reason-based formalism providing a semantic foundation for deontic logic, enabling interpretability, contestability, and justifiability. Its symbolic representation enriches the DMM's informational context and supports formal verification and statistical guarantees of alignment enforced by the Guard. We demonstrate GRACE on an example of a LLM therapy assistant, showing how it enables stakeholders to understand, contest, and refine agent behavior.


翻译:随着AI智能体日益自主化、广泛部署于关键场景并在产生现实影响方面愈发高效,确保其决策不仅具有工具性效能,同时符合规范性对齐已变得至关重要。本文提出一种神经符号理性约束架构——理性对齐约束治理器(GRACE),该架构将规范性推理与工具性决策解耦,能够约束几乎任何设计的AI智能体。GRACE将决策过程重构为三个模块:道德模块(MM)通过基于道义逻辑的推理确定可允许的宏观行动;决策模块(DMM)封装目标智能体,根据推导出的宏观行动选择工具性最优的原始行动;以及监督器,负责监控并强制执行道德合规性。MM采用基于理性的形式化方法,为道义逻辑提供语义基础,从而实现可解释性、可争议性与可辩护性。其符号化表征丰富了DMM的信息语境,并支持通过监督器实施对齐的形式化验证与统计保证。我们以LLM治疗助手为例展示GRACE,说明其如何使利益相关者理解、质疑并优化智能体行为。

0
下载
关闭预览

相关内容

《在单智能体与多智能体AI系统中融入人类合理性》100页
人工智能伦理风险与治理研究
专知会员服务
20+阅读 · 2025年4月22日
联合国教科文组织发布《人工智能伦理建议书》
专知会员服务
51+阅读 · 2021年12月7日
专知会员服务
43+阅读 · 2021年9月28日
重磅!AI框架发展白皮书(2022年),44页pdf
专知
28+阅读 · 2022年2月27日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员