In this paper we present a framework for modelling \emph{reward-sensitive bisimulations}, that is, bisimulations that account for quantitative differences such as accumulated rewards. To capture both qualitative and quantitative aspects uniformly, we consider two interacting notions of bisimulation: a graded variant that tracks bounded reward differences, and an ungraded one that abstracts from them. Our characterization of these notions is done in the fibrational and coalgebraic approach to (bi)simulation initiated by Hermida and Jacobs. To formally relate the graded and ungraded notions, we deploy categorical gluing, a standard technique in categorical logic. Furthermore, we show that this construction interacts well with standard coalgebra concepts, such as final coalgebras, and that it yields a unified characterization in terms of combined notions of bisimulations under mild assumptions. In order to demonstrate the versatility of our approach, we show how it encompasses various bisimulation notions for different kinds of systems, including relation-based bisimulations for automata with rewards and metric-based notions of bisimulations for labelled Markov processes.


翻译:本文提出一个建模奖励敏感双模拟(reward-sensitive bisimulations)的框架,这类双模拟能够刻画累积奖励等定量差异。为统一处理定性与定量方面,我们考虑两种交互作用的双模拟概念:一种是有界奖励差异的渐变变体,另一种是抽象此类差异的非渐变变体。我们借鉴Hermida与Jacobs开创的纤维化与余代数方法对这些概念进行刻画,并通过范畴粘合(这一范畴逻辑中的标准技术)在形式上建立渐变与非渐变概念的联系。进一步,我们证明该构造与最终余代数等标准余代数概念具有良好交互性,并在温和假设下生成以组合双模拟概念为核心的统一刻画。为展示方法的通用性,我们阐释其如何涵盖不同系统类型的多种双模拟概念,包括基于关系的奖励自动机双模拟,以及基于度量的带标号马尔可夫过程双模拟。

0
下载
关闭预览

相关内容

BES:让语言模型通过双向进化搜索自我改进
专知会员服务
8+阅读 · 5月30日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
【ICML2025】从混淆的离线数据中自动构造奖励函数
专知会员服务
9+阅读 · 2025年5月22日
AAAI 2025 | 基于模态分词的细粒度实体表示学习框架
专知会员服务
27+阅读 · 2024年12月26日
专知会员服务
48+阅读 · 2020年10月20日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
超全总结:神经网络加速之量化模型 | 附带代码
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
8+阅读 · 5月30日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
【ICML2025】从混淆的离线数据中自动构造奖励函数
专知会员服务
9+阅读 · 2025年5月22日
AAAI 2025 | 基于模态分词的细粒度实体表示学习框架
专知会员服务
27+阅读 · 2024年12月26日
专知会员服务
48+阅读 · 2020年10月20日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员