Path signatures embed trajectories into tensor algebra and constitute a universal, non-parametric representation of paths; however, in the standard form, they collapse temporal structure into a single global object, which limits their suitability for decision-making problems that require step-wise reactivity. We propose the Incremental Signature Contribution (ISC) method, which decomposes truncated path signatures into a temporally ordered sequence of elements in the tensor-algebra space, corresponding to incremental contributions induced by last path increments. This reconstruction preserves the algebraic structure and expressivity of signatures, while making their internal temporal evolution explicit, enabling processing signature-based representations via sequential modeling approaches. In contrast to full signatures, ISC is inherently sensitive to instantaneous trajectory updates, which is critical for sensitive and stability-requiring control dynamics. Building on this representation, we introduce ISC-Transformer (ISCT), an offline reinforcement learning model that integrates ISC into a standard Transformer architecture without further architectural modification. We evaluate ISCT on HalfCheetah, Walker2d, Hopper, and Maze2d, including settings with delayed rewards and downgraded datasets. The results demonstrate that ISC method provides a theoretically grounded and practically effective alternative to path processing for temporally sensitive control tasks.


翻译:路径特征将轨迹嵌入张量代数,构成路径的通用非参数化表示;然而,在标准形式中,它们将时间结构压缩为单一全局对象,这限制了其在需要逐步响应性的决策问题中的适用性。我们提出增量特征贡献方法,该方法将截断路径特征分解为张量代数空间中按时间顺序排列的元素序列,对应由最近路径增量引起的增量贡献。这种重构在保持特征代数结构与表达力的同时,使其内部时间演化过程显式化,从而能够通过序列建模方法处理基于特征的表示。与完整特征相比,ISC方法对瞬时轨迹更新具有内在敏感性,这对于敏感且要求稳定性的控制动力学至关重要。基于此表示,我们提出ISC-Transformer模型,这是一种将ISC集成到标准Transformer架构中且无需额外结构修改的离线强化学习模型。我们在HalfCheetah、Walker2d、Hopper和Maze2d环境中评估ISCT模型,包括含延迟奖励和降级数据集的设定。结果表明,对于时间敏感的控制任务,ISC方法为路径处理提供了理论严谨且实际有效的替代方案。

0
下载
关闭预览

相关内容

基于表征学习的离线强化学习方法研究综述
专知会员服务
29+阅读 · 2024年7月2日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
推荐中的序列化建模:Session-based neural recommendation
机器学习研究会
18+阅读 · 2017年11月5日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
基于表征学习的离线强化学习方法研究综述
专知会员服务
29+阅读 · 2024年7月2日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
相关资讯
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
推荐中的序列化建模:Session-based neural recommendation
机器学习研究会
18+阅读 · 2017年11月5日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员