State-Space Models (SSMs) excel at capturing long-range dependencies with structured recurrence, making them well-suited for sequence modeling. However, their evolving internal states pose challenges in adapting them under Continual Learning (CL). This is particularly difficult in exemplar-free settings, where the absence of prior data leaves updates to the dynamic SSM states unconstrained, resulting in catastrophic forgetting. To address this, we propose Inf-SSM, a novel and simple geometry-aware regularization method that utilizes the geometry of the infinite-dimensional Grassmannian to constrain state evolution during CL. Unlike classical continual learning methods that constrain weight updates, Inf-SSM regularizes the infinite-horizon evolution of SSMs encoded in their extended observability subspace. We show that enforcing this regularization requires solving a matrix equation known as the Sylvester equation, which typically incurs $\mathcal{O}(n^3)$ complexity. We develop a $\mathcal{O}(n^2)$ solution by exploiting the structure and properties of SSMs. This leads to an efficient regularization mechanism that can be seamlessly integrated into existing CL methods. Comprehensive experiments on challenging benchmarks, including ImageNet-R and Caltech-256, demonstrate a significant reduction in forgetting while improving accuracy across sequential tasks.


翻译:状态空间模型(SSMs)凭借其结构化的递归机制在处理长程依赖方面表现出色,因此非常适用于序列建模。然而,其不断演化的内部状态给连续学习(CL)中的模型适配带来了挑战。在无样本设置中这一困难尤为突出:由于缺乏先前数据,动态SSM状态的更新不受约束,导致灾难性遗忘。为解决此问题,我们提出Inf-SSM——一种新颖而简单的几何感知正则化方法,该方法利用无限维格拉斯曼流形的几何结构来约束CL过程中的状态演化。与经典持续学习方法通过约束权重更新不同,Inf-SSM对其扩展可观测性子空间所编码的SSM无限时域演化进行正则化。我们证明,实施这种正则化需要求解称为西尔维斯特方程的矩阵方程,其典型复杂度为$\mathcal{O}(n^3)$。通过利用SSM的结构与性质,我们开发了一种$\mathcal{O}(n^2)$的求解方案。这形成了可无缝集成到现有CL方法中的高效正则化机制。在包括ImageNet-R和Caltech-256在内的具有挑战性的基准测试上进行的全面实验表明,该方法在显著减少遗忘的同时提升了跨序列任务的准确率。

0
下载
关闭预览

相关内容

大语言模型持续学习:方法、挑战与机遇
专知会员服务
21+阅读 · 3月16日
UnHiPPO:面向不确定性的状态空间模型初始化方法
专知会员服务
11+阅读 · 2025年6月6日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
非Transformer不可?最新《状态空间模型(SSM)》综述
专知会员服务
75+阅读 · 2024年4月16日
【综述】持续学习与预训练模型综述
专知会员服务
55+阅读 · 2024年1月30日
持续学习:研究综述
专知会员服务
83+阅读 · 2023年1月30日
【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
85+阅读 · 2020年6月9日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
37+阅读 · 2020年2月27日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
大语言模型持续学习:方法、挑战与机遇
专知会员服务
21+阅读 · 3月16日
UnHiPPO:面向不确定性的状态空间模型初始化方法
专知会员服务
11+阅读 · 2025年6月6日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
非Transformer不可?最新《状态空间模型(SSM)》综述
专知会员服务
75+阅读 · 2024年4月16日
【综述】持续学习与预训练模型综述
专知会员服务
55+阅读 · 2024年1月30日
持续学习:研究综述
专知会员服务
83+阅读 · 2023年1月30日
【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
85+阅读 · 2020年6月9日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
37+阅读 · 2020年2月27日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员