Unifying Model-Free Efficiency and Model-Based Representations via Latent Dynamics - 专知论文

会员服务 ·

0

潜在 · 表示 · 嵌入 · 模型效率 · 模型方法 ·

Unifying Model-Free Efficiency and Model-Based Representations via Latent Dynamics

翻译：统一无模型效率与基于模型表示：潜在动力学方法

Jashaswimalya Acharjee,Balaraman Ravindran

from arxiv, 13 pages. Accepted at AAMAS 2026

We present Unified Latent Dynamics (ULD), a novel reinforcement learning algorithm that unifies the efficiency of model-free methods with the representational strengths of model-based approaches, without incurring planning overhead. By embedding state-action pairs into a latent space in which the true value function is approximately linear, our method supports a single set of hyperparameters across diverse domains -- from continuous control with low-dimensional and pixel inputs to high-dimensional Atari games. We prove that, under mild conditions, the fixed point of our embedding-based temporal-difference updates coincides with that of a corresponding linear model-based value expansion, and we derive explicit error bounds relating embedding fidelity to value approximation quality. In practice, ULD employs synchronized updates of encoder, value, and policy networks, auxiliary losses for short-horizon predictive dynamics, and reward-scale normalization to ensure stable learning under sparse rewards. Evaluated on 80 environments spanning Gym locomotion, DeepMind Control (proprioceptive and visual), and Atari, our approach matches or exceeds the performance of specialized model-free and general model-based baselines -- achieving cross-domain competence with minimal tuning and a fraction of the parameter footprint. These results indicate that value-aligned latent representations alone can deliver the adaptability and sample efficiency traditionally attributed to full model-based planning.

翻译：我们提出统一潜在动力学（ULD），一种新颖的强化学习算法，它统一了无模型方法的效率与基于模型方法的表示优势，且不引入规划开销。通过将状态-动作对嵌入到真实价值函数近似线性的潜在空间中，我们的方法支持跨不同领域使用单一超参数集——从具有低维和像素输入的连续控制到高维Atari游戏。我们证明，在温和条件下，基于嵌入的时间差分更新的不动点与对应线性基于模型价值展开的不动点重合，并推导出将嵌入保真度与价值近似质量相关联的显式误差界。在实践中，ULD采用编码器、价值网络与策略网络的同步更新，结合短时域预测动力学的辅助损失以及奖励尺度归一化，以确保稀疏奖励下的稳定学习。在涵盖Gym运动控制、DeepMind Control（本体感知与视觉）及Atari的80个环境中评估，我们的方法匹配或超越了专用无模型与通用基于模型基线的性能——以最小调参需求和少量参数占用实现了跨领域能力。这些结果表明，仅凭价值对齐的潜在表示即可提供传统上归因于完整基于模型规划的适应性与样本效率。

0

相关内容

用于多模态对齐的基础模型表征潜力：一项综述

用于多模态对齐的基础模型表征潜力：一项综述

专知会员服务

18+阅读 · 2025年10月8日

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

专知会员服务

60+阅读 · 2025年4月6日

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

专知会员服务

39+阅读 · 2023年8月1日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

最新「无监督网络表示学习」综述论文，12页pdf概述九种典型网络嵌入表示方法优劣

最新「无监督网络表示学习」综述论文，12页pdf概述九种典型网络嵌入表示方法优劣

专知会员服务

35+阅读 · 2021年4月10日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

【ICML2020】强化学习中基于模型的方法，279页ppt

【ICML2020】强化学习中基于模型的方法，279页ppt

专知会员服务

48+阅读 · 2020年10月26日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

结构动力分析的新型准凸无网格法研究

国家自然科学基金

0+阅读 · 2014年12月31日

柔性多体系统动力学仿真算法数值稳定性研究

国家自然科学基金

0+阅读 · 2014年12月31日

含不确定性区间参数的刚柔耦合多体系统动力学建模与分析

国家自然科学基金

0+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

非线性动力系统的最简正规形及其相关问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性随机动力系统响应概率密度函数分布模式研究

国家自然科学基金

0+阅读 · 2014年12月31日

A Unified Framework for Zero-Shot Reinforcement Learning

Arxiv

0+阅读 · 3月9日

Expressive Power of Implicit Models: Rich Equilibria and Test-Time Scaling

Arxiv

0+阅读 · 3月1日

A Unified and Computationally Efficient Non-Gaussian Statistical Modeling Framework

Arxiv

0+阅读 · 2月27日

Latent-Augmented Discrete Diffusion Models

Arxiv

0+阅读 · 2月24日

Unified Latents (UL): How to train your latents

Arxiv

0+阅读 · 2月19日

Generalised Linear Models Driven by Latent Processes: Asymptotic Theory and Applications

Arxiv

0+阅读 · 2月18日

A Data-Driven Algorithm for Model-Free Control Synthesis

Arxiv

0+阅读 · 2月13日

Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMs

Arxiv

0+阅读 · 2月11日

Generative Modeling of Neural Dynamics via Latent Stochastic Differential Equations

Arxiv

0+阅读 · 2月8日

Segment to Focus: Guiding Latent Action Models in the Presence of Distractors

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

1+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

1+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

4+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

6+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

3+阅读 · 4月23日

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 4月23日

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 4月23日

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 4月23日

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 4月23日

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 4月23日

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 4月23日

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 4月23日

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 4月23日

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

18+阅读 · 4月22日

相关VIP内容

用于多模态对齐的基础模型表征潜力：一项综述

用于多模态对齐的基础模型表征潜力：一项综述

专知会员服务

18+阅读 · 2025年10月8日

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

专知会员服务

60+阅读 · 2025年4月6日

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

专知会员服务

39+阅读 · 2023年8月1日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

最新「无监督网络表示学习」综述论文，12页pdf概述九种典型网络嵌入表示方法优劣

最新「无监督网络表示学习」综述论文，12页pdf概述九种典型网络嵌入表示方法优劣

专知会员服务

35+阅读 · 2021年4月10日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

【ICML2020】强化学习中基于模型的方法，279页ppt

【ICML2020】强化学习中基于模型的方法，279页ppt

专知会员服务

48+阅读 · 2020年10月26日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

A Unified Framework for Zero-Shot Reinforcement Learning

Arxiv

0+阅读 · 3月9日

Expressive Power of Implicit Models: Rich Equilibria and Test-Time Scaling

Arxiv

0+阅读 · 3月1日

A Unified and Computationally Efficient Non-Gaussian Statistical Modeling Framework

Arxiv

0+阅读 · 2月27日

Latent-Augmented Discrete Diffusion Models

Arxiv

0+阅读 · 2月24日

Unified Latents (UL): How to train your latents

Arxiv

0+阅读 · 2月19日

Generalised Linear Models Driven by Latent Processes: Asymptotic Theory and Applications

Arxiv

0+阅读 · 2月18日

A Data-Driven Algorithm for Model-Free Control Synthesis

Arxiv

0+阅读 · 2月13日

Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMs

Arxiv

0+阅读 · 2月11日

Generative Modeling of Neural Dynamics via Latent Stochastic Differential Equations

Arxiv

0+阅读 · 2月8日

Segment to Focus: Guiding Latent Action Models in the Presence of Distractors

Arxiv

0+阅读 · 2月2日

相关基金

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

结构动力分析的新型准凸无网格法研究

国家自然科学基金

0+阅读 · 2014年12月31日

柔性多体系统动力学仿真算法数值稳定性研究

国家自然科学基金

0+阅读 · 2014年12月31日

含不确定性区间参数的刚柔耦合多体系统动力学建模与分析

国家自然科学基金

0+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

非线性动力系统的最简正规形及其相关问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性随机动力系统响应概率密度函数分布模式研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员