成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
价值函数
关注
0
综合
百科
VIP
热门
动态
论文
精华
Continuous-Time Value Iteration for Multi-Agent Reinforcement Learning
Arxiv
0+阅读 · 2月19日
Efficient Policy Optimization in Robust Constrained MDPs with Iteration Complexity Guarantees
Arxiv
0+阅读 · 2月7日
ALOE: Action-Level Off-Policy Evaluation for Vision-Language-Action Model Post-Training
Arxiv
0+阅读 · 2月13日
Direct Soft-Policy Sampling via Langevin Dynamics
Arxiv
0+阅读 · 2月8日
Composable Model-Free RL for Navigation with Input-Affine Systems
Arxiv
0+阅读 · 2月13日
Human Preference Modeling Using Visual Motion Prediction Improves Robot Skill Learning from Egocentric Human Video
Arxiv
0+阅读 · 2月11日
Functional Critics Are Essential for Actor-Critic: From Off-Policy Stability to Efficient Exploration
Arxiv
0+阅读 · 2月8日
Continuous-time reinforcement learning: ellipticity enables model-free value function approximation
Arxiv
0+阅读 · 2月6日
Statistical Inference of Optimal Allocations I: Regularities and their Implications
Arxiv
0+阅读 · 2月15日
Why Tree-Style Branching Matters for Thought Advantage Estimation in GRPO
Arxiv
0+阅读 · 2月5日
Rationality Measurement and Theory for Reinforcement Learning Agents
Arxiv
0+阅读 · 2月4日
Cumulative Treatment Effect Testing under Continuous Time Reinforcement Learning
Arxiv
0+阅读 · 2月2日
PPO in the Fisher-Rao geometry
Arxiv
0+阅读 · 1月30日
Model-free policy gradient for discrete-time mean-field control
Arxiv
0+阅读 · 1月27日
Meta Flow Maps enable scalable reward alignment
Arxiv
0+阅读 · 1月20日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top