策略改进论文 - 专知

会员服务 ·

策略改进

Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning

Arxiv

0+阅读 · 6月20日

RoboLineage: Agent-Native Data Lifecycle Governance Across Robot Policy Iterations

Arxiv

0+阅读 · 6月20日

LAGO Policy: Latency-Aware Asynchronous Diffusion Policies with Goal-Directed Collision-Free Planning for Smooth Manipulation

Arxiv

0+阅读 · 6月16日

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

Arxiv

0+阅读 · 6月16日

Diffusion Policy Optimization without Drifting Apart

Arxiv

0+阅读 · 6月11日

Select and Improve: Understanding the Mechanics of Post-Training for Reasoning

Arxiv

0+阅读 · 6月11日

Success Conditioning as Policy Improvement: The Optimization Problem Solved by Imitating Success

Arxiv

0+阅读 · 6月2日

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 5月11日

Beyond the briscola advantage: a Monte Carlo dominance test for deterministic strategies in two-player Briscola Game

Arxiv

0+阅读 · 5月16日

UniIntervene: Agentic Intervention for Efficient Real-World Reinforcement Learning

Arxiv

0+阅读 · 6月10日

Potential-Guided Flow Matching for Vision-Language-Action Policy Improvement

Arxiv

0+阅读 · 6月3日

Unified Noise Steering for Efficient Human-Guided VLA Adaptation

Arxiv

0+阅读 · 5月11日

GSDrive: Reinforcing Driving Policies by Multi-mode Trajectory Probing with 3D Gaussian Splatting Environment

Arxiv

0+阅读 · 5月1日

GSDrive: Reinforcing Driving Policies by Multi-mode Trajectory Probing with 3D Gaussian Splatting Environment

Arxiv

0+阅读 · 4月30日

ARM: Advantage Reward Modeling for Long-Horizon Manipulation

Arxiv

0+阅读 · 4月3日

参考链接

微信扫码咨询专知VIP会员