离策略论文 - 专知

会员服务 ·

离策略

Reversal Q-Learning

Arxiv

0+阅读 · 6月16日

Replay What Matters: Off-Policy Replay for Efficient LLM Reinforcement Unlearning

Arxiv

0+阅读 · 6月13日

OGPO: Sample Efficient Full-Finetuning of Generative Control Policies

Arxiv

0+阅读 · 6月11日

Achieving $ε^{-2}$ Sample Complexity for Single-Loop Actor-Critic under Minimal Assumptions

Arxiv

0+阅读 · 5月13日

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Arxiv

0+阅读 · 3月20日

Distributional Off-Policy Evaluation with Deep Quantile Process Regression

Arxiv

0+阅读 · 4月20日

Inertial Mining: Equilibrium Implementation of the Bitcoin Protocol

Arxiv

0+阅读 · 4月7日

FlashSAC: Fast and Stable Off-Policy Reinforcement Learning for High-Dimensional Robot Control

Arxiv

0+阅读 · 4月6日

Off-Policy Evaluation and Learning for Survival Outcomes under Censoring

Arxiv

0+阅读 · 3月24日

Estimating Dynamic Marginal Policy Effects under Sequential Unconfoundedness

Arxiv

0+阅读 · 4月7日

OP-GRPO: Efficient Off-Policy GRPO for Flow-Matching Models

Arxiv

0+阅读 · 4月5日

Off-Policy Value-Based Reinforcement Learning for Large Language Models

Arxiv

0+阅读 · 3月24日

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

Arxiv

0+阅读 · 3月17日

Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

Arxiv

0+阅读 · 2月24日

ALOE: Action-Level Off-Policy Evaluation for Vision-Language-Action Model Post-Training

Arxiv

0+阅读 · 2月23日

参考链接

微信扫码咨询专知VIP会员