模型强化学习论文 - 专知

会员服务 ·

模型强化学习

模型强化学习

WAM-RL: World-Action Model Reinforcement Learning with Reconstruction Rewards and Online Video SFT

Arxiv

0+阅读 · 6月16日

Deep Dense Exploration for LLM Reinforcement Learning via Pivot-Driven Resampling

Arxiv

0+阅读 · 6月12日

Rethinking the Trust Region in LLM Reinforcement Learning

Arxiv

0+阅读 · 6月12日

About Time: Model-free Reinforcement Learning with Timed Reward Machines

Arxiv

0+阅读 · 5月12日

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

Arxiv

0+阅读 · 4月28日

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling

Arxiv

0+阅读 · 3月24日

Revisiting Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning

Arxiv

0+阅读 · 4月17日

Middle-mile logistics through the lens of goal-conditioned reinforcement learning

Arxiv

0+阅读 · 5月4日

Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization

Arxiv

0+阅读 · 4月13日

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

Arxiv

0+阅读 · 4月10日

Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning

Arxiv

0+阅读 · 4月3日

Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models

Arxiv

0+阅读 · 3月18日

Controlling Fish Schools via Reinforcement Learning of Virtual Fish Movement

Arxiv

0+阅读 · 3月17日

Finite Difference Flow Optimization for RL Post-Training of Text-to-Image Models

Arxiv

0+阅读 · 3月13日

Trust Region Masking for Long-Horizon LLM Reinforcement Learning

Arxiv

0+阅读 · 2月27日

参考链接

微信扫码咨询专知VIP会员