成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
模型强化学习
关注
5
综合
百科
VIP
热门
动态
论文
精华
STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens
Arxiv
0+阅读 · 2月18日
STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens
Arxiv
0+阅读 · 2月17日
Dynamic Vocabulary Pruning: Stable LLM-RL by Taming the Tail
Arxiv
0+阅读 · 2月6日
Trust Region Masking for Long-Horizon LLM Reinforcement Learning
Arxiv
0+阅读 · 2月6日
Trust Region Masking for Long-Horizon LLM Reinforcement Learning
Arxiv
0+阅读 · 2月9日
Multi-Agent Model-Based Reinforcement Learning with Joint State-Action Learned Embeddings
Arxiv
0+阅读 · 2月13日
Resource-Efficient Model-Free Reinforcement Learning for Board Games
Arxiv
0+阅读 · 2月11日
RLinf-VLA: A Unified and Efficient Framework for Reinforcement Learning of Vision-Language-Action Models
Arxiv
0+阅读 · 2月7日
Critic-Guided Reinforcement Unlearning in Text-to-Image Diffusion
Arxiv
0+阅读 · 2月15日
Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models
Arxiv
0+阅读 · 2月12日
Temperature as a Meta-Policy: Adaptive Temperature in LLM Reinforcement Learning
Arxiv
0+阅读 · 2月12日
Composable Model-Free RL for Navigation with Input-Affine Systems
Arxiv
0+阅读 · 2月13日
GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning
Arxiv
0+阅读 · 2月12日
Rethinking the Trust Region in LLM Reinforcement Learning
Arxiv
0+阅读 · 2月4日
Safe Urban Traffic Control via Uncertainty-Aware Conformal Prediction and World-Model Reinforcement Learning
Arxiv
0+阅读 · 2月4日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top