成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
策略优化
关注
1
综合
百科
VIP
热门
动态
论文
精华
What you reward is what you learn: Comparing rewards for online speech policy optimization in public HRI
Arxiv
0+阅读 · 1月5日
Indoor Fluid Antenna Systems Enabled by Layout-Specific Modeling and Group Relative Policy Optimization
Arxiv
0+阅读 · 1月4日
Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem
Arxiv
0+阅读 · 1月4日
Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization
Arxiv
0+阅读 · 1月4日
Moments Matter:Stabilizing Policy Optimization using Return Distributions
Arxiv
0+阅读 · 1月5日
Dichotomous Diffusion Policy Optimization
Arxiv
0+阅读 · 2025年12月31日
ScRPO: From Errors to Insights
Arxiv
0+阅读 · 1月5日
CPPO: Contrastive Perception for Vision Language Policy Optimization
Arxiv
0+阅读 · 1月1日
IRPO: Scaling the Bradley-Terry Model via Reinforcement Learning
Arxiv
0+阅读 · 1月2日
DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization
Arxiv
0+阅读 · 2025年12月31日
One Step is Enough: Multi-Agent Reinforcement Learning based on One-Step Policy Optimization for Order Dispatch on Ride-Sharing Platforms
Arxiv
0+阅读 · 2025年12月31日
Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment
Arxiv
0+阅读 · 2025年12月30日
Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization
Arxiv
0+阅读 · 2025年12月31日
Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization
Arxiv
0+阅读 · 2025年12月29日
MARPO: A Reflective Policy Optimization for Multi Agent Reinforcement Learning
Arxiv
0+阅读 · 2025年12月28日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top