成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
策略优化
关注
1
综合
百科
VIP
热门
动态
论文
精华
MARS: Margin-Aware Reward-Modeling with Self-Refinement
Arxiv
0+阅读 · 2月19日
ROIX-Comp: Optimizing X-ray Computed Tomography Imaging Strategy for Data Reduction and Reconstruction
Arxiv
0+阅读 · 2月17日
Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF
Arxiv
0+阅读 · 2月17日
RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS
Arxiv
0+阅读 · 2月15日
Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay
Arxiv
0+阅读 · 2月6日
The Value of Variance: Mitigating Debate Collapse in Multi-Agent Systems via Uncertainty-Driven Policy Optimization
Arxiv
0+阅读 · 2月6日
Efficient Policy Optimization in Robust Constrained MDPs with Iteration Complexity Guarantees
Arxiv
0+阅读 · 2月7日
Constrained Group Relative Policy Optimization
Arxiv
0+阅读 · 2月6日
ExO-PPO: an Extended Off-policy Proximal Policy Optimization Algorithm
Arxiv
0+阅读 · 2月10日
Robust Policy Optimization to Prevent Catastrophic Forgetting
Arxiv
0+阅读 · 2月9日
Position: Machine Learning for Heart Transplant Allocation Policy Optimization Should Account for Incentives
Arxiv
0+阅读 · 2月6日
Amortized Molecular Optimization via Group Relative Policy Optimization
Arxiv
0+阅读 · 2月12日
Diffusion-State Policy Optimization for Masked Diffusion Language Models
Arxiv
0+阅读 · 2月6日
OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL
Arxiv
0+阅读 · 2月12日
OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL
Arxiv
0+阅读 · 2月11日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top