策略更新论文 - 专知

会员服务 ·

策略更新

STAR: SpatioTemporal Adaptive Reward Allocation for Text-to-Image RL Post-Training

Arxiv

0+阅读 · 6月16日

Robust Conformal CBF and CLF Controllers via Iterative Policy Updates

Arxiv

0+阅读 · 6月13日

NCCLbpf: Verified, Composable Policy Execution for GPU Collective Communication

Arxiv

0+阅读 · 5月4日

SafeAdapt: Provably Safe Policy Updates in Deep Reinforcement Learning

Arxiv

0+阅读 · 4月10日

Polaris: A Gödel Agent Framework for Small Language Models through Experience-Abstracted Policy Repair

Arxiv

0+阅读 · 3月24日

SSPO: Subsentence-level Policy Optimization

Arxiv

0+阅读 · 4月10日

Rewards as Labels: Revisiting RLVR from a Classification Perspective

Arxiv

0+阅读 · 3月9日

NCCLbpf: Verified, Composable Policy Execution for GPU Collective Communication

Arxiv

0+阅读 · 3月12日

Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards

Arxiv

0+阅读 · 2月20日

Trust Regions Sell, But Who's Buying? Overlap Geometry as an Alternative Trust Region for Policy Optimization

Arxiv

0+阅读 · 2月6日

F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare

Arxiv

0+阅读 · 2月6日

Rewards as Labels: Revisiting RLVR from a Classification Perspective

Arxiv

0+阅读 · 2月5日

Deep SPI: Safe Policy Improvement via World Models

Arxiv

0+阅读 · 1月28日

Improving Policy Exploitation in Online Reinforcement Learning with Instant Retrospect Action

Arxiv

0+阅读 · 1月27日

Projected Microbatch Accumulation yields reference-free proximal policy updates for reinforcement learning

Arxiv

0+阅读 · 1月15日

参考链接

微信扫码咨询专知VIP会员