策略优化论文 - 专知

会员服务 ·

策略优化

StepGuard: Guarding Web Navigation via Single-Step Calibration

Arxiv

0+阅读 · 6月16日

AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

Arxiv

0+阅读 · 6月15日

Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization

Arxiv

0+阅读 · 6月16日

OmniSapiens: A Foundation Model for Social Behavior Processing via Heterogeneity-Aware Relative Policy Optimization

Arxiv

0+阅读 · 6月16日

Hamilton-Jacobi Reachability-Based Safe Reinforcement Learning for Emergency Collision Avoidance

Arxiv

0+阅读 · 6月13日

Towards Pareto-Optimal Tool-Integrated Agents with Pareto Ranking Policy Optimization

Arxiv

0+阅读 · 6月15日

Why Tree-Style Branching Matters for Thought Advantage Estimation in GRPO

Arxiv

0+阅读 · 6月15日

GD$^2$PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization

Arxiv

0+阅读 · 6月15日

AP-GRPO: Anchor-Gated Phonetic Alignment with Policy Optimization for Pathological Speech Reconstruction

Arxiv

0+阅读 · 6月14日

A First-Principles Derivation of LLM Policy Optimization: From Expected Reward to GRPO and Its Structural Extensions

Arxiv

0+阅读 · 6月15日

HOLO-MPPI: Multi-Scenario Motion Planning via Hierarchical Policy Optimization

Arxiv

0+阅读 · 6月15日

DDPO-VC: Speaker De-Identification via Diffusion Denoising Policy Optimization

Arxiv

0+阅读 · 6月13日

BALTO: Balanced Token-Level Policy Optimization for Hallucination Mitigation

Arxiv

0+阅读 · 6月14日

A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization

Arxiv

0+阅读 · 6月15日

HiMPO: Hindsight-Informed Memory Policy Optimization for Less-Entangled Credit in Long-Horizon Agents

Arxiv

0+阅读 · 6月15日

参考链接

微信扫码咨询专知VIP会员