信任域论文 - 专知

会员服务 ·

信任域

Trust-Region Diffusion Policies for Massively Parallel On-Policy RL

Arxiv

0+阅读 · 6月13日

Success Conditioning as Policy Improvement: The Optimization Problem Solved by Imitating Success

Arxiv

0+阅读 · 6月2日

ViCrop-Det: Spatial Attention Entropy Guided Cropping for Training-Free Small-Object Detection

Arxiv

0+阅读 · 4月29日

Bounded Ratio Reinforcement Learning

Arxiv

0+阅读 · 4月22日

Trust Region Constrained Bayesian Optimization with Penalized Constraint Handling

Arxiv

0+阅读 · 3月25日

Adaptive Replication Strategies in Trust-Region-Based Bayesian Optimization of Stochastic Functions

Arxiv

0+阅读 · 3月9日

Rethinking the Trust Region in LLM Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Fast Networks for High-Performance Distributed Trust

Arxiv

0+阅读 · 2025年11月1日

PyPose: A Library for Robot Learning with Physics-based Optimization

Arxiv

0+阅读 · 2023年3月24日

参考链接

微信扫码咨询专知VIP会员