奖励函数论文 - 专知

会员服务 ·

奖励函数

AIR: Adaptive Interleaved Reasoning with Code in MLLMs

Arxiv

0+阅读 · 6月22日

Causal Reward World Models: Zero-shot Reward Design for Automated Skill Generation

Arxiv

0+阅读 · 6月22日

MAVRL: Learning Reward Functions from Multiple Feedback Types with Amortized Variational Inference

Arxiv

0+阅读 · 6月19日

Video-Based Optimal Transport for Feedback-Efficient Offline Preference-Based Reinforcement Learning

Arxiv

0+阅读 · 6月15日

LoComposition: Terrain-Adaptive Energy-Efficient Quadruped Locomotion without Gait Priors

Arxiv

0+阅读 · 6月14日

Fairness Definitions and Metrics in Deep Reinforcement Learning for Drug Discovery in Healthcare: A Rapid Evidence Review

Arxiv

0+阅读 · 6月1日

Deep Reinforcement Learning Framework for Diversified Portfolio Management Across Global Equity Markets

Arxiv

0+阅读 · 5月17日

Reward Evolution with Graph-of-Thoughts: A Bi-Level Language Model Framework for Reinforcement Learning

Arxiv

0+阅读 · 6月6日

Accelerated Relax-and-Round for Concave Coverage Problems

Arxiv

0+阅读 · 5月7日

Robots That Know What to Ask: Recovering Misaligned Rewards through Targeted Explanations

Arxiv

0+阅读 · 5月21日

Enhanced LLM Reasoning by Optimizing Reward Functions with Search-Driven Reinforcement Learning

Arxiv

0+阅读 · 5月8日

Combinatorial Contracts Through Demand Types

Arxiv

0+阅读 · 4月16日

Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own

Arxiv

0+阅读 · 4月23日

Hierarchical Behaviour Spaces

Arxiv

0+阅读 · 4月27日

Reflection-Based Task Adaptation for Self-Improving VLA

Arxiv

0+阅读 · 4月9日

参考链接

微信扫码咨询专知VIP会员