成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
奖励函数
关注
1
综合
百科
VIP
热门
动态
论文
精华
CORE: Code-based Inverse Self-Training Framework with Graph Expansion for Virtual Agents
Arxiv
0+阅读 · 1月5日
Iterative Deployment Improves Planning Skills in LLMs
Arxiv
0+阅读 · 2025年12月31日
Embodied Learning of Reward for Musculoskeletal Control with Vision Language Models
Arxiv
0+阅读 · 2025年12月28日
Tilt Matching for Scalable Sampling and Fine-Tuning
Arxiv
0+阅读 · 2025年12月26日
AutoMetrics: Approximate Human Judgements with Automatically Generated Evaluators
Arxiv
0+阅读 · 2025年12月19日
Multi-Objective Planning with Contextual Lexicographic Reward Preferences
Arxiv
0+阅读 · 2025年11月3日
A Reinforcement Learning Framework for Resource Allocation in Uplink Carrier Aggregation in the Presence of Self Interference
Arxiv
0+阅读 · 2025年11月22日
Near-Optimal Experiment Design in Linear non-Gaussian Cyclic Models
Arxiv
0+阅读 · 2025年12月4日
BiCQL-ML: A Bi-Level Conservative Q-Learning Framework for Maximum Likelihood Inverse Reinforcement Learning
Arxiv
0+阅读 · 2025年11月27日
Automatic Reward Shaping from Multi-Objective Human Heuristics
Arxiv
0+阅读 · 2025年12月17日
Statistical analysis of Inverse Entropy-regularized Reinforcement Learning
Arxiv
0+阅读 · 2025年12月7日
DRAGON: Distributional Rewards Optimize Diffusion Generative Models
Arxiv
0+阅读 · 2025年11月14日
Goal-Driven Reward by Video Diffusion Models for Reinforcement Learning
Arxiv
0+阅读 · 2025年11月30日
Differentiable Evolutionary Reinforcement Learning
Arxiv
0+阅读 · 2025年12月15日
MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention
Arxiv
0+阅读 · 2025年10月24日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top