成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
强化学习
关注
5437
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
综合
百科
荟萃
VIP
热门
动态
论文
精华
GRL-SNAM: Geometric Reinforcement Learning with Path Differential Hamiltonians for Simultaneous Navigation and Mapping in Unknown Environments
Arxiv
0+阅读 · 2025年12月31日
Flattening Hierarchies with Policy Bootstrapping
Arxiv
0+阅读 · 1月2日
Reinforcement Learning from Human Feedback
Arxiv
0+阅读 · 1月2日
Optimizing Retrieval for RAG via Reinforcement Learning
Arxiv
0+阅读 · 1月1日
ARISE: Adaptive Reinforcement Integrated with Swarm Exploration
Arxiv
0+阅读 · 1月2日
Benchmark Success, Clinical Failure: When Reinforcement Learning Optimizes for Benchmarks, Not Patients
Arxiv
0+阅读 · 1月2日
Offline Multi-Agent Reinforcement Learning for 6G Communications: Fundamentals, Applications and Future Directions
Arxiv
0+阅读 · 1月1日
E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models
Arxiv
0+阅读 · 1月1日
IRPO: Scaling the Bradley-Terry Model via Reinforcement Learning
Arxiv
0+阅读 · 1月2日
Reinforcement-Learned Unequal Error Protection for Quantized Semantic Embeddings
Arxiv
0+阅读 · 1月1日
MSACL: Multi-Step Actor-Critic Learning with Lyapunov Certificates for Exponentially Stabilizing Control
Arxiv
0+阅读 · 2025年12月31日
CLF-RL: Control Lyapunov Function Guided Reinforcement Learning
Arxiv
0+阅读 · 2025年12月31日
From Building Blocks to Planning: Multi-Step Spatial Reasoning in LLMs with Reinforcement Learning
Arxiv
0+阅读 · 2025年12月31日
Leveraging High-Fidelity Digital Models and Reinforcement Learning for Mission Engineering: A Case Study of Aerial Firefighting Under Perfect Information
Arxiv
0+阅读 · 2025年12月29日
Efficient Inference for Inverse Reinforcement Learning and Dynamic Discrete Choice Models
Arxiv
0+阅读 · 2025年12月30日
参考链接
维基百科
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top