成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
强化学习
关注
5447
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
综合
百科
荟萃
VIP
热门
动态
论文
精华
《推进军事决策支持:运用强化学习驱动仿真的稳健作战计划验证》
专知会员服务
13+阅读 · 6月3日
ICML2026 | LAVL:离线目标条件强化学习中的潜在表示对齐
专知会员服务
8+阅读 · 5月26日
【博士论文】面向可扩展且可信智能系统的强化学习
专知会员服务
12+阅读 · 5月13日
【博士论文】基于信息论探索的强化学习与控制:安全性、最优性及其应用研究
专知会员服务
14+阅读 · 5月9日
生成-过滤-控制-重放:LLM强化学习中Rollout策略的全面综述
专知会员服务
9+阅读 · 5月8日
【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架,实现稳定多轮Agentic强化学习
专知会员服务
10+阅读 · 5月5日
《强化学习数学基础》
专知会员服务
21+阅读 · 4月26日
《基于强化学习的反无人机蜂群拦截优先级排序》
专知会员服务
26+阅读 · 4月16日
【博士论文】知识引导的序列决策算法:图结构、专家示教、人类及跨智能体经验的融合研究
专知会员服务
20+阅读 · 4月10日
【牛津博士论文】面向长时程决策任务的高效智能体训练方法
专知会员服务
19+阅读 · 3月27日
《学习空中格斗:AFSIM中针对配备定向能武器的2v2空战近端策略优化与双深度Q网络对比》90页
专知会员服务
32+阅读 · 3月19日
《非平稳作战环境中航空医疗后送强化学习研究》60页
专知会员服务
10+阅读 · 3月19日
【博士论文】结构化约束下的高效强化学习:从单智能体、多智能体到大语言模型时代
专知会员服务
19+阅读 · 3月17日
《防空压制行动中机动与开火决策的强化学习方法》76页报告
专知会员服务
24+阅读 · 3月16日
【CMU博士论文】强化学习中的涌现式抽象
专知会员服务
16+阅读 · 3月8日
参考链接
维基百科
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top