成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
强化学习
关注
5445
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
综合
百科
荟萃
VIP
热门
动态
论文
精华
【博士论文】知识引导的序列决策算法:图结构、专家示教、人类及跨智能体经验的融合研究
专知会员服务
9+阅读 · 4月10日
【牛津博士论文】面向长时程决策任务的高效智能体训练方法
专知会员服务
18+阅读 · 3月27日
《学习空中格斗:AFSIM中针对配备定向能武器的2v2空战近端策略优化与双深度Q网络对比》90页
专知会员服务
30+阅读 · 3月19日
《非平稳作战环境中航空医疗后送强化学习研究》60页
专知会员服务
9+阅读 · 3月19日
【博士论文】结构化约束下的高效强化学习:从单智能体、多智能体到大语言模型时代
专知会员服务
19+阅读 · 3月17日
《防空压制行动中机动与开火决策的强化学习方法》76页报告
专知会员服务
22+阅读 · 3月16日
【CMU博士论文】强化学习中的涌现式抽象
专知会员服务
14+阅读 · 3月8日
KARL:基于强化学习的知识智能体
专知会员服务
13+阅读 · 3月7日
《用于建模系统攻击路径的强化学习环境》
专知会员服务
21+阅读 · 3月5日
《采用强化学习开发战斗行为》100页
专知会员服务
32+阅读 · 2月15日
智能体世界模型:面向智能体化强化学习的无限合成环境
专知会员服务
22+阅读 · 2月11日
金融决策中的强化学习:关于性能、挑战与实施策略的系统性综述
专知会员服务
18+阅读 · 1月3日
因果强化学习的统一框架:综述、分类体系、算法与应用
专知会员服务
34+阅读 · 2025年12月24日
【AAAI2026】善始则事半功倍:基于前缀优化的大语言模型推理强化学习
专知会员服务
13+阅读 · 2025年12月19日
大语言模型智能体强化学习:全景综述
专知会员服务
47+阅读 · 2025年12月18日
参考链接
维基百科
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top