Informed Asymmetric Actor-Critic: Leveraging Privileged Signals Beyond Full-State Access - 专知论文

会员服务 ·

0

特权信息 · 准则 · 无偏 · 梯度 · 梯度估计 ·

Informed Asymmetric Actor-Critic: Leveraging Privileged Signals Beyond Full-State Access

翻译：基于特权信号的不对称行动者-评论者框架：超越全状态访问的利用

Daniel Ebi,Gaspard Lambrechts,Damien Ernst,Klemens Böhm

from arxiv, 11 pages, 26 pages total, 3 figures

Asymmetric actor-critic methods are widely used in partially observable reinforcement learning, but typically assume full state observability to condition the critic during training, which is often unrealistic in practice. We introduce the informed asymmetric actor-critic framework, allowing the critic to be conditioned on arbitrary state-dependent privileged signals without requiring access to the full state. We show that any such privileged signal yields unbiased policy gradient estimates, substantially expanding the set of admissible privileged information. This raises the problem of selecting the most adequate privileged information in order to improve learning. For this purpose, we propose two novel informativeness criteria: a dependence-based test that can be applied prior to training, and a criterion based on improvements in value prediction accuracy that can be applied post-hoc. Empirical results on partially observable benchmark tasks and synthetic environments demonstrate that carefully selected privileged signals can match or outperform full-state asymmetric baselines while relying on strictly less state information.

翻译：不对称行动者-评论者方法在部分可观测强化学习中被广泛使用，但通常假设评论者在训练期间能够基于全状态进行条件化，这在实践中往往不切实际。我们提出了基于特权信号的不对称行动者-评论者框架，允许评论者基于任意与状态相关的特权信号进行条件化，而无需访问完整状态。我们证明任何此类特权信号都能产生无偏的策略梯度估计，从而显著扩展了可采纳特权信息的范围。这引出了如何选择最合适的特权信息以改进学习的问题。为此，我们提出了两种新的信息量准则：一种可在训练前应用的基于依赖关系的测试，以及一种可在训练后应用的基于价值预测精度改进的准则。在部分可观测基准任务和合成环境中的实验结果表明，经过精心选择的特权信号能够匹配甚至超越基于全状态的不对称基线方法，同时依赖严格更少的状态信息。

0

相关内容

特权信息

《考虑广义证据理论不完备识别框架的空战态势评估》2022西工大论文【Scientific Reports】

《考虑广义证据理论不完备识别框架的空战态势评估》2022西工大论文【Scientific Reports】

专知会员服务

62+阅读 · 2023年1月3日

《通过机器学习对飞行员进行实时态势感知评估：构建自动分类系统》2022最新论文

《通过机器学习对飞行员进行实时态势感知评估：构建自动分类系统》2022最新论文

专知会员服务

45+阅读 · 2022年12月5日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

254+阅读 · 2022年11月15日

【AI+军事】附论文《全社会混合冲突的评估：活动信号与分析家洞察力的融合》

【AI+军事】附论文《全社会混合冲突的评估：活动信号与分析家洞察力的融合》

专知会员服务

31+阅读 · 2022年4月28日

2022最新《对抗领域中的对手建模综述》51页pdf，美国马萨诸塞大学，A Survey on Opponent Modeling in Adversarial Domains

2022最新《对抗领域中的对手建模综述》51页pdf，美国马萨诸塞大学，A Survey on Opponent Modeling in Adversarial Domains

专知会员服务

67+阅读 · 2022年4月15日

【AAAI2022】一种基于随机计划者-执行者-评论家模型的无监督图像柔性配准方法

【AAAI2022】一种基于随机计划者-执行者-评论家模型的无监督图像柔性配准方法

专知会员服务

22+阅读 · 2022年2月3日

【CIKM2020-北大】Set-Sequence-Graph:一种利用评论来获取推荐的多视图方法

专知会员服务

21+阅读 · 2020年9月22日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

56+阅读 · 2022年6月2日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

GAN生成式对抗网络

10+阅读 · 2019年6月9日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

笔记 | Deep active learning for named entity recognition

笔记 | Deep active learning for named entity recognition

黑龙江大学自然语言处理实验室

24+阅读 · 2018年5月27日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

牵制控制框架下符号网络的群体行为研究

国家自然科学基金

2+阅读 · 2017年12月31日

动态社会网络中异质交互观点演化动力学建模及分析研究

国家自然科学基金

1+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

云环境多用户的情景化动态信任决策模型及算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态贝叶斯网络的空天态势评估方法研究

国家自然科学基金

45+阅读 · 2014年12月31日

基于不完全信息博弈的异构无线网络物理层安全

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

Effective Reinforcement Learning Control using Conservative Soft Actor-Critic

Arxiv

0+阅读 · 2月24日

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

Arxiv

0+阅读 · 2月23日

Flow Actor-Critic for Offline Reinforcement Learning

Arxiv

0+阅读 · 2月20日

Privileged Information Distillation for Language Models

Arxiv

0+阅读 · 2月16日

Leveraging Content Producer Networks and User Perception to Detect Online Discursive Communities

Arxiv

0+阅读 · 2月13日

Functional Critics Are Essential for Actor-Critic: From Off-Policy Stability to Efficient Exploration

Arxiv

0+阅读 · 2月8日

Split Personality Training: Revealing Latent Knowledge Through Alternate Personalities

Arxiv

0+阅读 · 2月5日

PEPR: Privileged Event-based Predictive Regularization for Domain Generalization

Arxiv

0+阅读 · 2月4日

Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing

Arxiv

0+阅读 · 2月3日

Actor-Dual-Critic Dynamics for Zero-sum and Identical-Interest Stochastic Games

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

7+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

2+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

3+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

1+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

1+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

9+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

5+阅读 · 4月20日

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

13+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

14+阅读 · 4月19日

相关VIP内容

《考虑广义证据理论不完备识别框架的空战态势评估》2022西工大论文【Scientific Reports】

《考虑广义证据理论不完备识别框架的空战态势评估》2022西工大论文【Scientific Reports】

专知会员服务

62+阅读 · 2023年1月3日

《通过机器学习对飞行员进行实时态势感知评估：构建自动分类系统》2022最新论文

《通过机器学习对飞行员进行实时态势感知评估：构建自动分类系统》2022最新论文

专知会员服务

45+阅读 · 2022年12月5日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

254+阅读 · 2022年11月15日

【AI+军事】附论文《全社会混合冲突的评估：活动信号与分析家洞察力的融合》

【AI+军事】附论文《全社会混合冲突的评估：活动信号与分析家洞察力的融合》

专知会员服务

31+阅读 · 2022年4月28日

2022最新《对抗领域中的对手建模综述》51页pdf，美国马萨诸塞大学，A Survey on Opponent Modeling in Adversarial Domains

2022最新《对抗领域中的对手建模综述》51页pdf，美国马萨诸塞大学，A Survey on Opponent Modeling in Adversarial Domains

专知会员服务

67+阅读 · 2022年4月15日

【AAAI2022】一种基于随机计划者-执行者-评论家模型的无监督图像柔性配准方法

【AAAI2022】一种基于随机计划者-执行者-评论家模型的无监督图像柔性配准方法

专知会员服务

22+阅读 · 2022年2月3日

【CIKM2020-北大】Set-Sequence-Graph:一种利用评论来获取推荐的多视图方法

专知会员服务

21+阅读 · 2020年9月22日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

56+阅读 · 2022年6月2日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

GAN生成式对抗网络

10+阅读 · 2019年6月9日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

笔记 | Deep active learning for named entity recognition

笔记 | Deep active learning for named entity recognition

黑龙江大学自然语言处理实验室

24+阅读 · 2018年5月27日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

相关论文

Effective Reinforcement Learning Control using Conservative Soft Actor-Critic

Arxiv

0+阅读 · 2月24日

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

Arxiv

0+阅读 · 2月23日

Flow Actor-Critic for Offline Reinforcement Learning

Arxiv

0+阅读 · 2月20日

Privileged Information Distillation for Language Models

Arxiv

0+阅读 · 2月16日

Leveraging Content Producer Networks and User Perception to Detect Online Discursive Communities

Arxiv

0+阅读 · 2月13日

Functional Critics Are Essential for Actor-Critic: From Off-Policy Stability to Efficient Exploration

Arxiv

0+阅读 · 2月8日

Split Personality Training: Revealing Latent Knowledge Through Alternate Personalities

Arxiv

0+阅读 · 2月5日

PEPR: Privileged Event-based Predictive Regularization for Domain Generalization

Arxiv

0+阅读 · 2月4日

Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing

Arxiv

0+阅读 · 2月3日

Actor-Dual-Critic Dynamics for Zero-sum and Identical-Interest Stochastic Games

Arxiv

0+阅读 · 1月31日

相关基金

牵制控制框架下符号网络的群体行为研究

国家自然科学基金

2+阅读 · 2017年12月31日

动态社会网络中异质交互观点演化动力学建模及分析研究

国家自然科学基金

1+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

云环境多用户的情景化动态信任决策模型及算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态贝叶斯网络的空天态势评估方法研究

国家自然科学基金

45+阅读 · 2014年12月31日

基于不完全信息博弈的异构无线网络物理层安全

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员