基于安全约束的响应式综合任务规约学习方法 (Learning specifications for reactive synthesis with safety constraints) - 专知论文

会员服务 ·

0

安全约束 · 约束 · 算法 · 机器人 · 确定性策略 ·

Learning specifications for reactive synthesis with safety constraints

翻译：基于安全约束的响应式综合任务规约学习方法

Kandai Watanabe,Nicholas Renninger,Sriram Sankaranarayanan,Morteza Lahijanian

This paper presents a novel approach to learning from demonstration that enables robots to autonomously execute complex tasks in dynamic environments. We model latent tasks as probabilistic formal languages and introduce a tailored reactive synthesis framework that balances robot costs with user task preferences. Our methodology focuses on safety-constrained learning and inferring formal task specifications as Probabilistic Deterministic Finite Automata (PDFA). We adapt existing evidence-driven state merging algorithms and incorporate safety requirements throughout the learning process to ensure that the learned PDFA always complies with safety constraints. Furthermore, we introduce a multi-objective reactive synthesis algorithm that generates deterministic strategies that are guaranteed to satisfy the PDFA task while optimizing the trade-offs between user preferences and robot costs, resulting in a Pareto front of optimal solutions. Our approach models the interaction as a two-player game between the robot and the environment, accounting for dynamic changes. We present a computationally-tractable value iteration algorithm to generate the Pareto front and the corresponding deterministic strategies. Comprehensive experimental results demonstrate the effectiveness of our algorithms across various robots and tasks, showing that the learned PDFA never includes unsafe behaviors and that synthesized strategies consistently achieve the task while meeting both the robot cost and user-preference requirements.

翻译：本文提出一种新颖的从演示中学习的方法，使机器人能够在动态环境中自主执行复杂任务。我们将潜在任务建模为概率形式语言，并引入一种定制的响应式综合框架，以平衡机器人成本与用户任务偏好。我们的方法聚焦于安全约束下的学习，并将形式化任务规约推断为概率确定性有限自动机（PDFA）。我们改进现有的证据驱动状态合并算法，并在整个学习过程中融入安全要求，确保学习得到的PDFA始终符合安全约束。此外，我们提出一种多目标响应式综合算法，该算法生成确定性策略，在保证满足PDFA任务的同时，优化用户偏好与机器人成本之间的权衡，从而得到帕累托最优解集。我们的方法将交互建模为机器人与环境之间的双人博弈，以应对动态变化。我们提出一种计算可行的值迭代算法来生成帕累托前沿及相应的确定性策略。综合实验结果表明，我们的算法在不同机器人和任务中均表现出有效性：学习得到的PDFA从不包含不安全行为，且综合生成的策略在满足机器人成本与用户偏好要求的同时，始终能成功完成任务。

0

相关内容

安全约束

《任务线索检测条件约束模型下运用人工智能实现战场感知、准备、建模与影响》

《任务线索检测条件约束模型下运用人工智能实现战场感知、准备、建模与影响》

专知会员服务

26+阅读 · 2月3日

【普林斯顿博士论文】面向人本机器人学的安全与学习博弈论融合

【普林斯顿博士论文】面向人本机器人学的安全与学习博弈论融合

专知会员服务

14+阅读 · 2025年10月25日

《结合机器人行为以实现安全、智能的执行》

《结合机器人行为以实现安全、智能的执行》

专知会员服务

16+阅读 · 2023年7月4日

【普林斯顿博士论文】基于异常检测和泛化理论的可证安全机器人学习控制，278页pdf

【普林斯顿博士论文】基于异常检测和泛化理论的可证安全机器人学习控制，278页pdf

专知会员服务

29+阅读 · 2023年4月23日

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

专知会员服务

41+阅读 · 2023年2月2日

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

专知会员服务

32+阅读 · 2022年9月23日

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

专知会员服务

235+阅读 · 2022年4月10日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

【2020新书】基于人工智能的机器人安全学习和控制，138页pdf

【2020新书】基于人工智能的机器人安全学习和控制，138页pdf

专知会员服务

52+阅读 · 2020年12月12日

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

专知会员服务

16+阅读 · 2019年10月3日

《机器学习技术及其在国防和安全中的应用》加拿大国防部发布（海上探测和监视、对抗ML），76页pdf

《机器学习技术及其在国防和安全中的应用》加拿大国防部发布（海上探测和监视、对抗ML），76页pdf

专知

25+阅读 · 2022年4月1日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

学界 | 多任务学习概述论文：从定义和方法到应用和原理分析

学界 | 多任务学习概述论文：从定义和方法到应用和原理分析

机器之心

12+阅读 · 2018年3月9日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Safely Learning Controlled Stochastic Dynamics

Arxiv

0+阅读 · 2月2日

Flexible Multitask Learning with Factorized Diffusion Policy

Arxiv

0+阅读 · 2月1日

Safe Learning for Contact-Rich Robot Tasks: A Survey from Classical Learning-Based Methods to Safe Foundation Models

Arxiv

0+阅读 · 1月26日

Scaling Rough Terrain Locomotion with Automatic Curriculum Reinforcement Learning

Arxiv

0+阅读 · 1月24日

ConceptACT: Episode-Level Concepts for Sample-Efficient Robotic Imitation Learning

Arxiv

0+阅读 · 1月23日

Reflection-Based Task Adaptation for Self-Improving VLA

Arxiv

0+阅读 · 1月17日

Provably Safe Reinforcement Learning for Stochastic Reach-Avoid Problems with Entropy Regularization

Arxiv

0+阅读 · 1月15日

CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion

Arxiv

0+阅读 · 1月14日

Solving Robotics Tasks with Prior Demonstration via Exploration-Efficient Deep Reinforcement Learning

Arxiv

0+阅读 · 1月8日

Learning with Statistical Equality Constraints

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

确定性策略

相关VIP内容

《任务线索检测条件约束模型下运用人工智能实现战场感知、准备、建模与影响》

《任务线索检测条件约束模型下运用人工智能实现战场感知、准备、建模与影响》

专知会员服务

26+阅读 · 2月3日

【普林斯顿博士论文】面向人本机器人学的安全与学习博弈论融合

【普林斯顿博士论文】面向人本机器人学的安全与学习博弈论融合

专知会员服务

14+阅读 · 2025年10月25日

《结合机器人行为以实现安全、智能的执行》

《结合机器人行为以实现安全、智能的执行》

专知会员服务

16+阅读 · 2023年7月4日

【普林斯顿博士论文】基于异常检测和泛化理论的可证安全机器人学习控制，278页pdf

【普林斯顿博士论文】基于异常检测和泛化理论的可证安全机器人学习控制，278页pdf

专知会员服务

29+阅读 · 2023年4月23日

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

专知会员服务

41+阅读 · 2023年2月2日

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

专知会员服务

32+阅读 · 2022年9月23日

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

专知会员服务

235+阅读 · 2022年4月10日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

【2020新书】基于人工智能的机器人安全学习和控制，138页pdf

【2020新书】基于人工智能的机器人安全学习和控制，138页pdf

专知会员服务

52+阅读 · 2020年12月12日

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

专知会员服务

16+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

《机器学习技术及其在国防和安全中的应用》加拿大国防部发布（海上探测和监视、对抗ML），76页pdf

《机器学习技术及其在国防和安全中的应用》加拿大国防部发布（海上探测和监视、对抗ML），76页pdf

专知

25+阅读 · 2022年4月1日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

学界 | 多任务学习概述论文：从定义和方法到应用和原理分析

学界 | 多任务学习概述论文：从定义和方法到应用和原理分析

机器之心

12+阅读 · 2018年3月9日

相关论文

Safely Learning Controlled Stochastic Dynamics

Arxiv

0+阅读 · 2月2日

Flexible Multitask Learning with Factorized Diffusion Policy

Arxiv

0+阅读 · 2月1日

Safe Learning for Contact-Rich Robot Tasks: A Survey from Classical Learning-Based Methods to Safe Foundation Models

Arxiv

0+阅读 · 1月26日

Scaling Rough Terrain Locomotion with Automatic Curriculum Reinforcement Learning

Arxiv

0+阅读 · 1月24日

ConceptACT: Episode-Level Concepts for Sample-Efficient Robotic Imitation Learning

Arxiv

0+阅读 · 1月23日

Reflection-Based Task Adaptation for Self-Improving VLA

Arxiv

0+阅读 · 1月17日

Provably Safe Reinforcement Learning for Stochastic Reach-Avoid Problems with Entropy Regularization

Arxiv

0+阅读 · 1月15日

CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion

Arxiv

0+阅读 · 1月14日

Solving Robotics Tasks with Prior Demonstration via Exploration-Efficient Deep Reinforcement Learning

Arxiv

0+阅读 · 1月8日

Learning with Statistical Equality Constraints

Arxiv

0+阅读 · 1月6日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员