ALAS: Adaptive Long-Horizon Action Synthesis via Async-pathway Stream Disentanglement - 专知论文

会员服务 ·

0

路径 · 自适应 · 合成 · 运动模式 · 交互 ·

ALAS: Adaptive Long-Horizon Action Synthesis via Async-pathway Stream Disentanglement

翻译：ALAS：基于异步路径流解缠的自适应长视域动作合成

Yutong Shen,Hangxu Liu,Lei Zhang,Penghui Liu,Yinqi Liu,Liuxiang Yang,Tongtong Feng

from arxiv, 10 pages, 7 figures. arXiv admin note: substantial text overlap with arXiv:2508.07842

Long-Horizon (LH) tasks in Human-Scene Interaction (HSI) are complex multi-step tasks that require continuous planning, sequential decision-making, and extended execution across domains to achieve the final goal. However, existing methods heavily rely on skill chaining by concatenating pre-trained subtasks, with environment observations and self-state tightly coupled, lacking the ability to generalize to new combinations of environments and skills, failing to complete various LH tasks across domains. To solve this problem, this paper presents ALAS, a cross-domain learning framework for LH tasks via biologically inspired dual-stream disentanglement. Inspired by the brain's "where-what" dual pathway mechanism, ALAS comprises two core modules: i) an environment learning module for spatial understanding, which captures object functions, spatial relationships, and scene semantics, achieving cross-domain transfer through complete environment-self disentanglement; ii) a skill learning module for task execution, which processes self-state information including joint degrees of freedom and motor patterns, enabling cross-skill transfer through independent motor pattern encoding. We conducted extensive experiments on various LH tasks in HSI scenes. Compared with existing methods, ALAS can achieve an average subtasks success rate improvement of 23\% and average execution efficiency improvement of 29\%.

翻译：长视域（Long-Horizon, LH）任务是人-场景交互（Human-Scene Interaction, HSI）中复杂的多步骤任务，需要跨领域的持续规划、顺序决策和扩展执行以实现最终目标。然而，现有方法严重依赖通过拼接预训练子任务进行技能链式组合，且环境观测与自身状态紧密耦合，缺乏对环境和技能新组合的泛化能力，无法完成跨领域的多种LH任务。为解决该问题，本文提出ALAS——一种基于生物启发的双流解缠跨领域LH任务学习框架。受大脑"何处-何物"（where-what）双路径机制启发，ALAS包含两个核心模块：i）用于空间理解的环境学习模块，捕捉物体功能、空间关系和场景语义，通过完整的环境-自身解缠实现跨领域迁移；ii）用于任务执行的技能学习模块，处理包括关节自由度和运动模式在内的自身状态信息，通过独立的运动模式编码实现跨技能迁移。我们在HSI场景的多种LH任务上进行了广泛实验。与现有方法相比，ALAS的子任务平均成功率提升23%，平均执行效率提升29%。

0

相关内容

遥感中基于深度学习的领域自适应方法：全面综述

遥感中基于深度学习的领域自适应方法：全面综述

专知会员服务

19+阅读 · 2025年10月20日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

北航团队提出SIDM：基于结构信息原理的通用分层决策框架

北航团队提出SIDM：基于结构信息原理的通用分层决策框架

专知会员服务

19+阅读 · 2025年5月14日

【CVPR2024】Koala: 关键帧条件化长视频语言模型

【CVPR2024】Koala: 关键帧条件化长视频语言模型

专知会员服务

13+阅读 · 2024年4月21日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

《可解释人工智能在多域作战中的智能增强》【译文】美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》【译文】美国陆军、IBM、卡迪夫大学等论文

专知会员服务

128+阅读 · 2022年11月1日

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

专知会员服务

63+阅读 · 2020年7月12日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【斯坦福大学】具有共同注意力的对抗性跨域动作识别（Adversarial Cross-Domain Action Recognition with Co-Attention）

【斯坦福大学】具有共同注意力的对抗性跨域动作识别（Adversarial Cross-Domain Action Recognition with Co-Attention）

专知会员服务

38+阅读 · 2019年12月26日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

AI综述专栏 | 跨领域推荐系统文献综述（上）

AI综述专栏 | 跨领域推荐系统文献综述（上）

人工智能前沿讲习班

13+阅读 · 2018年5月16日

基于地形辅助的深海长航时ARV自主导航技术研究

国家自然科学基金

15+阅读 · 2017年12月31日

一些流体力学方程的长时间动力学行为

国家自然科学基金

0+阅读 · 2017年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

复杂构型下多介质流体力学ALE方法

国家自然科学基金

0+阅读 · 2014年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于合作博弈的互联网域间多路径路由关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Long-Horizon Manipulation via Trace-Conditioned VLA Planning

Arxiv

0+阅读 · 4月23日

Hierarchical DLO Routing with Reinforcement Learning and In-Context Vision-language Models

Arxiv

0+阅读 · 4月15日

Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection

Arxiv

0+阅读 · 4月15日

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

Arxiv

0+阅读 · 4月13日

StreamingVLA: Streaming Vision-Language-Action Model with Action Flow Matching and Adaptive Early Observation

Arxiv

0+阅读 · 3月30日

STRIDE: When to Speak Meets Sequence Denoising for Streaming Video Understanding

Arxiv

0+阅读 · 3月29日

Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search

Arxiv

0+阅读 · 3月24日

SaFRO: Satisfaction-Aware Fusion via Dual-Relative Policy Optimization for Short-Video Search

Arxiv

0+阅读 · 3月20日

Interconnect-Aware Logic Resynthesis for Multi-Die FPGAs

Arxiv

0+阅读 · 3月13日

LongStream: Long-Sequence Streaming Autoregressive Visual Geometry

Arxiv

0+阅读 · 3月13日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

4+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

2+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

2+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

3+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

4+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

3+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

遥感中基于深度学习的领域自适应方法：全面综述

遥感中基于深度学习的领域自适应方法：全面综述

专知会员服务

19+阅读 · 2025年10月20日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

北航团队提出SIDM：基于结构信息原理的通用分层决策框架

北航团队提出SIDM：基于结构信息原理的通用分层决策框架

专知会员服务

19+阅读 · 2025年5月14日

【CVPR2024】Koala: 关键帧条件化长视频语言模型

【CVPR2024】Koala: 关键帧条件化长视频语言模型

专知会员服务

13+阅读 · 2024年4月21日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

《可解释人工智能在多域作战中的智能增强》【译文】美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》【译文】美国陆军、IBM、卡迪夫大学等论文

专知会员服务

128+阅读 · 2022年11月1日

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

专知会员服务

63+阅读 · 2020年7月12日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【斯坦福大学】具有共同注意力的对抗性跨域动作识别（Adversarial Cross-Domain Action Recognition with Co-Attention）

【斯坦福大学】具有共同注意力的对抗性跨域动作识别（Adversarial Cross-Domain Action Recognition with Co-Attention）

专知会员服务

38+阅读 · 2019年12月26日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

AI综述专栏 | 跨领域推荐系统文献综述（上）

AI综述专栏 | 跨领域推荐系统文献综述（上）

人工智能前沿讲习班

13+阅读 · 2018年5月16日

相关论文

Long-Horizon Manipulation via Trace-Conditioned VLA Planning

Arxiv

0+阅读 · 4月23日

Hierarchical DLO Routing with Reinforcement Learning and In-Context Vision-language Models

Arxiv

0+阅读 · 4月15日

Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection

Arxiv

0+阅读 · 4月15日

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

Arxiv

0+阅读 · 4月13日

StreamingVLA: Streaming Vision-Language-Action Model with Action Flow Matching and Adaptive Early Observation

Arxiv

0+阅读 · 3月30日

STRIDE: When to Speak Meets Sequence Denoising for Streaming Video Understanding

Arxiv

0+阅读 · 3月29日

Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search

Arxiv

0+阅读 · 3月24日

SaFRO: Satisfaction-Aware Fusion via Dual-Relative Policy Optimization for Short-Video Search

Arxiv

0+阅读 · 3月20日

Interconnect-Aware Logic Resynthesis for Multi-Die FPGAs

Arxiv

0+阅读 · 3月13日

LongStream: Long-Sequence Streaming Autoregressive Visual Geometry

Arxiv

0+阅读 · 3月13日

相关基金

基于地形辅助的深海长航时ARV自主导航技术研究

国家自然科学基金

15+阅读 · 2017年12月31日

一些流体力学方程的长时间动力学行为

国家自然科学基金

0+阅读 · 2017年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

复杂构型下多介质流体力学ALE方法

国家自然科学基金

0+阅读 · 2014年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于合作博弈的互联网域间多路径路由关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员