In modern human-robot collaboration (HRC) applications, multiple perception modules jointly extract visual, auditory, and contextual cues to achieve comprehensive scene understanding, enabling the robot to provide appropriate assistance to human agents intelligently. While executing multiple perception modules on a frame-by-frame basis enhances perception quality in offline settings, it inevitably accumulates latency, leading to a substantial decline in system performance in streaming perception scenarios. Recent work in scene understanding, termed Relevance, has established a solid foundation for developing efficient methodologies in HRC. However, modern perception pipelines still face challenges related to information redundancy and suboptimal allocation of computational resources. Drawing inspiration from the Relevance concept and the information sparsity in HRC events, we propose a novel lightweight perception scheduling framework that efficiently leverages output from previous frames to estimate and schedule necessary perception modules in real-time based on scene context. The experimental results demonstrate that the proposed perception scheduling framework effectively reduces computational latency by up to 27.52% compared to conventional parallel perception pipelines, while also achieving a 72.73% improvement in MMPose activation recall. Additionally, the framework demonstrates high keyframe accuracy, achieving rates of up to 98%. The results validate the framework's capability to enhance real-time perception efficiency without significantly compromising accuracy. The framework shows potential as a scalable and systematic solution for multimodal streaming perception systems in HRC.


翻译:在现代人机协作应用中,多个感知模块协同提取视觉、听觉及上下文线索,以实现全面的场景理解,使机器人能够智能地为人类智能体提供适切协助。尽管在离线场景中逐帧执行多个感知模块可提升感知质量,但这不可避免地会累积延迟,导致流式感知场景下的系统性能显著下降。近期在场景理解领域提出的"相关性"概念,为人机协作中高效方法的发展奠定了坚实基础。然而,现代感知流程仍面临信息冗余与计算资源分配欠优的挑战。受相关性概念及人机协作事件中信息稀疏性的启发,我们提出一种新颖的轻量级感知调度框架,该框架能有效利用先前帧的输出,根据场景上下文实时估计并调度必要的感知模块。实验结果表明,与传统并行感知流程相比,所提出的感知调度框架将计算延迟有效降低了最高达27.52%,同时实现了MMPose激活召回率72.73%的提升。此外,该框架展现出较高的关键帧准确率,最高可达98%。这些结果验证了该框架能够在不过度牺牲准确性的前提下,有效提升实时感知效率。该框架有望成为人机协作中多模态流式感知系统的可扩展系统性解决方案。

0
下载
关闭预览

相关内容

中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
19+阅读 · 2025年5月8日
基于人机智能融合技术的态势感知应用研究
专知会员服务
95+阅读 · 2024年2月11日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
多模态预训练模型简述
专知会员服务
115+阅读 · 2021年4月27日
数据驱动的态势认知技术及发展思考
专知
18+阅读 · 2022年7月12日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员