Human affordance learning investigates contextually relevant novel pose prediction such that the estimated pose represents a valid human action within the scene. While the task is fundamental to machine perception and automated interactive navigation agents, the exponentially large number of probable pose and action variations make the problem challenging and non-trivial. However, the existing datasets and methods for human affordance prediction in 2D scenes are significantly limited in the literature. In this paper, we propose a novel cross-attention mechanism to encode the scene context for affordance prediction by mutually attending spatial feature maps from two different modalities. The proposed method is disentangled among individual subtasks to efficiently reduce the problem complexity. First, we sample a probable location for a person within the scene using a variational autoencoder (VAE) conditioned on the global scene context encoding. Next, we predict a potential pose template from a set of existing human pose candidates using a classifier on the local context encoding around the predicted location. In the subsequent steps, we use two VAEs to sample the scale and deformation parameters for the predicted pose template by conditioning on the local context and template class. Our experiments show significant improvements over the previous baseline of human affordance injection into complex 2D scenes.


翻译:人体功能学习研究上下文相关的创新姿态预测,使得估计姿态能表示场景中有效的人体动作。虽然该任务对机器感知和自主交互导航代理至关重要,但可能的姿态与动作变体数量呈指数级增长,使得该问题具有挑战性且非平凡。然而,现有文献中针对二维场景下的人体功能预测数据集和方法极为有限。本文提出一种新颖的跨注意力机制,通过相互关注来自两种不同模态的空间特征图,对场景上下文进行编码以实现功能预测。该机制将任务解耦为多个子任务,有效降低了问题复杂度。首先,我们利用全局场景上下文编码条件变分自编码器(VAE)对场景中可能的人体位置进行采样;其次,根据预测位置周围的局部上下文编码,通过分类器从现有候选人体姿态集合中预测潜在姿态模板;后续步骤中,我们通过条件化局部上下文和模板类别的两个变分自编码器,对预测姿态模板的尺度与形变参数进行采样。实验表明,该方法相较于先前将人体功能注入复杂二维场景的基线方法取得了显著改进。

0
下载
关闭预览

相关内容

【CMU博士论文】交互驱动的人体动作估计与生成
专知会员服务
18+阅读 · 2025年9月17日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
基于人机智能融合技术的态势感知应用研究
专知会员服务
96+阅读 · 2024年2月11日
最新《深度学习人体姿态估计》综述论文,26页pdf
专知会员服务
40+阅读 · 2020年12月29日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
深度学习人体姿态估计算法综述
AI前线
25+阅读 · 2019年5月19日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 21分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 38分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
【CMU博士论文】交互驱动的人体动作估计与生成
专知会员服务
18+阅读 · 2025年9月17日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
基于人机智能融合技术的态势感知应用研究
专知会员服务
96+阅读 · 2024年2月11日
最新《深度学习人体姿态估计》综述论文,26页pdf
专知会员服务
40+阅读 · 2020年12月29日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员