Multi-person 3D reconstruction is pivotal for real-world interaction analysis, yet remains challenging due to severe occlusions and depth ambiguity. Current approaches typically rely on single-modality inputs, which inherently lack geometric guidance. Furthermore, these methods often reconstruct subjects in isolation, neglecting the collective group context essential for resolving ambiguities in crowded scenes. To address these limitations, we propose Contrastive Multi-modal Hypergraph Reasoning to synergize semantic, geometric, and pose cues for crowd reconstruction. We first initialize robust node representations by combining RGB features, geometric priors, and occlusion-aware incomplete poses. Additionally, we introduce a pelvis depth indicator as a global spatial anchor, aligning visual features with a metric-scale-agnostic depth ordering. Subsequently, we construct a shared-topology hypergraph that moves beyond pairwise constraints to model higher-order crowd dynamics. To improve feature fusion, we design a hypergraph-based contrastive learning scheme that jointly enhances intra-modal discriminability and enforces cross-modal orthogonality. This mechanism enables the network to propagate global context effectively, allowing it to infer missing information even under severe occlusion. Extensive experiments on the Panoptic and GigaCrowd benchmarks confirm that our method achieves new state-of-the-art performance. Code and pre-trained models are available at https://github.com/SunMH-try/CoMHR.


翻译:多人三维重建对现实交互分析至关重要,但由于严重遮挡和深度模糊仍具有挑战性。当前方法通常依赖单一模态输入,这本质上缺乏几何引导。此外,这些方法往往独立重建个体,忽略了解决拥挤场景歧义所必需的群体上下文信息。为克服这些局限,我们提出对比多模态超图推理方法,协同语义、几何和姿态线索进行人群重建。首先,通过融合RGB特征、几何先验和遮挡感知的不完整姿态,初始化鲁棒的节点表征。同时引入骨盆深度指标作为全局空间锚点,将视觉特征与度量尺度无关的深度排序对齐。随后构建共享拓扑超图,突破成对约束建模高阶人群动态。为改进特征融合,我们设计基于超图的对比学习方案,该方案同步增强模态内可判别性并强制模态间正交性。该机制使网络能有效传播全局上下文,即使在严重遮挡下也能推断缺失信息。在Panoptic和GigaCrowd基准上的大量实验证实,我们的方法达到了新的最优性能。代码与预训练模型已在 https://github.com/SunMH-try/CoMHR 开源。

0
下载
关闭预览

相关内容

深度学习的多视角三维重建技术综述
专知会员服务
23+阅读 · 2025年6月7日
《多模态3D场景理解》最新综述
专知会员服务
192+阅读 · 2023年10月28日
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
深度学习背景下的图像三维重建技术进展综述
专知会员服务
39+阅读 · 2023年9月4日
专知会员服务
34+阅读 · 2021年2月7日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
图像修复研究进展综述
专知
20+阅读 · 2021年3月9日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员