Multi-view cooperative perception and multimodal fusion are essential for reliable 3D spatiotemporal understanding in autonomous driving, especially under occlusions, limited viewpoints, and communication delays in V2X scenarios. This paper proposes XET-V2X, a multi-modal fused end-to-end tracking framework for v2x collaboration that unifies multi-view multimodal sensing within a shared spatiotemporal representation. To efficiently align heterogeneous viewpoints and modalities, XET-V2X introduces a dual-layer spatial cross-attention module based on multi-scale deformable attention. Multi-view image features are first aggregated to enhance semantic consistency, followed by point cloud fusion guided by the updated spatial queries, enabling effective cross-modal interaction while reducing computational overhead. Experiments on the real-world V2X-Seq-SPD dataset and the simulated V2X-Sim-V2V and V2X-Sim-V2I benchmarks demonstrate consistent improvements in detection and tracking performance under varying communication delays. Both quantitative results and qualitative visualizations indicate that XET-V2X achieves robust and temporally stable perception in complex traffic scenarios.


翻译:多视角协同感知与多模态融合对于自动驾驶中可靠的三维时空理解至关重要,尤其在车路协同场景中面临遮挡、视角受限和通信延迟等挑战。本文提出XET-V2X——一种面向车路协同的多模态融合端到端跟踪框架,将多视角多模态感知统一于共享的时空表征中。为高效对齐异构视角与模态,XET-V2X设计了基于多尺度可变形注意力的双层空间交叉注意力模块。该框架首先聚合多视角图像特征以增强语义一致性,随后通过更新后的空间查询引导点云融合,在实现有效跨模态交互的同时降低计算开销。在真实场景数据集V2X-Seq-SPD以及仿真基准V2X-Sim-V2V和V2X-Sim-V2I上的实验表明,该方法在不同通信延迟条件下均能持续提升检测与跟踪性能。定量结果与定性可视化分析共同证明,XET-V2X在复杂交通场景中实现了鲁棒且时序稳定的感知能力。

0
下载
关闭预览

相关内容

ECCV2020 | SMAP: 单步多人绝对三维姿态估计
学术头条
10+阅读 · 2020年8月9日
赛尔笔记 | 条件变分自编码器(CVAE)
AINLP
28+阅读 · 2019年11月8日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员