MM-TRELLIS: Point-Cloud Guided Multi-Modal 3D Vehicle Generation in Autonomous Driving - 专知论文

会员服务 ·

0

3D · MoDELS · LIDAR · 点云 · Guidance ·

MM-TRELLIS: Point-Cloud Guided Multi-Modal 3D Vehicle Generation in Autonomous Driving

翻译：暂无翻译

Hongli Xiao,Youjian Zhang,Yucai Bai,Chaoyue Wang,Yaohui Jin,Xiaoguang Ren,Wenjing Yang,Long Lan

Recovering realistic 3D vehicle models from autonomous driving scenes is crucial for synthesizing training data and building simulation environment. However, most existing vehicle generation methods fail to fully exploit multimodal sensors i.e. multi-view images and LiDAR point clouds) and rely on neural rendering based reconstruction, leading to low-quality mesh. Recently, native 3D generative models have made significant progress, yet they are not built for arbitrary multi-view inputs and often struggle with in-the-wild driving images. In this work, we present MM-TRELLIS, a multi-modal version of TRELLIS for in-the-wild 3D vehicle generation that integrates LiDAR and image sensors from autonomous driving datasets into native 3D generative models. Specifically, multi-view images are cycled as conditioning inputs, while LiDAR point clouds provide test-time guidance to ensure geometric accuracy and cross-view consistency. During denoising, we first align the guidance point cloud with the model priors, then enforce consistency between the generated geometry and the guidance point cloud. Finally, we introduce a voxel filtering strategy based on the opacity of 3D Gaussian Splatting to suppress floaters and produce clean meshes. Comprehensive experiments on Waymo dataset demonstrate our method outperforms existing methods in high-fidelity 3D vehicle generation. Code is available at https://github.com/HongliXiao/MM-TRELLIS.

翻译：暂无翻译

0

相关内容

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

自动驾驶中的3D目标检测研究进展

自动驾驶中的3D目标检测研究进展

专知会员服务

11+阅读 · 2025年7月20日

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

专知会员服务

18+阅读 · 2025年1月20日

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

专知会员服务

17+阅读 · 2025年1月8日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

专知会员服务

34+阅读 · 2022年5月6日

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

专知会员服务

34+阅读 · 2019年12月25日

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

专知会员服务

13+阅读 · 2019年12月18日

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

专知会员服务

33+阅读 · 2019年11月28日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

自动驾驶毫米波雷达物体检测技术-算法

自动驾驶毫米波雷达物体检测技术-算法

CVer

14+阅读 · 2020年5月10日

【泡泡图灵智库】使用语义特征优化全景影像序列与移动激光点云的自动配准

【泡泡图灵智库】使用语义特征优化全景影像序列与移动激光点云的自动配准

泡泡机器人SLAM

10+阅读 · 2019年9月15日

【泡泡点云时空】SqueezeSegV2：改进模型结构和无监督领域自适应的激光雷达点云道路目标分割方法

【泡泡点云时空】SqueezeSegV2：改进模型结构和无监督领域自适应的激光雷达点云道路目标分割方法

泡泡机器人SLAM

11+阅读 · 2019年9月12日

【泡泡图灵智库】基于视觉深度估计的伪激光雷达: 从2D图像到自动驾驶3D目标检测（IROS）

【泡泡图灵智库】基于视觉深度估计的伪激光雷达: 从2D图像到自动驾驶3D目标检测（IROS）

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

自动驾驶系统的皇冠-光电半导体的技术原理和发展趋势｜厚势汽车

自动驾驶系统的皇冠-光电半导体的技术原理和发展趋势｜厚势汽车

厚势

10+阅读 · 2019年4月4日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

【泡泡一分钟】将3D全卷积网络应用于车辆激光点云处理（IROS-11）

【泡泡一分钟】将3D全卷积网络应用于车辆激光点云处理（IROS-11）

泡泡机器人SLAM

13+阅读 · 2018年3月23日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

基于LiDAR数据的非栅格化道路矢量提取及融合高分影像的路网探测与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构单元探测与修复的车载LiDAR数据建筑物立面模型三维重建研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于车载激光点云的城市道路三维精细重建

国家自然科学基金

0+阅读 · 2015年12月31日

基于3D稀疏表示的多模态神经导航关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

无人机自主导航中LiDAR点云与图像特征提取与配准方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

压电智能作动器的高保真完整非线性动力学建模和高精度多通道运动协同同步控制系统一体化优化设计

国家自然科学基金

0+阅读 · 2014年12月31日

3DCarGen: Scalable 3D Car Generation via 3D-consistent Multi-view Synthesis

Arxiv

0+阅读 · 6月23日

Vec-QMDP: Vectorized POMDP Planning on CPUs for Real-Time Autonomous Driving

Arxiv

0+阅读 · 6月20日

TriLift: Interpolation-Free Tri-Plane Lifting for Efficient 3D Perception on Embedded Systems

Arxiv

0+阅读 · 6月19日

SIMSplat: Language-Aligned 4D Gaussian Splatting for Driving Scenario Generation

Arxiv

0+阅读 · 6月18日

Pixel-Level Residual Diffusion Transformer: Scalable 3D CT Volume Generation

Arxiv

0+阅读 · 6月18日

FrozenDrive: Zero-Shot Text-Guided Driving Scene Generation and Data Augmentation with Parameter-Free Frozen Diffusion Model

Arxiv

0+阅读 · 6月18日

A Differentiable Composite Approximation Framework for Autonomous Underwater Vehicle Maneuvering Modeling from Sea-Trial Data

Arxiv

0+阅读 · 6月18日

Self-Supervised Relevance Modelling in Autonomous Driving via Counterfactual Analysis

Arxiv

0+阅读 · 6月17日

Zero-Shot Cross-City Generalization in End-to-End Autonomous Driving: Self-Supervised versus Supervised Representations

Arxiv

0+阅读 · 6月16日

Platooning Connected, Autonomous, and Human-Driven Vehicles: A Deep Reinforcement Learning-based Approach

Arxiv

0+阅读 · 6月7日

VIP会员

文章信息

相关主题

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

3+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

2+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

8+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

6+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

5+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

5+阅读 · 6月24日

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

6+阅读 · 6月24日

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

5+阅读 · 6月24日

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

7+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

6+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

9+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

8+阅读 · 6月23日

相关VIP内容

自动驾驶中的3D目标检测研究进展

自动驾驶中的3D目标检测研究进展

专知会员服务

11+阅读 · 2025年7月20日

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

专知会员服务

18+阅读 · 2025年1月20日

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

专知会员服务

17+阅读 · 2025年1月8日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

专知会员服务

34+阅读 · 2022年5月6日

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

专知会员服务

34+阅读 · 2019年12月25日

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

专知会员服务

13+阅读 · 2019年12月18日

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

专知会员服务

33+阅读 · 2019年11月28日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

自动驾驶毫米波雷达物体检测技术-算法

自动驾驶毫米波雷达物体检测技术-算法

CVer

14+阅读 · 2020年5月10日

【泡泡图灵智库】使用语义特征优化全景影像序列与移动激光点云的自动配准

【泡泡图灵智库】使用语义特征优化全景影像序列与移动激光点云的自动配准

泡泡机器人SLAM

10+阅读 · 2019年9月15日

【泡泡点云时空】SqueezeSegV2：改进模型结构和无监督领域自适应的激光雷达点云道路目标分割方法

【泡泡点云时空】SqueezeSegV2：改进模型结构和无监督领域自适应的激光雷达点云道路目标分割方法

泡泡机器人SLAM

11+阅读 · 2019年9月12日

【泡泡图灵智库】基于视觉深度估计的伪激光雷达: 从2D图像到自动驾驶3D目标检测（IROS）

【泡泡图灵智库】基于视觉深度估计的伪激光雷达: 从2D图像到自动驾驶3D目标检测（IROS）

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

自动驾驶系统的皇冠-光电半导体的技术原理和发展趋势｜厚势汽车

自动驾驶系统的皇冠-光电半导体的技术原理和发展趋势｜厚势汽车

厚势

10+阅读 · 2019年4月4日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

【泡泡一分钟】将3D全卷积网络应用于车辆激光点云处理（IROS-11）

【泡泡一分钟】将3D全卷积网络应用于车辆激光点云处理（IROS-11）

泡泡机器人SLAM

13+阅读 · 2018年3月23日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

相关论文

3DCarGen: Scalable 3D Car Generation via 3D-consistent Multi-view Synthesis

Arxiv

0+阅读 · 6月23日

Vec-QMDP: Vectorized POMDP Planning on CPUs for Real-Time Autonomous Driving

Arxiv

0+阅读 · 6月20日

TriLift: Interpolation-Free Tri-Plane Lifting for Efficient 3D Perception on Embedded Systems

Arxiv

0+阅读 · 6月19日

SIMSplat: Language-Aligned 4D Gaussian Splatting for Driving Scenario Generation

Arxiv

0+阅读 · 6月18日

Pixel-Level Residual Diffusion Transformer: Scalable 3D CT Volume Generation

Arxiv

0+阅读 · 6月18日

FrozenDrive: Zero-Shot Text-Guided Driving Scene Generation and Data Augmentation with Parameter-Free Frozen Diffusion Model

Arxiv

0+阅读 · 6月18日

A Differentiable Composite Approximation Framework for Autonomous Underwater Vehicle Maneuvering Modeling from Sea-Trial Data

Arxiv

0+阅读 · 6月18日

Self-Supervised Relevance Modelling in Autonomous Driving via Counterfactual Analysis

Arxiv

0+阅读 · 6月17日

Zero-Shot Cross-City Generalization in End-to-End Autonomous Driving: Self-Supervised versus Supervised Representations

Arxiv

0+阅读 · 6月16日

Platooning Connected, Autonomous, and Human-Driven Vehicles: A Deep Reinforcement Learning-based Approach

Arxiv

0+阅读 · 6月7日

相关基金

基于LiDAR数据的非栅格化道路矢量提取及融合高分影像的路网探测与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构单元探测与修复的车载LiDAR数据建筑物立面模型三维重建研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于车载激光点云的城市道路三维精细重建

国家自然科学基金

0+阅读 · 2015年12月31日

基于3D稀疏表示的多模态神经导航关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

无人机自主导航中LiDAR点云与图像特征提取与配准方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

压电智能作动器的高保真完整非线性动力学建模和高精度多通道运动协同同步控制系统一体化优化设计

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员