High-quality articulated 3D assets are indispensable for embodied AI and physical simulation, yet 3D generation still focuses on static meshes, leaving a gap in "sim-ready" interactive objects. Most recent articulated object creation methods rely on multi-stage pipelines that accumulate errors across decoupled modules. Alternatively, unified MLLMs offer a single-stage path to joint static asset understanding and sim-ready asset generation. However dense voxel-based 3D tokenization yields long 3D token sequences and high memory overhead, limiting scalability to complex articulated objects. To address this, we propose SIMART, a unified MLLM framework that jointly performs part-level decomposition and kinematic prediction. By introducing a Sparse 3D VQ-VAE, SIMART reduces token counts by 70% vs. dense voxel tokens, enabling high-fidelity multi-part assemblies. SIMART achieves state-of-the-art performance on PartNet-Mobility and in-the-wild AIGC datasets, and enables physics-based robotic simulation.


翻译:高质量的可关节化3D资产是具身人工智能与物理仿真中不可或缺的要素,然而当前的3D生成技术仍以静态网格为主,导致"可仿真"交互式物体存在空白。现有大多数关节化物体创建方法依赖多阶段流水线,此类方法会在解耦模块间累积误差。与之相对,统一的多模态大语言模型(MLLM)提供了单步路径,可同时实现静态资产理解与可仿真资产生成。然而基于稠密体素的3D分词化方案会产生过长的3D词元序列与高昂的内存开销,制约了向复杂关节化物体的可扩展性。为此,我们提出SIMART——一种联合执行部件级分解与运动学预测的统一MLLM框架。通过引入稀疏3D VQ-VAE,SIMART相比稠密体素词元将词元数量降低70%,从而支持高保真多部件装配。在PartNet-Mobility及野生AIGC数据集上,SIMART取得了最优性能,并实现了基于物理的机器人仿真。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
【NTU博士论文】多模态神经三维资产合成
专知会员服务
9+阅读 · 2025年9月30日
多模态大型语言模型:综述
专知会员服务
47+阅读 · 2025年6月14日
浅谈多模态大模型幻觉缓解方法
专知会员服务
24+阅读 · 2024年12月17日
迈向可解释和可理解的多模态大规模语言模型
专知会员服务
41+阅读 · 2024年12月7日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
《多模态大型语言模型进化》最新综述
专知会员服务
105+阅读 · 2024年2月23日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
【NTU博士论文】多模态神经三维资产合成
专知会员服务
9+阅读 · 2025年9月30日
多模态大型语言模型:综述
专知会员服务
47+阅读 · 2025年6月14日
浅谈多模态大模型幻觉缓解方法
专知会员服务
24+阅读 · 2024年12月17日
迈向可解释和可理解的多模态大规模语言模型
专知会员服务
41+阅读 · 2024年12月7日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
《多模态大型语言模型进化》最新综述
专知会员服务
105+阅读 · 2024年2月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员