Helix4D: Complex 4D Mesh Generation - 专知论文

会员服务 ·

0

Attention · INFORMS · CASES · 3D · MoDELS ·

Helix4D: Complex 4D Mesh Generation

翻译：Helix4D：复杂四维网格生成

Jiraphon Yenphraphai,Jianqi Chen,Jian Wang,Gordon Qian,Sergey Tulyakov,Rameen Abdal,Raymond A. Yeh,Peter Wonka,Chaoyang Wang

from arxiv, Project page: https://snap-research.github.io/helix4d/

Current video-to-4D methods struggle with complex topology changes, transparent materials, thin structures, and inner surfaces. We present Helix4D, a dynamic mesh generation framework by inheriting the expressive representation of Trellis2, adapting it from image-to-3D to video-conditioned 4D generation. Our design arises from two key questions: (a) how to enable Trellis2's frame-local attention to share information across frames while preserving its pretrained quality on rare cases such as transparent objects and inner surfaces, and (b) how to inject temporal information into a purely 3D positional encoding without breaking pretrained capabilities. We address (a) with a sliding-window cross-frame attention and anchor on the first frame. The first frame is generated by the base Trellis2 model and injected into our model, letting it inherit Trellis2's quality in rare cases through cross-frame attention. We address (b) with a 4D temporal encoding that repurposes redundant low-frequency spatial RoPE bands for time, extending the encoding from 3D with no additional parameters. Extensive experiments show the effectiveness of Helix4D for high-quality dynamic mesh generation on ActionBench and our own challenging complex dynamics set.

翻译：当前视频到四维（视频转4D）方法在处理复杂拓扑变化、透明材料、薄壁结构及内表面时面临挑战。我们提出Helix4D——一种动态网格生成框架，通过继承Trellis2的表达性表征，将其从图像到三维（图像转3D）的生成能力拓展至视频条件驱动的四维（4D）生成。本设计源于两个关键问题：(a)如何在保留Trellis2在透明物体、内表面等稀有案例中预训练质量的前提下，使其帧局部注意力能够跨帧共享信息；(b)如何在不破坏预训练能力的情况下，将时序信息注入纯三维位置编码。针对问题(a)，我们采用滑动窗口跨帧注意力机制，并以首帧为锚点。首帧由基础Trellis2模型生成并注入框架，通过跨帧注意力继承其对稀有案例的生成质量。针对问题(b)，我们提出四维时序编码，重新利用冗余的低频空间RoPE频带表征时间维度，在无需额外参数情况下将编码从三维扩展至四维。大量实验表明，Helix4D在ActionBench及自建复杂动态数据集上实现了高质量动态网格生成的有效性。

0

相关内容

Attention

综述：生成式通信，面向6G的可控生成新范式

综述：生成式通信，面向6G的可控生成新范式

专知会员服务

11+阅读 · 7月13日

【NeurIPS2025】Instant4D：高效的4D高斯喷溅方法

【NeurIPS2025】Instant4D：高效的4D高斯喷溅方法

专知会员服务

7+阅读 · 2025年10月2日

4D生成技术的进展：研究综述

4D生成技术的进展：研究综述

专知会员服务

24+阅读 · 2025年3月19日

【伯克利博士论文】揭示任何视频背后的四维世界

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

26+阅读 · 2024年11月24日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

【SIGIR2022】Space4HGNN:一种新型、模块化和可复制的异构图神经网络评估平台

【SIGIR2022】Space4HGNN:一种新型、模块化和可复制的异构图神经网络评估平台

专知会员服务

12+阅读 · 2022年4月3日

图像增强领域大突破！以1.66ms的速度处理4K图像，港理工提出图像自适应的3DLUT

专知会员服务

18+阅读 · 2020年9月25日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

Deeplearning4j 快速入门

Deeplearning4j 快速入门

人工智能头条

14+阅读 · 2018年12月24日

【pix4D篇】——Pix4D软件介绍

【pix4D篇】——Pix4D软件介绍

无人机

18+阅读 · 2018年8月1日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

Deeplearning4j的介绍与实例分享 | 公开课

Deeplearning4j的介绍与实例分享 | 公开课

AI研习社

14+阅读 · 2017年11月27日

面向图像网状结构体的蚁群分割算法

国家自然科学基金

0+阅读 · 2017年12月31日

基于加速网的光电混合三维互连架构设计方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

斜模式高光谱成像的超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

3D多孔结构LiMnPO4•LiVPO4F@石墨烯气凝胶复合物材料的构筑及电化学性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

四步法三维编织复合材料弯曲疲劳失效多尺度损伤模型

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

TextMesh4D: Zero-shot Text-to-4D Mesh Generation

Arxiv

0+阅读 · 6月16日

Advances in 4D Representation: Geometry, Motion, and Interaction

Arxiv

0+阅读 · 6月15日

SceneConductor: 3D Scene Generation from a Single Image with Multi-Agent Orchestration

Arxiv

0+阅读 · 6月13日

Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction

Arxiv

0+阅读 · 6月11日

TextHOI-3D: Text-to-3D Hand-Object Interaction via Discrete Multi-View Generation and Joint Mesh Optimization

Arxiv

0+阅读 · 6月10日

QuadLink: Autoregressive Quad-Dominant Mesh Generation via Point-Relation Learning

Arxiv

0+阅读 · 6月2日

QuadLink: Autoregressive Quad-Dominant Mesh Generation via Point-Relation Learning

Arxiv

0+阅读 · 5月16日

Syn4D: A Multiview Synthetic 4D Dataset

Arxiv

0+阅读 · 5月6日

4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

Arxiv

0+阅读 · 5月5日

Seed3D 2.0: Advancing High-Fidelity Simulation-Ready 3D Content Generation

Arxiv

0+阅读 · 4月22日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

综述：生成式通信，面向6G的可控生成新范式

综述：生成式通信，面向6G的可控生成新范式

专知会员服务

11+阅读 · 7月13日

【NeurIPS2025】Instant4D：高效的4D高斯喷溅方法

【NeurIPS2025】Instant4D：高效的4D高斯喷溅方法

专知会员服务

7+阅读 · 2025年10月2日

4D生成技术的进展：研究综述

4D生成技术的进展：研究综述

专知会员服务

24+阅读 · 2025年3月19日

【伯克利博士论文】揭示任何视频背后的四维世界

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

26+阅读 · 2024年11月24日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

【SIGIR2022】Space4HGNN:一种新型、模块化和可复制的异构图神经网络评估平台

【SIGIR2022】Space4HGNN:一种新型、模块化和可复制的异构图神经网络评估平台

专知会员服务

12+阅读 · 2022年4月3日

图像增强领域大突破！以1.66ms的速度处理4K图像，港理工提出图像自适应的3DLUT

专知会员服务

18+阅读 · 2020年9月25日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

Deeplearning4j 快速入门

Deeplearning4j 快速入门

人工智能头条

14+阅读 · 2018年12月24日

【pix4D篇】——Pix4D软件介绍

【pix4D篇】——Pix4D软件介绍

无人机

18+阅读 · 2018年8月1日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

Deeplearning4j的介绍与实例分享 | 公开课

Deeplearning4j的介绍与实例分享 | 公开课

AI研习社

14+阅读 · 2017年11月27日

相关论文

TextMesh4D: Zero-shot Text-to-4D Mesh Generation

Arxiv

0+阅读 · 6月16日

Advances in 4D Representation: Geometry, Motion, and Interaction

Arxiv

0+阅读 · 6月15日

SceneConductor: 3D Scene Generation from a Single Image with Multi-Agent Orchestration

Arxiv

0+阅读 · 6月13日

Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction

Arxiv

0+阅读 · 6月11日

TextHOI-3D: Text-to-3D Hand-Object Interaction via Discrete Multi-View Generation and Joint Mesh Optimization

Arxiv

0+阅读 · 6月10日

QuadLink: Autoregressive Quad-Dominant Mesh Generation via Point-Relation Learning

Arxiv

0+阅读 · 6月2日

QuadLink: Autoregressive Quad-Dominant Mesh Generation via Point-Relation Learning

Arxiv

0+阅读 · 5月16日

Syn4D: A Multiview Synthetic 4D Dataset

Arxiv

0+阅读 · 5月6日

4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

Arxiv

0+阅读 · 5月5日

Seed3D 2.0: Advancing High-Fidelity Simulation-Ready 3D Content Generation

Arxiv

0+阅读 · 4月22日

相关基金

面向图像网状结构体的蚁群分割算法

国家自然科学基金

0+阅读 · 2017年12月31日

基于加速网的光电混合三维互连架构设计方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

斜模式高光谱成像的超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

3D多孔结构LiMnPO4•LiVPO4F@石墨烯气凝胶复合物材料的构筑及电化学性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

四步法三维编织复合材料弯曲疲劳失效多尺度损伤模型

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员