Current 4D representations decouple geometry, motion, and semantics: reconstruction methods discard interpretable motion structure; language-grounded methods attach semantics after motion is learned, blind to how objects move; and motion-aware methods encode dynamics as opaque per-point residuals without object-level organization. We propose 4D Synchronized Fields, a 4D Gaussian representation that learns object-factored motion in-loop during reconstruction and synchronizes language to the resulting kinematics through a per-object conditioned field. Each Gaussian trajectory is decomposed into shared object motion plus an implicit residual, and a kinematic-conditioned ridge map predicts temporal semantic variation, yielding a single representation in which reconstruction, motion, and semantics are structurally coupled and enabling open-vocabulary temporal queries that retrieve both objects and moments. On HyperNeRF, 4D Synchronized Fields achieves 28.52 dB mean PSNR, the highest among all language-grounded and motion-aware baselines, within 1.5 dB of reconstruction-only methods. On targeted temporal-state retrieval, the kinematic-conditioned field attains 0.884 mean accuracy, 0.815 mean vIoU, and 0.733 mean tIoU, surpassing 4D LangSplat (0.620, 0.433, and 0.439 respectively) and LangSplat (0.415, 0.304, and 0.262). Ablation confirms that kinematic conditioning is the primary driver, accounting for +0.45 tIoU over a static-embedding-only baseline. 4D Synchronized Fields is the only method that jointly exposes interpretable motion primitives and temporally grounded language fields from a single trained representation. Code will be released.


翻译:现有四维表示方法将几何、运动与语义解耦:重建方法丢弃可解释的运动结构;语言锚定方法在运动学习后附加语义,无法感知物体运动方式;而运动感知方法将动态编码为不透明的逐点残差,缺乏对象级组织。我们提出四维同步场,这是一种在重建过程中同步学习对象分解运动,并通过逐对象条件场将语言与运动学结果同步的四维高斯表示。每个高斯轨迹被分解为共享对象运动与隐式残差之和,运动学条件脊图预测时序语义变化,从而形成重建、运动与语义结构耦合的单一表示,支持同时检索物体与时刻的开放词汇时序查询。在HyperNeRF数据集上,四维同步场达到28.52 dB平均PSNR,在所有语言锚定与运动感知基线中位列第一,与纯重建方法的差距仅为1.5 dB。在定向时序状态检索任务中,运动学条件场获得0.884平均准确率、0.815平均vIoU与0.733平均tIoU,显著超越4D LangSplat(对应0.620、0.433、0.439)和LangSplat(对应0.415、0.304、0.262)。消融实验证实运动学条件是关键驱动因素,相比静态嵌入基线带来+0.45 tIoU提升。四维同步场是唯一能从单一训练表示中同时提取可解释运动基元与时间锚定语言场的方法。代码即将开源。

0
下载
关闭预览

相关内容

前馈式三维场景建模
专知会员服务
9+阅读 · 4月17日
三维与四维世界建模综述
专知会员服务
30+阅读 · 2025年9月12日
连续表示方法、理论与应用:综述与前瞻
专知会员服务
23+阅读 · 2025年5月28日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
【伯克利博士论文】揭示任何视频背后的四维世界
专知会员服务
26+阅读 · 2024年11月24日
动态三维场景重建研究综述
专知会员服务
35+阅读 · 2024年8月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
超详细干货 | 三维语义分割概述及总结
计算机视觉life
33+阅读 · 2019年3月19日
可视化理解四元数,愿你不再掉头发
计算机视觉life
31+阅读 · 2019年1月2日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
0+阅读 · 26分钟前
多智能体协作机制
专知会员服务
0+阅读 · 30分钟前
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
5+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
8+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
6+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
13+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关VIP内容
前馈式三维场景建模
专知会员服务
9+阅读 · 4月17日
三维与四维世界建模综述
专知会员服务
30+阅读 · 2025年9月12日
连续表示方法、理论与应用:综述与前瞻
专知会员服务
23+阅读 · 2025年5月28日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
【伯克利博士论文】揭示任何视频背后的四维世界
专知会员服务
26+阅读 · 2024年11月24日
动态三维场景重建研究综述
专知会员服务
35+阅读 · 2024年8月23日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员