Decoupling Dynamic Monocular Videos for Dynamic View Synthesis - 专知论文

会员服务 ·

0

耦合 · 合成 · 预处理 · 一致 · 解耦 ·

2023 年 4 月 4 日

Decoupling Dynamic Monocular Videos for Dynamic View Synthesis

翻译：解耦动态单目视频用于动态视角合成

Meng You,Junhui Hou

The challenge of dynamic view synthesis from dynamic monocular videos, i.e., synthesizing novel views for free viewpoints given a monocular video of a dynamic scene captured by a moving camera, mainly lies in accurately modeling the dynamic objects of a scene using limited 2D frames, each with a varying timestamp and viewpoint. Existing methods usually require pre-processed 2D optical flow and depth maps by additional methods to supervise the network, making them suffer from the inaccuracy of the pre-processed supervision and the ambiguity when lifting the 2D information to 3D. In this paper, we tackle this challenge in an unsupervised fashion. Specifically, we decouple the motion of the dynamic objects into object motion and camera motion, respectively regularized by proposed unsupervised surface consistency and patch-based multi-view constraints. The former enforces the 3D geometric surfaces of moving objects to be consistent over time, while the latter regularizes their appearances to be consistent across different viewpoints. Such a fine-grained motion formulation can alleviate the learning difficulty for the network, thus enabling it to produce not only novel views with higher quality but also more accurate scene flows and depth than existing methods requiring extra supervision. We will make the code publicly available.

翻译：从动态单目视频中合成动态视角（即给定由移动相机拍摄的动态场景单目视频，为自由视点合成新视角）的挑战主要在于：利用有限的二维帧（每帧具有不同的时间戳和视角）精确建模场景中的动态物体。现有方法通常需要借助额外方法预处理二维光流和深度图来监督网络，导致其受到预处理监督的不准确性以及将二维信息提升至三维时的歧义性问题。本文以无监督方式应对这一挑战。具体而言，我们将动态物体的运动解耦为物体运动和相机运动，分别通过提出的无监督表面一致性和基于块的多视角约束进行正则化。前者强制运动物体的三维几何表面随时间保持一致，后者则将其外观在不同视角间保持一致性。这种细粒度的运动建模可降低网络的学习难度，使其不仅能生成更高质量的新视角，还能产生比依赖额外监督的现有方法更准确的场景流与深度。我们将公开代码。

0

相关内容

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

专知会员服务

17+阅读 · 2023年1月23日

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

专知会员服务

25+阅读 · 2022年3月3日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

16+阅读 · 2022年3月3日

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

专知会员服务

18+阅读 · 2021年5月3日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

【泡泡一分钟】用于视角可变重定位的语义地图构建

【泡泡一分钟】用于视角可变重定位的语义地图构建

泡泡机器人SLAM

19+阅读 · 2019年10月21日

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

泡泡机器人SLAM

14+阅读 · 2019年1月9日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

泡泡机器人SLAM

29+阅读 · 2018年10月28日

【泡泡一分钟】动态环境下稳健的单目SLAM

【泡泡一分钟】动态环境下稳健的单目SLAM

泡泡机器人SLAM

13+阅读 · 2018年3月22日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

基于深度图融合的大场景多视图立体重建研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于射频谱和二维相位图及控制平面协同的动态光网络跨层光性能监测

国家自然科学基金

0+阅读 · 2014年12月31日

基于全向深度视觉的高精度人体肢体运动三维重建研究

国家自然科学基金

0+阅读 · 2014年12月31日

含旋轨耦合的双电离和双电子亲和运动方程耦合簇方法

国家自然科学基金

0+阅读 · 2014年12月31日

多臂两亲性嵌合肽的设计、合成及基因/药物共传递

国家自然科学基金

0+阅读 · 2013年12月31日

基于单张低精度深度图的实时精确三维曲面重建

国家自然科学基金

0+阅读 · 2012年12月31日

新型螯合性表面活性剂淋洗修复重金属-有机物复合污染土壤的作用机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于边缘点的折反射图像立体匹配与三维重建研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于张量表示的全动态场景全局光照实时计算方法

国家自然科学基金

0+阅读 · 2009年12月31日

基于运动视觉的织物动态特性研究

国家自然科学基金

0+阅读 · 2008年12月31日

RC-BEVFusion: A Plug-In Module for Radar-Camera Bird's Eye View Feature Fusion

Arxiv

0+阅读 · 2023年5月25日

Confronting Ambiguity in 6D Object Pose Estimation via Score-Based Diffusion on SE(3)

Arxiv

0+阅读 · 2023年5月25日

Topic-Guided Self-Introduction Generation for Social Media Users

Arxiv

0+阅读 · 2023年5月24日

REC-MV: REconstructing 3D Dynamic Cloth from Monocular Videos

Arxiv

0+阅读 · 2023年5月23日

NeRFVS: Neural Radiance Fields for Free View Synthesis via Geometry Scaffolds

Arxiv

0+阅读 · 2023年5月23日

Cross3DVG: Baseline and Dataset for Cross-Dataset 3D Visual Grounding on Different RGB-D Scans

Arxiv

0+阅读 · 2023年5月23日

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark

Arxiv

14+阅读 · 2021年11月11日

3D Object Detection for Autonomous Driving: A Survey

Arxiv

12+阅读 · 2021年6月21日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

Monocular Object and Plane SLAM in Structured Environments

Monocular Object and Plane SLAM in Structured Environments

Arxiv

12+阅读 · 2018年9月10日

VIP会员

文章信息

相关主题

最新内容

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

9+阅读 · 今天10:44

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

5+阅读 · 今天10:12

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

6+阅读 · 今天9:56

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

5+阅读 · 今天10:09

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

5+阅读 · 今天9:53

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

4+阅读 · 今天9:51

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

4+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

4+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

9+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

9+阅读 · 6月14日

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

专知会员服务

12+阅读 · 6月14日

《无人水面艇文献综述与结构设计》135页

《无人水面艇文献综述与结构设计》135页

专知会员服务

13+阅读 · 6月13日

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

专知会员服务

11+阅读 · 6月13日

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

2+阅读 · 6月13日

智能体时间序列系统全景综述：架构、可靠性与研究前沿

智能体时间序列系统全景综述：架构、可靠性与研究前沿

专知会员服务

11+阅读 · 6月13日

相关VIP内容

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

专知会员服务

17+阅读 · 2023年1月23日

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

专知会员服务

25+阅读 · 2022年3月3日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

16+阅读 · 2022年3月3日

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

专知会员服务

18+阅读 · 2021年5月3日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

消耗优势：美军的“精确规模化”概念

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

相关资讯

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

【泡泡一分钟】用于视角可变重定位的语义地图构建

【泡泡一分钟】用于视角可变重定位的语义地图构建

泡泡机器人SLAM

19+阅读 · 2019年10月21日

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

泡泡机器人SLAM

14+阅读 · 2019年1月9日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

泡泡机器人SLAM

29+阅读 · 2018年10月28日

【泡泡一分钟】动态环境下稳健的单目SLAM

【泡泡一分钟】动态环境下稳健的单目SLAM

泡泡机器人SLAM

13+阅读 · 2018年3月22日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

相关论文

RC-BEVFusion: A Plug-In Module for Radar-Camera Bird's Eye View Feature Fusion

Arxiv

0+阅读 · 2023年5月25日

Confronting Ambiguity in 6D Object Pose Estimation via Score-Based Diffusion on SE(3)

Arxiv

0+阅读 · 2023年5月25日

Topic-Guided Self-Introduction Generation for Social Media Users

Arxiv

0+阅读 · 2023年5月24日

REC-MV: REconstructing 3D Dynamic Cloth from Monocular Videos

Arxiv

0+阅读 · 2023年5月23日

NeRFVS: Neural Radiance Fields for Free View Synthesis via Geometry Scaffolds

Arxiv

0+阅读 · 2023年5月23日

Cross3DVG: Baseline and Dataset for Cross-Dataset 3D Visual Grounding on Different RGB-D Scans

Arxiv

0+阅读 · 2023年5月23日

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark

Arxiv

14+阅读 · 2021年11月11日

3D Object Detection for Autonomous Driving: A Survey

Arxiv

12+阅读 · 2021年6月21日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

Monocular Object and Plane SLAM in Structured Environments

Monocular Object and Plane SLAM in Structured Environments

Arxiv

12+阅读 · 2018年9月10日

相关基金

基于深度图融合的大场景多视图立体重建研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于射频谱和二维相位图及控制平面协同的动态光网络跨层光性能监测

国家自然科学基金

0+阅读 · 2014年12月31日

基于全向深度视觉的高精度人体肢体运动三维重建研究

国家自然科学基金

0+阅读 · 2014年12月31日

含旋轨耦合的双电离和双电子亲和运动方程耦合簇方法

国家自然科学基金

0+阅读 · 2014年12月31日

多臂两亲性嵌合肽的设计、合成及基因/药物共传递

国家自然科学基金

0+阅读 · 2013年12月31日

基于单张低精度深度图的实时精确三维曲面重建

国家自然科学基金

0+阅读 · 2012年12月31日

新型螯合性表面活性剂淋洗修复重金属-有机物复合污染土壤的作用机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于边缘点的折反射图像立体匹配与三维重建研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于张量表示的全动态场景全局光照实时计算方法

国家自然科学基金

0+阅读 · 2009年12月31日

基于运动视觉的织物动态特性研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员