AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories - 专知论文

会员服务 ·

0

一致 · 视频 · 重建 · 视频生成 · 长时程 ·

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories

翻译：AnchorWeave：基于检索局部空间记忆的世界一致性视频生成

Zun Wang,Han Lin,Jaehong Yoon,Jaemin Cho,Yue Zhang,Mohit Bansal

from arxiv, Project website: https://zunwang1.github.io/AnchorWeave

Maintaining spatial world consistency over long horizons remains a central challenge for camera-controllable video generation. Existing memory-based approaches often condition generation on globally reconstructed 3D scenes by rendering anchor videos from the reconstructed geometry in the history. However, reconstructing a global 3D scene from multiple views inevitably introduces cross-view misalignment, as pose and depth estimation errors cause the same surfaces to be reconstructed at slightly different 3D locations across views. When fused, these inconsistencies accumulate into noisy geometry that contaminates the conditioning signals and degrades generation quality. We introduce AnchorWeave, a memory-augmented video generation framework that replaces a single misaligned global memory with multiple clean local geometric memories and learns to reconcile their cross-view inconsistencies. To this end, AnchorWeave performs coverage-driven local memory retrieval aligned with the target trajectory and integrates the selected local memories through a multi-anchor weaving controller during generation. Extensive experiments demonstrate that AnchorWeave significantly improves long-term scene consistency while maintaining strong visual quality, with ablation and analysis studies further validating the effectiveness of local geometric conditioning, multi-anchor control, and coverage-driven retrieval.

翻译：在相机可控视频生成中，保持长时程的空间世界一致性仍是一个核心挑战。现有的基于记忆的方法通常通过从历史重建几何中渲染锚点视频，以全局重建的三维场景作为生成条件。然而，从多视角重建全局三维场景不可避免地会引入跨视角错位问题，因为姿态和深度估计误差会导致同一表面在不同视角下被重建到略微不同的三维位置。这些不一致性在融合时会累积成噪声几何，污染条件信号并降低生成质量。我们提出了AnchorWeave，一种记忆增强的视频生成框架，它用多个干净的局部几何记忆替代单一错位的全局记忆，并学习协调其跨视角不一致性。为此，AnchorWeave执行与目标轨迹对齐的覆盖驱动局部记忆检索，并在生成过程中通过多锚点编织控制器集成所选的局部记忆。大量实验表明，AnchorWeave显著改善了长时程场景一致性，同时保持了强大的视觉质量，消融和分析研究进一步验证了局部几何条件化、多锚点控制以及覆盖驱动检索的有效性。

0

相关内容

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

【CVPR2025】GEN3C：基于3D信息的世界一致性视频生成与精确相机控制

【CVPR2025】GEN3C：基于3D信息的世界一致性视频生成与精确相机控制

专知会员服务

11+阅读 · 2025年3月6日

【HKUST博士论文】单视图图像的高质量3D生成

【HKUST博士论文】单视图图像的高质量3D生成

专知会员服务

15+阅读 · 2025年1月21日

【伯克利博士论文】通过视频生成学习关于世界的知识

【伯克利博士论文】通过视频生成学习关于世界的知识

专知会员服务

29+阅读 · 2024年12月19日

【伯克利博士论文】揭示任何视频背后的四维世界

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

26+阅读 · 2024年11月24日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

专知会员服务

49+阅读 · 2023年5月18日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

视频防抖关键性技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多约束协同的彩色夜视影像亚像素超分辨率重建

国家自然科学基金

1+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Arxiv

0+阅读 · 3月17日

Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos

Arxiv

0+阅读 · 3月13日

ExCellGen: Fast, Controllable, Photorealistic 3D Scene Generation from a Single Real-World Exemplar

Arxiv

1+阅读 · 3月13日

See4D: Pose-Free 4D Generation via Auto-Regressive Video Inpainting

Arxiv

0+阅读 · 3月12日

A Survey: Spatiotemporal Consistency in Video Generation

Arxiv

0+阅读 · 2月18日

DreamAnywhere: Object-Centric Panoramic 3D Scene Generation

Arxiv

0+阅读 · 2月17日

DeLiVR: Differential Spatiotemporal Lie Bias for Efficient Video Deraining

Arxiv

0+阅读 · 2月15日

ConsID-Gen: View-Consistent and Identity-Preserving Image-to-Video Generation

Arxiv

0+阅读 · 2月10日

CompSplat: Compression-aware 3D Gaussian Splatting for Real-world Video

Arxiv

0+阅读 · 2月10日

Grounding Generated Videos in Feasible Plans via World Models

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

1+阅读 · 今天13:30

多智能体协作机制

多智能体协作机制

专知会员服务

1+阅读 · 今天13:26

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

14+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

6+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

9+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

7+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

8+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

7+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

10+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

14+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

10+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

5+阅读 · 4月24日

相关VIP内容

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

【CVPR2025】GEN3C：基于3D信息的世界一致性视频生成与精确相机控制

【CVPR2025】GEN3C：基于3D信息的世界一致性视频生成与精确相机控制

专知会员服务

11+阅读 · 2025年3月6日

【HKUST博士论文】单视图图像的高质量3D生成

【HKUST博士论文】单视图图像的高质量3D生成

专知会员服务

15+阅读 · 2025年1月21日

【伯克利博士论文】通过视频生成学习关于世界的知识

【伯克利博士论文】通过视频生成学习关于世界的知识

专知会员服务

29+阅读 · 2024年12月19日

【伯克利博士论文】揭示任何视频背后的四维世界

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

26+阅读 · 2024年11月24日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

专知会员服务

49+阅读 · 2023年5月18日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

相关论文

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Arxiv

0+阅读 · 3月17日

Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos

Arxiv

0+阅读 · 3月13日

ExCellGen: Fast, Controllable, Photorealistic 3D Scene Generation from a Single Real-World Exemplar

Arxiv

1+阅读 · 3月13日

See4D: Pose-Free 4D Generation via Auto-Regressive Video Inpainting

Arxiv

0+阅读 · 3月12日

A Survey: Spatiotemporal Consistency in Video Generation

Arxiv

0+阅读 · 2月18日

DreamAnywhere: Object-Centric Panoramic 3D Scene Generation

Arxiv

0+阅读 · 2月17日

DeLiVR: Differential Spatiotemporal Lie Bias for Efficient Video Deraining

Arxiv

0+阅读 · 2月15日

ConsID-Gen: View-Consistent and Identity-Preserving Image-to-Video Generation

Arxiv

0+阅读 · 2月10日

CompSplat: Compression-aware 3D Gaussian Splatting for Real-world Video

Arxiv

0+阅读 · 2月10日

Grounding Generated Videos in Feasible Plans via World Models

Arxiv

0+阅读 · 2月2日

相关基金

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

视频防抖关键性技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多约束协同的彩色夜视影像亚像素超分辨率重建

国家自然科学基金

1+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员