Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion - 专知论文

会员服务 ·

0

视频 · 多视角 · 一致 · 3D · 视频扩散模型 ·

Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

翻译：Tri-Prompting：实现场景、主体与运动统一控制的视频扩散模型

Zhenghong Zhou,Xiaohang Zhan,Zhiqin Chen,Soo Ye Kim,Nanxuan Zhao,Haitian Zheng,Qing Liu,He Zhang,Zhe Lin,Yuqian Zhou,Jiebo Luo

from arxiv, Project page: https://zhouzhenghong-gt.github.io/Tri-Prompting-Page/

Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.

翻译：近期，视频扩散模型在视觉质量方面取得了显著进展，然而精确、细粒度的控制仍是关键瓶颈，限制了内容创作的实际可定制性。对于AI视频创作者而言，三种控制形式至关重要：（i）场景构图，（ii）多视角一致的主体定制，以及（iii）相机位姿或物体运动调整。现有方法通常孤立处理这些维度，对任意姿态变化下的多视角主体合成与身份保持的支持有限。这种统一架构的缺乏使得支持多功能、联合可控的视频变得困难。我们提出了Tri-Prompting，一个统一的框架和两阶段训练范式，集成了场景构图、多视角主体一致性和运动控制。我们的方法利用由3D跟踪点驱动的双条件运动模块处理背景场景，并采用下采样RGB线索处理前景主体。为确保可控性与视觉真实感之间的平衡，我们进一步提出了推理阶段ControlNet尺度调度策略。Tri-Prompting支持新颖的工作流程，包括将3D感知主体插入任意场景以及对图像中现有主体进行操控。实验结果表明，Tri-Prompting在多视角主体身份保持、3D一致性和运动准确性方面显著优于Phantom和DaS等专用基线方法。

0

相关内容

视频

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

9+阅读 · 4月20日

视频扩散模型综述：基础、实现与应用

视频扩散模型综述：基础、实现与应用

专知会员服务

14+阅读 · 2025年4月24日

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

专知会员服务

9+阅读 · 2025年4月4日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

【博士论文】迈向值得信赖的视觉生成模型：扩散模型的可靠且可控生成

【博士论文】迈向值得信赖的视觉生成模型：扩散模型的可靠且可控生成

专知会员服务

16+阅读 · 2025年1月27日

不可错过！《扩散模型与应用》课程

不可错过！《扩散模型与应用》课程

专知会员服务

41+阅读 · 2024年11月25日

三维视觉中的扩散模型：综述

三维视觉中的扩散模型：综述

专知会员服务

33+阅读 · 2024年10月9日

《基于扩散模型的条件图像生成》综述

《基于扩散模型的条件图像生成》综述

专知会员服务

44+阅读 · 2024年10月1日

视频扩散模型：综述

视频扩散模型：综述

专知会员服务

38+阅读 · 2024年5月8日

复旦等最新《视频扩散模型》综述

复旦等最新《视频扩散模型》综述

专知会员服务

38+阅读 · 2023年10月20日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

全景分割任务介绍及其最新进展【附PPT与视频资料】

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

一文看懂如何将深度学习应用于视频动作识别

一文看懂如何将深度学习应用于视频动作识别

AI前线

11+阅读 · 2018年7月15日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

视频防抖关键性技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

基于对等网的可扩展流媒体分发模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

VideoMatGen: PBR Materials through Joint Generative Modeling

Arxiv

0+阅读 · 3月17日

TAUE: Training-free Noise Transplant and Cultivation Diffusion Model

Arxiv

0+阅读 · 3月17日

Fillerbuster: Unified Generative Scene Completion Model for Casual Captures

Arxiv

0+阅读 · 3月16日

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Arxiv

0+阅读 · 3月12日

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Arxiv

0+阅读 · 3月10日

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Arxiv

0+阅读 · 3月5日

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Arxiv

0+阅读 · 3月2日

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

Arxiv

0+阅读 · 3月1日

ExpPortrait: Expressive Portrait Generation via Personalized Representation

Arxiv

0+阅读 · 2月23日

Controllable Generation with Text-to-Image Diffusion Models: A Survey

Arxiv

14+阅读 · 2024年3月7日

VIP会员

文章信息

相关主题

视频扩散模型

最新内容

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

10+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

5+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

7+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

7+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

9+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

14+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

6+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

9+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

3+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

3+阅读 · 5月5日

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

8+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

13+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

9+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

10+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

7+阅读 · 5月4日

相关VIP内容

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

9+阅读 · 4月20日

视频扩散模型综述：基础、实现与应用

视频扩散模型综述：基础、实现与应用

专知会员服务

14+阅读 · 2025年4月24日

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

专知会员服务

9+阅读 · 2025年4月4日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

【博士论文】迈向值得信赖的视觉生成模型：扩散模型的可靠且可控生成

【博士论文】迈向值得信赖的视觉生成模型：扩散模型的可靠且可控生成

专知会员服务

16+阅读 · 2025年1月27日

不可错过！《扩散模型与应用》课程

不可错过！《扩散模型与应用》课程

专知会员服务

41+阅读 · 2024年11月25日

三维视觉中的扩散模型：综述

三维视觉中的扩散模型：综述

专知会员服务

33+阅读 · 2024年10月9日

《基于扩散模型的条件图像生成》综述

《基于扩散模型的条件图像生成》综述

专知会员服务

44+阅读 · 2024年10月1日

视频扩散模型：综述

视频扩散模型：综述

专知会员服务

38+阅读 · 2024年5月8日

复旦等最新《视频扩散模型》综述

复旦等最新《视频扩散模型》综述

专知会员服务

38+阅读 · 2023年10月20日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

DeepSeek 版Claude Code，免费小白安装教程来了！

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

相关资讯

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

全景分割任务介绍及其最新进展【附PPT与视频资料】

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

一文看懂如何将深度学习应用于视频动作识别

一文看懂如何将深度学习应用于视频动作识别

AI前线

11+阅读 · 2018年7月15日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

VideoMatGen: PBR Materials through Joint Generative Modeling

Arxiv

0+阅读 · 3月17日

TAUE: Training-free Noise Transplant and Cultivation Diffusion Model

Arxiv

0+阅读 · 3月17日

Fillerbuster: Unified Generative Scene Completion Model for Casual Captures

Arxiv

0+阅读 · 3月16日

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Arxiv

0+阅读 · 3月12日

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Arxiv

0+阅读 · 3月10日

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Arxiv

0+阅读 · 3月5日

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Arxiv

0+阅读 · 3月2日

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

Arxiv

0+阅读 · 3月1日

ExpPortrait: Expressive Portrait Generation via Personalized Representation

Arxiv

0+阅读 · 2月23日

Controllable Generation with Text-to-Image Diffusion Models: A Survey

Arxiv

14+阅读 · 2024年3月7日

相关基金

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

视频防抖关键性技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

基于对等网的可扩展流媒体分发模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员