In-Context Sync-LoRA for Portrait Video Editing - 专知论文

会员服务 ·

0

视频 · LoRA · 精确同步 · 上下文 · 时序 ·

2025 年 12 月 2 日

In-Context Sync-LoRA for Portrait Video Editing

翻译：用于肖像视频编辑的上下文同步LoRA方法

Sagi Polaczek,Or Patashnik,Ali Mahdavi-Amiri,Daniel Cohen-Or

from arxiv, Project page: https://sagipolaczek.github.io/Sync-LoRA/

Editing portrait videos is a challenging task that requires flexible yet precise control over a wide range of modifications, such as appearance changes, expression edits, or the addition of objects. The key difficulty lies in preserving the subject's original temporal behavior, demanding that every edited frame remains precisely synchronized with the corresponding source frame. We present Sync-LoRA, a method for editing portrait videos that achieves high-quality visual modifications while maintaining frame-accurate synchronization and identity consistency. Our approach uses an image-to-video diffusion model, where the edit is defined by modifying the first frame and then propagated to the entire sequence. To enable accurate synchronization, we train an in-context LoRA using paired videos that depict identical motion trajectories but differ in appearance. These pairs are automatically generated and curated through a synchronization-based filtering process that selects only the most temporally aligned examples for training. This training setup teaches the model to combine motion cues from the source video with the visual changes introduced in the edited first frame. Trained on a compact, highly curated set of synchronized human portraits, Sync-LoRA generalizes to unseen identities and diverse edits (e.g., modifying appearance, adding objects, or changing backgrounds), robustly handling variations in pose and expression. Our results demonstrate high visual fidelity and strong temporal coherence, achieving a robust balance between edit fidelity and precise motion preservation.

翻译：肖像视频编辑是一项具有挑战性的任务，需要在保持灵活性的同时精确控制多种修改，例如外观变化、表情调整或对象添加。主要难点在于保留主体的原始时序行为，要求每一帧编辑后的画面与对应的源帧保持精确同步。本文提出Sync-LoRA，一种用于肖像视频编辑的方法，能够在实现高质量视觉修改的同时，保持帧级精确同步与身份一致性。我们的方法采用图像到视频的扩散模型，通过修改首帧定义编辑内容，并将其传播至整个序列。为实现精确同步，我们使用成对视频训练一个上下文LoRA，这些视频描绘相同的运动轨迹但外观不同。这些成对数据通过基于同步性的过滤流程自动生成与筛选，仅选择时序对齐程度最高的样本用于训练。该训练机制使模型能够将源视频的运动线索与编辑首帧引入的视觉变化相结合。通过在紧凑且高度筛选的同步人像数据集上训练，Sync-LoRA能够泛化至未见过的身份和多样化编辑（如修改外观、添加对象或更换背景），并稳健处理姿态与表情的变化。实验结果表明，该方法具有高视觉保真度与强时序连贯性，在编辑保真度与精确运动保持之间实现了稳健平衡。

0

相关内容

视频

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

专知会员服务

13+阅读 · 2025年2月25日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

KG-BERT：基于BERT的知识图谱补全，KG-BERT: BERT for Knowledge Graph Completion

KG-BERT：基于BERT的知识图谱补全，KG-BERT: BERT for Knowledge Graph Completion

专知会员服务

195+阅读 · 2020年5月31日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

43+阅读 · 2020年4月11日

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

专知会员服务

21+阅读 · 2020年3月28日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

专知会员服务

30+阅读 · 2020年1月2日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

[CVPR 2020]BEDSR-Net：单张文档图像的阴影去除深度网络

[CVPR 2020]BEDSR-Net：单张文档图像的阴影去除深度网络

专知

12+阅读 · 2020年9月30日

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图与推荐

10+阅读 · 2020年3月28日

Deep Image Prior——图像恢复入门

Deep Image Prior——图像恢复入门

中国人工智能学会

15+阅读 · 2019年2月16日

使用CNN生成图像先验实现场景的盲图像去模糊

使用CNN生成图像先验实现场景的盲图像去模糊

统计学习与视觉计算组

10+阅读 · 2018年6月14日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

开放知识图谱

36+阅读 · 2018年3月30日

斯坦福Jure Leskovec图表示学习：无监督和有监督方法（附PPT下载）

斯坦福Jure Leskovec图表示学习：无监督和有监督方法（附PPT下载）

专知

24+阅读 · 2017年12月17日

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

AI研习社

18+阅读 · 2017年8月31日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

基于散射点密度信息熵的层析SAR建筑三维重建新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于分层稀疏表示的微动目标ISAR三维层析成像技术

国家自然科学基金

1+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

43+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

111+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

231+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

87+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

155+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

182+阅读 · 2023年3月24日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

88+阅读 · 2023年3月21日

VIP会员

文章信息

相关主题

最新内容

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

4+阅读 · 今天5:18

美海警海上态势感知无人系统

美海警海上态势感知无人系统

专知会员服务

2+阅读 · 今天5:10

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

专知会员服务

7+阅读 · 今天3:44

《智能作战任务规划技术：实验流程与发现》50页报告

《智能作战任务规划技术：实验流程与发现》50页报告

专知会员服务

12+阅读 · 今天3:40

《复杂系统数据驱动预测建模的数值框架》报告

《复杂系统数据驱动预测建模的数值框架》报告

专知会员服务

5+阅读 · 今天3:37

从“会话式人工智能”角度看“Maven智能系统”

从“会话式人工智能”角度看“Maven智能系统”

专知会员服务

3+阅读 · 今天3:02

《仿真互操作性就绪水平（SIRL）标准用户指南：评估分布式仿真集成的互操作性风险》

《仿真互操作性就绪水平（SIRL）标准用户指南：评估分布式仿真集成的互操作性风险》

专知会员服务

7+阅读 · 今天2:57

《无人机母舰：一种新兴的海军平台》报告

《无人机母舰：一种新兴的海军平台》报告

专知会员服务

4+阅读 · 今天2:51

【ICLR2026】基于小型语言模型的终身智能体

【ICLR2026】基于小型语言模型的终身智能体

专知会员服务

10+阅读 · 4月27日

ICLR 2026获奖论文揭晓：两篇杰出论文，大神Alec Radford经典工作获时间检验奖

ICLR 2026获奖论文揭晓：两篇杰出论文，大神Alec Radford经典工作获时间检验奖

专知会员服务

6+阅读 · 4月27日

全面的反无人机系统培训计划

全面的反无人机系统培训计划

专知会员服务

2+阅读 · 4月27日

数字孪生在军事领域的应用综述：陆地、海上、空中、太空和网络空间多域赋能

数字孪生在军事领域的应用综述：陆地、海上、空中、太空和网络空间多域赋能

专知会员服务

7+阅读 · 4月27日

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

专知会员服务

11+阅读 · 4月27日

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

专知会员服务

6+阅读 · 4月27日

探秘Palantir：驱动美情报的科技巨头

探秘Palantir：驱动美情报的科技巨头

专知会员服务

4+阅读 · 4月27日

相关VIP内容

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

专知会员服务

13+阅读 · 2025年2月25日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

KG-BERT：基于BERT的知识图谱补全，KG-BERT: BERT for Knowledge Graph Completion

KG-BERT：基于BERT的知识图谱补全，KG-BERT: BERT for Knowledge Graph Completion

专知会员服务

195+阅读 · 2020年5月31日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

43+阅读 · 2020年4月11日

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

专知会员服务

21+阅读 · 2020年3月28日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

专知会员服务

30+阅读 · 2020年1月2日

热门VIP内容

开通专知VIP会员享更多权益服务

美海警海上态势感知无人系统

《智能作战任务规划技术：实验流程与发现》50页报告

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

相关资讯

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

[CVPR 2020]BEDSR-Net：单张文档图像的阴影去除深度网络

[CVPR 2020]BEDSR-Net：单张文档图像的阴影去除深度网络

专知

12+阅读 · 2020年9月30日

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图与推荐

10+阅读 · 2020年3月28日

Deep Image Prior——图像恢复入门

Deep Image Prior——图像恢复入门

中国人工智能学会

15+阅读 · 2019年2月16日

使用CNN生成图像先验实现场景的盲图像去模糊

使用CNN生成图像先验实现场景的盲图像去模糊

统计学习与视觉计算组

10+阅读 · 2018年6月14日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

开放知识图谱

36+阅读 · 2018年3月30日

斯坦福Jure Leskovec图表示学习：无监督和有监督方法（附PPT下载）

斯坦福Jure Leskovec图表示学习：无监督和有监督方法（附PPT下载）

专知

24+阅读 · 2017年12月17日

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

AI研习社

18+阅读 · 2017年8月31日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

43+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

111+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

231+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

87+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

155+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

182+阅读 · 2023年3月24日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

88+阅读 · 2023年3月21日

相关基金

基于散射点密度信息熵的层析SAR建筑三维重建新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于分层稀疏表示的微动目标ISAR三维层析成像技术

国家自然科学基金

1+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员