Edit3DGS: Unified Framework for Dynamic Head Editing via 2D Instruction-Guided Diffusion and 3D Gaussian Splatting - 专知论文

会员服务 ·

0

3D · 可控 · 一致 · 集成 · 重建 ·

Edit3DGS: Unified Framework for Dynamic Head Editing via 2D Instruction-Guided Diffusion and 3D Gaussian Splatting

翻译：Edit3DGS：基于2D指令引导扩散与3D高斯泼溅的动态头部编辑统一框架

Duy-Dat Tran,Trung-Nghia Le

from arxiv, SOICT 2025

We present Edit3DGS, a unified framework for dynamic 3D head editing that integrates 2D instruction-guided diffusion with 3D Gaussian splatting. Unlike prior approaches that separately address frame-based edits or static 3D reconstruction, our method couples semantic controllability in the image domain with photorealistic, temporally consistent 3D representations. Given an input video, editable facial regions are masked and modified using a text-conditioned diffusion model to support fine-grained operations such as expression transformation, attribute modification, and appearance refinement. The edited frames are then aggregated through 3D Gaussian splatting to produce a coherent, high-fidelity avatar that preserves both identity and motion dynamics. To enforce consistency, Edit3DGS incorporates multi-view batch editing and lightweight inpainting strategies that recover lost expressions across timesteps. Experimental results demonstrate that our framework enables controllable, artifact-free head editing with smooth temporal transitions, offering practical applications in virtual avatars, immersive communication, film production, and interactive media.

翻译：我们提出Edit3DGS，一种集成了2D指令引导扩散与3D高斯泼溅的动态3D头部编辑统一框架。与分别处理单帧编辑或静态3D重建的现有方法不同，本方法将图像域的语义可控性与逼真且时间一致的3D表征相结合。给定输入视频，利用文本条件扩散模型对可编辑面部区域进行掩膜和修改，以支持表情转换、属性修改和外观细化等细粒度操作。随后通过3D高斯泼溅聚合编辑后的帧，生成同时保留身份特征与运动动态的连贯高保真虚拟形象。为强制执行一致性，Edit3DGS引入多视图批量编辑和轻量级修复策略，以恢复时间步中丢失的表情。实验结果表明，本框架能实现具有平滑时间过渡的可控无伪影头部编辑，在虚拟角色、沉浸式通信、电影制作及交互媒体领域具有实际应用价值。

0

相关内容

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

【CVPR2026】Vinedresser3D：智能体化文本引导的 3D 编辑

【CVPR2026】Vinedresser3D：智能体化文本引导的 3D 编辑

专知会员服务

9+阅读 · 3月2日

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

13+阅读 · 2月8日

三维高斯泼溅应用综述：分割、编辑与生成

三维高斯泼溅应用综述：分割、编辑与生成

专知会员服务

17+阅读 · 2025年8月14日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

44+阅读 · 2024年2月18日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

Tensorflow GNN最佳实践：tf_geometric（附图自编码器GAE完整代码）

Tensorflow GNN最佳实践：tf_geometric（附图自编码器GAE完整代码）

图与推荐

130+阅读 · 2020年2月6日

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

AI前线

15+阅读 · 2019年9月1日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

CE-Net：用于2D医学图像分割的上下文编码器网络，已开源！

CE-Net：用于2D医学图像分割的上下文编码器网络，已开源！

CVer

10+阅读 · 2019年6月22日

何恺明团队最新研究：3D目标检测新框架VoteNet，两大数据集刷新最高精度

何恺明团队最新研究：3D目标检测新框架VoteNet，两大数据集刷新最高精度

极市平台

29+阅读 · 2019年4月25日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

Github热门图深度学习（GraphDL）源码与框架

Github热门图深度学习（GraphDL）源码与框架

新智元

21+阅读 · 2019年3月19日

Github项目推荐 | SC-FEGAN：基于GAN的人脸照片涂鸦编辑

Github项目推荐 | SC-FEGAN：基于GAN的人脸照片涂鸦编辑

AI研习社

13+阅读 · 2019年2月22日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

A Survey on 3D Gaussian Splatting Applications: Segmentation, Editing, and Generation

Arxiv

0+阅读 · 6月15日

TurboGS: Accelerating 3D Gaussian Splatting via Error-Guided Sparse Pixel Sampling and Optimization

Arxiv

0+阅读 · 6月14日

EmoZone-Talker: Regional Semantic Control of Audio-Driven 3DGS Talking Heads via Facial Action Units

Arxiv

0+阅读 · 6月14日

JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space

Arxiv

0+阅读 · 6月11日

DirectAudioEdit: Inversion-Free Text-Guided Audio Editing via Diffusion Prediction Contrast

Arxiv

0+阅读 · 6月5日

3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

Arxiv

0+阅读 · 5月31日

Smaller and Faster 3DGS via Post-Training Dictionary Learning

Arxiv

0+阅读 · 5月28日

PocketGS: On-Device Training of 3D Gaussian Splatting for High Perceptual Modeling

Arxiv

0+阅读 · 5月27日

Feedforward 3D Editing Learns from Semantic-Part Transformation

Arxiv

0+阅读 · 5月26日

3DGS$^3$: Joint Super Sampling and Frame Interpolation for Real-Time Large-Scale 3DGS Rendering

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

1+阅读 · 今天14:49

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【CVPR2026】Vinedresser3D：智能体化文本引导的 3D 编辑

【CVPR2026】Vinedresser3D：智能体化文本引导的 3D 编辑

专知会员服务

9+阅读 · 3月2日

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

13+阅读 · 2月8日

三维高斯泼溅应用综述：分割、编辑与生成

三维高斯泼溅应用综述：分割、编辑与生成

专知会员服务

17+阅读 · 2025年8月14日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

44+阅读 · 2024年2月18日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

Tensorflow GNN最佳实践：tf_geometric（附图自编码器GAE完整代码）

Tensorflow GNN最佳实践：tf_geometric（附图自编码器GAE完整代码）

图与推荐

130+阅读 · 2020年2月6日

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

AI前线

15+阅读 · 2019年9月1日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

CE-Net：用于2D医学图像分割的上下文编码器网络，已开源！

CE-Net：用于2D医学图像分割的上下文编码器网络，已开源！

CVer

10+阅读 · 2019年6月22日

何恺明团队最新研究：3D目标检测新框架VoteNet，两大数据集刷新最高精度

何恺明团队最新研究：3D目标检测新框架VoteNet，两大数据集刷新最高精度

极市平台

29+阅读 · 2019年4月25日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

Github热门图深度学习（GraphDL）源码与框架

Github热门图深度学习（GraphDL）源码与框架

新智元

21+阅读 · 2019年3月19日

Github项目推荐 | SC-FEGAN：基于GAN的人脸照片涂鸦编辑

Github项目推荐 | SC-FEGAN：基于GAN的人脸照片涂鸦编辑

AI研习社

13+阅读 · 2019年2月22日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

相关论文

A Survey on 3D Gaussian Splatting Applications: Segmentation, Editing, and Generation

Arxiv

0+阅读 · 6月15日

TurboGS: Accelerating 3D Gaussian Splatting via Error-Guided Sparse Pixel Sampling and Optimization

Arxiv

0+阅读 · 6月14日

EmoZone-Talker: Regional Semantic Control of Audio-Driven 3DGS Talking Heads via Facial Action Units

Arxiv

0+阅读 · 6月14日

JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space

Arxiv

0+阅读 · 6月11日

DirectAudioEdit: Inversion-Free Text-Guided Audio Editing via Diffusion Prediction Contrast

Arxiv

0+阅读 · 6月5日

3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

Arxiv

0+阅读 · 5月31日

Smaller and Faster 3DGS via Post-Training Dictionary Learning

Arxiv

0+阅读 · 5月28日

PocketGS: On-Device Training of 3D Gaussian Splatting for High Perceptual Modeling

Arxiv

0+阅读 · 5月27日

Feedforward 3D Editing Learns from Semantic-Part Transformation

Arxiv

0+阅读 · 5月26日

3DGS$^3$: Joint Super Sampling and Frame Interpolation for Real-Time Large-Scale 3DGS Rendering

Arxiv

0+阅读 · 5月12日

相关基金

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员