Talking head generation creates lifelike avatars from static portraits for virtual communication and content creation. However, current models do not yet convey the feeling of truly interactive communication, often generating one-way responses that lack emotional engagement. We identify two key challenges toward truly interactive avatars: generating motion in real-time under causal constraints and learning expressive, vibrant reactions without additional labeled data. To address these challenges, we propose Avatar Forcing, a new framework for interactive head avatar generation that models real-time user-avatar interactions through diffusion forcing. This design allows the avatar to process real-time multimodal inputs, including the user's audio and motion, with low latency for instant reactions to both verbal and non-verbal cues such as speech, nods, and laughter. Furthermore, we introduce a direct preference optimization method that leverages synthetic losing samples constructed by dropping user conditions, enabling label-free learning of expressive interaction. Experimental results demonstrate that our framework enables real-time interaction with low latency (approximately 500ms), achieving 6.8X speedup compared to the baseline, and produces reactive and expressive avatar motion, which is preferred over 80% against the baseline.


翻译:讲话头生成技术从静态肖像创建逼真的虚拟角色,用于虚拟通信和内容创作。然而,当前模型尚未能传达真正交互式通信的体验,其生成的一维响应往往缺乏情感投入。我们识别出实现真正交互式化身的两项关键挑战:在因果约束条件下实时生成动作,以及在不依赖额外标注数据的情况下学习富有表现力与活力的反应。为应对这些挑战,我们提出Avatar Forcing,一种通过扩散迫使机制模拟实时用户-化身交互的新型交互式头部化身生成框架。该设计使化身能够以低延迟处理实时多模态输入(包括用户音频与动作),对言语与非言语线索(如语音、点头、笑声等)做出即时反应。此外,我们引入一种直接偏好优化方法,利用通过丢弃用户条件构建的合成负样本,实现无标签的交互表现力学习。实验结果表明,我们的框架能够以约500ms的低延迟实现实时交互,相较基准实现6.8倍加速,并生成富有反应性与表现力的化身动作,相较于基准获得超过80%的偏好率。

0
下载
关闭预览

相关内容

【ETHZ博士论文】《人类动作与交互的生成式建模》
专知会员服务
16+阅读 · 2025年3月28日
首篇《人类视频生成》全面综述:挑战、方法和见解
专知会员服务
34+阅读 · 2024年7月14日
面向虚实融合的人机交互
专知会员服务
72+阅读 · 2023年6月25日
【CVPR2023】高保真自由可控的说话头视频生成
专知会员服务
21+阅读 · 2023年4月22日
专知会员服务
16+阅读 · 2021年5月13日
旷视研究院新出8000点人脸关键点,堪比电影级表情捕捉
人工智能前沿讲习班
19+阅读 · 2019年5月4日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
重磅!头部姿态估计「原理详解 + 实战代码」来啦!
计算机视觉life
57+阅读 · 2018年11月29日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 32分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
1+阅读 · 49分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员