Generating realistic, dyadic talking head video requires ultra-low latency. Existing chunk-based methods require full non-causal context windows, introducing significant delays. This high latency critically prevents the immediate, non-verbal feedback required for a realistic listener. To address this, we present DyStream, a flow matching-based autoregressive model that could generate video in real-time from both speaker and listener audio. Our method contains two key designs: (1) we adopt a stream-friendly autoregressive framework with flow-matching heads for probabilistic modeling, and (2) We propose a causal encoder enhanced by a lookahead module to incorporate short future context (e.g., 60 ms) to improve quality while maintaining low latency. Our analysis shows this simple-and-effective method significantly surpass alternative causal strategies, including distillation and generative encoder. Extensive experiments show that DyStream could generate video within 34 ms per frame, guaranteeing the entire system latency remains under 100 ms. Besides, it achieves state-of-the-art lip-sync quality, with offline and online LipSync Confidence scores of 8.13 and 7.61 on HDTF, respectively. The model, weights and codes are available.


翻译:生成逼真的双人对话头部视频需要极低延迟。现有的基于片段的方法需要完整的非因果上下文窗口,引入了显著延迟。这种高延迟严重阻碍了实现逼真倾听者所需的即时非语言反馈。为解决此问题,我们提出了DyStream,一种基于流匹配的自回归模型,能够根据说话者和倾听者的音频实时生成视频。我们的方法包含两个关键设计:(1) 采用流友好的自回归框架,配备用于概率建模的流匹配头部;(2) 提出一种由前瞻模块增强的因果编码器,以纳入短期未来上下文(例如60毫秒),在保持低延迟的同时提升质量。我们的分析表明,这种简单而有效的方法显著超越了包括蒸馏和生成式编码器在内的其他因果策略。大量实验表明,DyStream能够在每帧34毫秒内生成视频,确保整个系统延迟保持在100毫秒以下。此外,它在唇形同步质量上达到了最先进水平,在HDTF数据集上的离线和在线LipSync Confidence分数分别为8.13和7.61。模型、权重及代码均已公开。

0
下载
关闭预览

相关内容

大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
《大型语言模型加速生成技术》最新综述
专知会员服务
50+阅读 · 2024年5月25日
基于文档的对话技术研究
专知会员服务
20+阅读 · 2022年2月20日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
23+阅读 · 2020年1月28日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
《大型语言模型加速生成技术》最新综述
专知会员服务
50+阅读 · 2024年5月25日
基于文档的对话技术研究
专知会员服务
20+阅读 · 2022年2月20日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
23+阅读 · 2020年1月28日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员