Audio-driven talking-head generation has advanced rapidly, yet existing evaluation protocols mainly rely on frame-wise metrics that assume strict temporal correspondence between generated and reference videos. This assumption does not match speech-driven facial motion, which naturally includes slight timing shifts, different speaking speeds, and stylistic variations. As a result, conventional metrics may treat harmless timing differences as quality errors, making it harder to fairly compare methods and understand their trade-offs. In this work, we argue that evaluation of dynamic generative models should be formulated as a sequence-alignment problem rather than independent frame comparison. We introduce a unified sequence-level reformulation that integrates Soft Dynamic Time Warping into established evaluation pipelines. By aligning feature trajectories while preserving temporal order, the proposed framework provides robustness to bounded temporal misalignments without altering the underlying perceptual, identity, or synchronization encoders. We show that frame-wise evaluation can be viewed as a special case under rigid alignment, while sequence-level alignment provides improved stability, lower sensitivity to timing differences, and clearer separation between modeling paradigms. Building on this principled formulation, we conduct a large-scale benchmark of 20 methods across seven datasets spanning canonical, in-the-wild, and style-diverse scenarios under standardized protocols. Extensive experiments show that temporally aligned metrics are more robust to timing differences, provide more consistent results across datasets, and better reveal systematic trade-offs between modeling paradigms, such as synchronization versus realism and expressiveness versus stability.


翻译:音频驱动的说话头生成技术发展迅速,然而现有评估标准主要依赖逐帧指标,这些指标假设生成视频与参考视频之间存在严格的时间对应关系。这一假设与语音驱动的面部运动特性不符,因为自然的面部运动包含轻微的时间偏移、不同的说话速度及风格变化。因此,传统指标可能将无害的时间差异误判为质量错误,导致难以公平比较不同方法并理解其性能权衡。本文提出,动态生成模型的评估应被构建为序列对齐问题,而非独立的帧比较。我们引入了一种统一的序列级重构方案,将软动态时间规整整合至现有评估流程中。通过在对齐特征轨迹的同时保持时间顺序,所提框架能够容忍有界的时间错位,且无需改变底层的感知、身份或同步编码器。研究表明,刚性对齐下的逐帧评估可被视为该框架的特例,而序列级对齐能提供更优的稳定性、更低的时间差异敏感性,以及更清晰的建模范式区分。基于这一原则性表述,我们构建了涵盖标准、野外及风格多样场景的大规模基准测试,涉及七组数据集上的二十种方法。大量实验表明,时间对齐指标对时间差异更具鲁棒性,在不同数据集上结果更一致,并能更有效地揭示建模范式间的系统性权衡,例如同步性与真实感、表现力与稳定性之间的权衡。

0
下载
关闭预览

相关内容

文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
深度视觉语音生成研究进展与展望
专知会员服务
27+阅读 · 2024年4月12日
【CVPR2023】高保真自由可控的说话头视频生成
专知会员服务
21+阅读 · 2023年4月22日
专知会员服务
16+阅读 · 2021年5月13日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
重磅!头部姿态估计「原理详解 + 实战代码」来啦!
计算机视觉life
57+阅读 · 2018年11月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员