Audio-visual generation is rapidly advancing from short clips to minute-long content, while existing evaluation protocols remain largely confined to short-form settings. Existing benchmarks primarily focus on 5--10 second text-conditioned generation and rarely support unified evaluation across text, image, and video conditioning modalities. Moreover, they provide limited insight into how identity consistency, narrative coherence, and audio-visual alignment degrade over extended temporal horizons. To bridge this gap, we introduce LongAV-Compass, a systematic benchmark for minute-long audio-visual generation. LongAV-Compass contains 284 curated test cases spanning text-to-audio-video (T2AV), image-to-audio-video (I2AV), and video-to-audio-video (V2AV), organized by application scenario and generation complexity. The benchmark combines taxonomy-guided benchmark construction with a unified evaluation framework that integrates MLLM-assisted assessment with complementary perceptual and multimodal metrics, including DINO-v2, ArcFace, CLIP, and ImageBind. The framework evaluates more than 20 fine-grained dimensions covering within-segment quality, cross-segment consistency, global narrative coherence, semantic alignment, and audio-visual synchronization. Through experiments on 11 representative models together with human-alignment validation, LongAV-Compass provides a diagnostic testbed for analyzing the limitations of current systems in sustaining coherent, semantically aligned, and temporally consistent minute-scale audio-visual generation across diverse input modalities.


翻译:视听生成正从短片段快速迈向分钟级长内容,然而现有评估体系仍主要局限于短时场景。当前基准测试多聚焦于5-10秒的文本条件生成,鲜少支持文本、图像与视频条件模式的统一评估。此外,它们在身份一致性、叙事连贯性及视听对齐性随时间退化方面的分析能力极为有限。为填补这一空白,我们提出LongAV-Compass——一个面向分钟级视听生成的系统性基准。LongAV-Compass包含284个精心设计的测试案例,涵盖文本到音频-视频(T2AV)、图像到音频-视频(I2AV)及视频到音频-视频(V2AV)三类任务,并按应用场景与生成复杂度进行组织。该基准结合了分类学引导的构建方法与统一评估框架,整合了MLLM辅助评估与互补性感知及多模态指标(包括DINO-v2、ArcFace、CLIP和ImageBind)。该框架评估超过20个细粒度维度,覆盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐及视听同步性。通过对11个代表性模型的实验及人工对齐验证,LongAV-Compass为分析当前系统在不同输入模态下维持连贯、语义对齐及时间一致的分钟级视听生成能力的局限性,提供了诊断性测试平台。

0
下载
关闭预览

相关内容

文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
视频质量评价研究综述
专知会员服务
27+阅读 · 2023年10月10日
专知会员服务
34+阅读 · 2021年9月29日
一行命令搞定图像质量评价
计算机视觉life
12+阅读 · 2019年12月31日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员