GenState-AI: State-Aware Dataset for Text-to-Video Retrieval on AI-Generated Videos - 专知论文

会员服务 ·

0

视频 · AI · 时序 · 视频检索 · 片段 ·

GenState-AI: State-Aware Dataset for Text-to-Video Retrieval on AI-Generated Videos

翻译：GenState-AI：面向AI生成视频的文本-视频检索状态感知数据集

Minghan Li,Tongna Chen,Tianrui Lv,Yishuai Zhang,Suchao An,Guodong Zhou

Existing text-to-video retrieval benchmarks are dominated by real-world footage where much of the semantics can be inferred from a single frame, leaving temporal reasoning and explicit end-state grounding under-evaluated. We introduce GenState-AI, an AI-generated benchmark centered on controlled state transitions, where each query is paired with a main video, a temporal hard negative that differs only in the decisive end-state, and a semantic hard negative with content substitution, enabling fine-grained diagnosis of temporal vs. semantic confusions beyond appearance matching. Using Wan2.2-TI2V-5B, we generate short clips whose meaning depends on precise changes in position, quantity, and object relations, providing controllable evaluation conditions for state-aware retrieval. We evaluate two representative MLLM-based baselines, and observe consistent and interpretable failure patterns: both frequently confuse the main video with the temporal hard negative and over-prefer temporally plausible but end-state-incorrect clips, indicating insufficient grounding to decisive end-state evidence, while being comparatively less sensitive to semantic substitutions. We further introduce triplet-based diagnostic analyses, including relative-order statistics and breakdowns across transition categories, to make temporal vs. semantic failure sources explicit. GenState-AI provides a focused testbed for state-aware, temporally and semantically sensitive text-to-video retrieval, and will be released on huggingface.co.

翻译：现有的文本-视频检索基准主要由真实世界视频片段主导，其大部分语义可以从单帧图像中推断，导致对时序推理和显式终态关联能力的评估不足。我们提出了GenState-AI，这是一个以受控状态转换为中心的AI生成基准数据集。其中每个查询均与一个主视频、一个仅在决定性终态上存在差异的时序困难负例，以及一个进行了内容替换的语义困难负例配对，从而能够在超越外观匹配的层面上，对时序混淆与语义混淆进行细粒度诊断。我们利用Wan2.2-TI2V-5B生成了短片段，其意义依赖于位置、数量和物体关系的精确变化，为状态感知检索提供了可控的评估条件。我们评估了两个代表性的基于MLLM的基线模型，并观察到一致且可解释的失败模式：两者均频繁混淆主视频与时序困难负例，并过度偏好时序合理但终态错误的片段，这表明模型对决定性终态证据的关联能力不足，同时对语义替换相对不敏感。我们进一步引入了基于三元组的诊断分析，包括相对顺序统计和跨转换类别的细分，以明确揭示时序与语义层面的失败来源。GenState-AI为状态感知、对时序和语义敏感的文本-视频检索提供了一个聚焦的测试平台，并将发布于huggingface.co。

0

相关内容

视频

【ICCV2025】AIGI-Holmes：面向可解释性与可泛化性的AI生成图像检测方法 —— 基于多模态大语言模型的研究

【ICCV2025】AIGI-Holmes：面向可解释性与可泛化性的AI生成图像检测方法 —— 基于多模态大语言模型的研究

专知会员服务

10+阅读 · 2025年7月4日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

生成式AI+视频行业深度报告：AI+视频的星辰大海远不止于创意视频的生成

生成式AI+视频行业深度报告：AI+视频的星辰大海远不止于创意视频的生成

专知会员服务

27+阅读 · 2024年7月30日

【NTU博士论文】基于深度学习的图像与视频生成，146页pdf

【NTU博士论文】基于深度学习的图像与视频生成，146页pdf

专知会员服务

42+阅读 · 2024年1月17日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

68+阅读 · 2023年10月5日

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

专知会员服务

151+阅读 · 2023年3月22日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【视频预测深度学习综述论文】A Review on Deep Learning Techniques for Video Prediction

【视频预测深度学习综述论文】A Review on Deep Learning Techniques for Video Prediction

专知会员服务

52+阅读 · 2020年4月15日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

AI研习社

10+阅读 · 2018年7月23日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

纳米分辨率显微视频的像素级数据挖掘研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

TAP into the Patch Tokens: Leveraging Vision Foundation Model Features for AI-Generated Image Detection

Arxiv

0+阅读 · 4月29日

VISOR: Agentic Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning

Arxiv

0+阅读 · 4月10日

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

Arxiv

0+阅读 · 4月9日

VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

Arxiv

0+阅读 · 4月2日

TempoControl: Temporal Attention Guidance for Text-to-Video Models

Arxiv

0+阅读 · 4月1日

Gen-Searcher: Reinforcing Agentic Search for Image Generation

Arxiv

0+阅读 · 3月30日

VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding

Arxiv

0+阅读 · 3月30日

MetaCues: Enabling Critical Engagement with Generative AI for Information Seeking and Sensemaking

Arxiv

0+阅读 · 3月20日

Monetizing Generative AI: YouTubers' Collective Knowledge on Earning from Generative AI Content

Arxiv

0+阅读 · 3月10日

Detecting AI-Generated Images via Contextual Anomaly Estimation in Masked AutoEncoders

Arxiv

0+阅读 · 3月9日

VIP会员

文章信息

相关主题

最新内容

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

专知会员服务

0+阅读 · 今天16:23

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

专知会员服务

0+阅读 · 今天16:20

安杜里尔与Meta研发军用智能眼镜的内幕

安杜里尔与Meta研发军用智能眼镜的内幕

专知会员服务

5+阅读 · 今天8:47

《GPS拒止环境中的网络化赋能目标锁定》总结报告

《GPS拒止环境中的网络化赋能目标锁定》总结报告

专知会员服务

4+阅读 · 今天8:40

超越步调威胁：整合人工智能以加速指挥决策

超越步调威胁：整合人工智能以加速指挥决策

专知会员服务

5+阅读 · 今天8:08

连接供应链与杀伤链：Palantir 保障与对抗性后勤解决方案

连接供应链与杀伤链：Palantir 保障与对抗性后勤解决方案

专知会员服务

4+阅读 · 今天7:56

Nature三连发AI自主科学发现论文

Nature三连发AI自主科学发现论文

专知会员服务

7+阅读 · 5月21日

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

8+阅读 · 5月21日

安杜里尔与人工智能驱动防务的崛起

安杜里尔与人工智能驱动防务的崛起

专知会员服务

14+阅读 · 5月21日

《人工智能战争机器：安杜里尔与创新的武器化》36页报告

《人工智能战争机器：安杜里尔与创新的武器化》36页报告

专知会员服务

23+阅读 · 5月21日

《Palantir对联合全域指挥控制（JADC2）的支持能力》

《Palantir对联合全域指挥控制（JADC2）的支持能力》

专知会员服务

16+阅读 · 5月21日

《用于美海军作战力量战略部署与分散（SLD）的大规模人工智能（AI）》简报

《用于美海军作战力量战略部署与分散（SLD）的大规模人工智能（AI）》简报

专知会员服务

12+阅读 · 5月21日

《数字景观军事演示：AI决策系统的虚拟呈现——Palantir TITAN和 Anduril Lattice系统分析》

《数字景观军事演示：AI决策系统的虚拟呈现——Palantir TITAN和 Anduril Lattice系统分析》

专知会员服务

22+阅读 · 5月21日

《Palantir平台：FOUNDRY与AIP服务定义文档》

《Palantir平台：FOUNDRY与AIP服务定义文档》

专知会员服务

15+阅读 · 5月21日

2025年科学计算行业发展研究报告

2025年科学计算行业发展研究报告

专知会员服务

9+阅读 · 5月20日

相关VIP内容

【ICCV2025】AIGI-Holmes：面向可解释性与可泛化性的AI生成图像检测方法 —— 基于多模态大语言模型的研究

【ICCV2025】AIGI-Holmes：面向可解释性与可泛化性的AI生成图像检测方法 —— 基于多模态大语言模型的研究

专知会员服务

10+阅读 · 2025年7月4日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

生成式AI+视频行业深度报告：AI+视频的星辰大海远不止于创意视频的生成

生成式AI+视频行业深度报告：AI+视频的星辰大海远不止于创意视频的生成

专知会员服务

27+阅读 · 2024年7月30日

【NTU博士论文】基于深度学习的图像与视频生成，146页pdf

【NTU博士论文】基于深度学习的图像与视频生成，146页pdf

专知会员服务

42+阅读 · 2024年1月17日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

68+阅读 · 2023年10月5日

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

专知会员服务

151+阅读 · 2023年3月22日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【视频预测深度学习综述论文】A Review on Deep Learning Techniques for Video Prediction

【视频预测深度学习综述论文】A Review on Deep Learning Techniques for Video Prediction

专知会员服务

52+阅读 · 2020年4月15日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

《GPS拒止环境中的网络化赋能目标锁定》总结报告

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

安杜里尔与Meta研发军用智能眼镜的内幕

相关资讯

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

AI研习社

10+阅读 · 2018年7月23日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

TAP into the Patch Tokens: Leveraging Vision Foundation Model Features for AI-Generated Image Detection

Arxiv

0+阅读 · 4月29日

VISOR: Agentic Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning

Arxiv

0+阅读 · 4月10日

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

Arxiv

0+阅读 · 4月9日

VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

Arxiv

0+阅读 · 4月2日

TempoControl: Temporal Attention Guidance for Text-to-Video Models

Arxiv

0+阅读 · 4月1日

Gen-Searcher: Reinforcing Agentic Search for Image Generation

Arxiv

0+阅读 · 3月30日

VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding

Arxiv

0+阅读 · 3月30日

MetaCues: Enabling Critical Engagement with Generative AI for Information Seeking and Sensemaking

Arxiv

0+阅读 · 3月20日

Monetizing Generative AI: YouTubers' Collective Knowledge on Earning from Generative AI Content

Arxiv

0+阅读 · 3月10日

Detecting AI-Generated Images via Contextual Anomaly Estimation in Masked AutoEncoders

Arxiv

0+阅读 · 3月9日

相关基金

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

纳米分辨率显微视频的像素级数据挖掘研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员