AnimationBench: Are Video Models Good at Character-Centric Animation? - 专知论文

会员服务 ·

0

视频 · 基准 · 一致 · 基准测试 · 视频生成 ·

AnimationBench: Are Video Models Good at Character-Centric Animation?

翻译：AnimationBench：视频模型能否胜任以角色为中心的动画生成？

Leyi Wu,Pengjun Fang,Kai Sun,Yazhou Xing,Yinwei Wu,Songsong Wang,Ziqi Huang,Dan Zhou,Yingqing He,Ying-Cong Chen,Qifeng Chen

from arxiv, Project Page: https://animationbench.github.io Code: https://github.com/VideoVerses/AnimationBench

Video generation has advanced rapidly, with recent methods producing increasingly convincing animated results. However, existing benchmarks-largely designed for realistic videos-struggle to evaluate animation-style generation with its stylized appearance, exaggerated motion, and character-centric consistency. Moreover, they also rely on fixed prompt sets and rigid pipelines, offering limited flexibility for open-domain content and custom evaluation needs. To address this gap, we introduce AnimationBench, the first systematic benchmark for evaluating animation image-to-video generation. AnimationBench operationalizes the Twelve Basic Principles of Animation and IP Preservation into measurable evaluation dimensions, together with Broader Quality Dimensions including semantic consistency, motion rationality, and camera motion consistency. The benchmark supports both a standardized close-set evaluation for reproducible comparison and a flexible open-set evaluation for diagnostic analysis, and leverages visual-language models for scalable assessment. Extensive experiments show that AnimationBench aligns well with human judgment and exposes animation-specific quality differences overlooked by realism-oriented benchmarks, leading to more informative and discriminative evaluation of state-of-the-art I2V models.

翻译：视频生成技术发展迅猛，近期方法产出的动画效果愈发逼真。然而，现有基准测试主要针对真实感视频设计，难以评估动画风格生成中风格化外观、夸张运动及角色一致性等特性。此外，这些基准测试依赖固定提示集与刚性流程，对开放域内容和自定义评估需求的灵活性有限。为解决这一缺口，我们提出AnimationBench——首个系统性评估动画图像到视频生成的基准测试。该基准将动画十二基本原理与角色一致性转化为可量化评估维度，并结合语义一致性、运动合理性及相机运动一致性等广义质量维度。支持标准封闭集评估（可复现对比）与灵活开放集评估（诊断分析），并利用视觉语言模型实现可扩展评测。大量实验表明，AnimationBench与人类判断高度一致，能揭示真实感导向基准测试所忽视的动画特有质量差异，从而对当前最优图像到视频模型进行更具信息量及辨别力的评估。

0

相关内容

视频

机器人领域的视频生成模型：应用、研究挑战与未来展望

机器人领域的视频生成模型：应用、研究挑战与未来展望

专知会员服务

17+阅读 · 1月13日

【Hugging Face】开源视频生成模型的发展现状，31页ppt

【Hugging Face】开源视频生成模型的发展现状，31页ppt

专知会员服务

18+阅读 · 2025年8月30日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

生成式AI+视频行业深度报告：AI+视频的星辰大海远不止于创意视频的生成

生成式AI+视频行业深度报告：AI+视频的星辰大海远不止于创意视频的生成

专知会员服务

25+阅读 · 2024年7月30日

大模型报告:模型能力决定下限，场景适配度决定上限

大模型报告:模型能力决定下限，场景适配度决定上限

专知会员服务

57+阅读 · 2024年6月3日

清华大学《《SuperBench大模型综合能力评测报告》发布

清华大学《《SuperBench大模型综合能力评测报告》发布

专知会员服务

47+阅读 · 2024年4月20日

视频质量评价研究综述

视频质量评价研究综述

专知会员服务

27+阅读 · 2023年10月10日

图像与视频质量评价综述

专知会员服务

34+阅读 · 2021年9月29日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

解决实例分割任务中边缘不够精细：PointRend: Image Segmentation as Rendering

解决实例分割任务中边缘不够精细：PointRend: Image Segmentation as Rendering

极市平台

10+阅读 · 2020年1月19日

一行命令搞定图像质量评价

一行命令搞定图像质量评价

计算机视觉life

12+阅读 · 2019年12月31日

CVPR 2019视频描述（video caption）相关论文总结

CVPR 2019视频描述（video caption）相关论文总结

极市平台

36+阅读 · 2019年10月16日

简评 | Video Action Recognition 的近期进展

简评 | Video Action Recognition 的近期进展

极市平台

20+阅读 · 2019年4月21日

基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

人工智能前沿讲习班

32+阅读 · 2019年1月28日

图像美学质量评价技术发展趋势

图像美学质量评价技术发展趋势

科技导报

19+阅读 · 2018年6月25日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

视频防抖关键性技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

烙画艺术模拟及其数字合成技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

Personalizing Causal Audio-Driven Facial Motion via Dynamic Multi-modal Retrieval

Arxiv

0+阅读 · 4月26日

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

Arxiv

0+阅读 · 4月21日

HumanVBench: Probing Human-Centric Video Understanding in MLLMs with Automatically Synthesized Benchmarks

Arxiv

0+阅读 · 4月13日

Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

Arxiv

0+阅读 · 4月9日

Can Vision Language Models Judge Action Quality? An Empirical Evaluation

Arxiv

0+阅读 · 4月9日

VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

Arxiv

0+阅读 · 4月2日

RealMaster: Lifting Rendered Scenes into Photorealistic Video

Arxiv

0+阅读 · 3月24日

HyperMotionX: The Dataset and Benchmark with DiT-Based Pose-Guided Human Image Animation of Complex Motions

Arxiv

0+阅读 · 3月18日

DesignAsCode: Bridging Structural Editability and Visual Fidelity in Graphic Design Generation

Arxiv

1+阅读 · 2月23日

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

5+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

机器人领域的视频生成模型：应用、研究挑战与未来展望

机器人领域的视频生成模型：应用、研究挑战与未来展望

专知会员服务

17+阅读 · 1月13日

【Hugging Face】开源视频生成模型的发展现状，31页ppt

【Hugging Face】开源视频生成模型的发展现状，31页ppt

专知会员服务

18+阅读 · 2025年8月30日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

生成式AI+视频行业深度报告：AI+视频的星辰大海远不止于创意视频的生成

生成式AI+视频行业深度报告：AI+视频的星辰大海远不止于创意视频的生成

专知会员服务

25+阅读 · 2024年7月30日

大模型报告:模型能力决定下限，场景适配度决定上限

大模型报告:模型能力决定下限，场景适配度决定上限

专知会员服务

57+阅读 · 2024年6月3日

清华大学《《SuperBench大模型综合能力评测报告》发布

清华大学《《SuperBench大模型综合能力评测报告》发布

专知会员服务

47+阅读 · 2024年4月20日

视频质量评价研究综述

视频质量评价研究综述

专知会员服务

27+阅读 · 2023年10月10日

图像与视频质量评价综述

专知会员服务

34+阅读 · 2021年9月29日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

解决实例分割任务中边缘不够精细：PointRend: Image Segmentation as Rendering

解决实例分割任务中边缘不够精细：PointRend: Image Segmentation as Rendering

极市平台

10+阅读 · 2020年1月19日

一行命令搞定图像质量评价

一行命令搞定图像质量评价

计算机视觉life

12+阅读 · 2019年12月31日

CVPR 2019视频描述（video caption）相关论文总结

CVPR 2019视频描述（video caption）相关论文总结

极市平台

36+阅读 · 2019年10月16日

简评 | Video Action Recognition 的近期进展

简评 | Video Action Recognition 的近期进展

极市平台

20+阅读 · 2019年4月21日

基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

人工智能前沿讲习班

32+阅读 · 2019年1月28日

图像美学质量评价技术发展趋势

图像美学质量评价技术发展趋势

科技导报

19+阅读 · 2018年6月25日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

相关论文

Personalizing Causal Audio-Driven Facial Motion via Dynamic Multi-modal Retrieval

Arxiv

0+阅读 · 4月26日

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

Arxiv

0+阅读 · 4月21日

HumanVBench: Probing Human-Centric Video Understanding in MLLMs with Automatically Synthesized Benchmarks

Arxiv

0+阅读 · 4月13日

Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

Arxiv

0+阅读 · 4月9日

Can Vision Language Models Judge Action Quality? An Empirical Evaluation

Arxiv

0+阅读 · 4月9日

VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

Arxiv

0+阅读 · 4月2日

RealMaster: Lifting Rendered Scenes into Photorealistic Video

Arxiv

0+阅读 · 3月24日

HyperMotionX: The Dataset and Benchmark with DiT-Based Pose-Guided Human Image Animation of Complex Motions

Arxiv

0+阅读 · 3月18日

DesignAsCode: Bridging Structural Editability and Visual Fidelity in Graphic Design Generation

Arxiv

1+阅读 · 2月23日

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Arxiv

0+阅读 · 2月22日

相关基金

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

视频防抖关键性技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

烙画艺术模拟及其数字合成技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员