Text-to-video diffusion models have enabled open-ended video synthesis, but often struggle with generating the correct number of objects specified in a prompt. We introduce NUMINA , a training-free identify-then-guide framework for improved numerical alignment. NUMINA identifies prompt-layout inconsistencies by selecting discriminative self- and cross-attention heads to derive a countable latent layout. It then refines this layout conservatively and modulates cross-attention to guide regeneration. On the introduced CountBench, NUMINA improves counting accuracy by up to 7.4% on Wan2.1-1.3B, and by 4.9% and 5.5% on 5B and 14B models, respectively. Furthermore, CLIP alignment is improved while maintaining temporal consistency. These results demonstrate that structural guidance complements seed search and prompt enhancement, offering a practical path toward count-accurate text-to-video diffusion. The code is available at https://github.com/H-EmbodVis/NUMINA.


翻译:文本到视频扩散模型已实现开放式的视频合成,但在生成提示词中指定数量的对象时常常面临困难。我们提出NUMINA——一种无需训练的"识别-引导"框架,旨在改进数字对齐效果。该框架通过选择具有判别性的自注意力头与交叉注意力头,推导出可计数的隐式布局,从而识别提示词与布局之间的不一致性。随后,它对这一布局进行保守优化,并调节交叉注意力以引导重新生成。在所提出的CountBench基准上,NUMINA将Wan2.1-1.3B模型的数量准确率提升高达7.4%,在5B和14B模型上分别提升4.9%和5.5%。此外,CLIP对齐质量得到改善,同时保持了时间一致性。这些结果表明,结构性引导可有效补充种子搜索与提示增强策略,为实现数量精准的文本到视频扩散提供了一条实用路径。代码已开源:https://github.com/H-EmbodVis/NUMINA。

0
下载
关闭预览

相关内容

用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
视频扩散模型综述:基础、实现与应用
专知会员服务
14+阅读 · 2025年4月24日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
大型语言模型对齐
专知会员服务
120+阅读 · 2023年9月27日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
视频扩散模型综述:基础、实现与应用
专知会员服务
14+阅读 · 2025年4月24日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
大型语言模型对齐
专知会员服务
120+阅读 · 2023年9月27日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员