Effective video tokenization is critical for scaling transformer models for long videos. Current approaches tokenize videos using space-time patches, leading to excessive tokens and computational inefficiencies. The best token reduction strategies degrade performance and barely reduce the number of tokens when the camera moves. We introduce grounded video tokenization, a paradigm that organizes tokens based on panoptic sub-object trajectories rather than fixed patches. Our method aligns with fundamental perceptual principles, ensuring that tokenization reflects scene complexity rather than video duration. We propose TrajViT, a video encoder that extracts object trajectories and converts them into semantically meaningful tokens, significantly reducing redundancy while maintaining temporal coherence. Trained with contrastive learning, TrajViT significantly outperforms space-time ViT (ViT3D) across multiple video understanding benchmarks, e.g., TrajViT outperforms ViT3D by a large margin of 6% top-5 recall in average at video-text retrieval task with 10x token deduction. We also show TrajViT as a stronger model than ViT3D for being the video encoder for modern VideoLLM, obtaining an average of 5.2% performance improvement across 6 VideoQA benchmarks while having 4x faster training time and 18x less inference FLOPs. TrajViT is the first efficient encoder to consistently outperform ViT3D across diverse video analysis tasks, making it a robust and scalable solution.


翻译:有效的视频标记化对于扩展长视频的Transformer模型至关重要。当前方法使用时空块对视频进行标记化,导致令牌过多和计算效率低下。最佳的令牌缩减策略在摄像机移动时性能下降且几乎无法减少令牌数量。我们引入接地视频标记化这一范式,其基于全景子对象轨迹而非固定块来组织令牌。该方法符合基本感知原理,确保标记化反映场景复杂度而非视频时长。我们提出TrajViT——一种提取对象轨迹并将其转化为语义上有意义令牌的视频编码器,在显著降低冗余的同时保持时序连贯性。通过对比学习训练,TrajViT在多个视频理解基准测试中显著优于时空ViT(ViT3D),例如在视频-文本检索任务中,TrajViT以10倍令牌缩减实现平均top-5召回率比ViT3D高出6%的显著优势。我们还证明TrajViT作为现代VideoLLM的视频编码器比ViT3D更强大,在6个VideoQA基准测试中平均性能提升5.2%,同时训练时间缩短4倍,推理FLOPs减少18倍。TrajViT是首个在多种视频分析任务中持续优于ViT3D的高效编码器,成为鲁棒且可扩展的解决方案。

0
下载
关闭预览

相关内容

【ICML2022】时序自监督视频transformer
专知会员服务
31+阅读 · 2022年7月28日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
视频目标识别资源集合
专知
25+阅读 · 2019年6月15日
百闻不如一码!手把手教你用Python搭一个Transformer
大数据文摘
18+阅读 · 2019年4月22日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
一文带你入门视频目标分割(附数据集)
THU数据派
19+阅读 · 2017年10月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月12日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员