Director-style prompting, robotic action prediction, and interactive video agents demand temporal grounding over concurrent events -- a regime in which 68% of general clips and over 99% of robotics/gameplay clips contain overlapping events, yet existing multi-event generators rest on a single-active-prompt assumption. However, modern video generators, such as Diffusion Transformers (DiT), represent time as discrete points through point-wise positional encodings. This formulation creates a fundamental dimension mismatch: temporally extended intervals and overlapping events are mathematically unrepresentable to the attention mechanism. In this paper, we propose Time Interval Encoding (TIE), a principled, plug-and-play interval-aware generalization of rotary embeddings that elevates time intervals to first-class primitives inside DiT cross-attention. Rather than introducing another heuristic interval embedding, we show that, within RoPE-compatible bilinear attention, TIE is characterized by two basic principles: Temporal Integrability, which requires an event to aggregate positional evidence over its full duration, and Duration Invariance, which removes the trivial bias toward longer intervals. Under a uniform kernel, this characterization yields an efficient closed-form sinc-based solution that preserves the standard attention interface and naturally attenuates boundary noise through interval integration. Empirically, TIE preserves the visual quality of the base DiT model while substantially improving temporal controllability. In our experiments on the OmniEvents dataset, it improves human-verified Temporal Constraint Satisfaction Rate from 77.34% to 96.03% and reduces temporal boundary error from 0.261s to 0.073s, while also improving trajectory-level temporal alignment metrics. The code and dataset are available at https://github.com/MatrixTeam-AI/TIE.


翻译:导演式提示、机器人动作预测及交互式视频代理要求对并发事件进行时间定位——在此场景下,68%的通用视频片段和超过99%的机器人/游戏视频片段包含重叠事件,而现有多事件生成器均基于单一活跃提示假设。然而,当代视频生成器(如扩散变换器DiT)通过逐点位置编码将时间表示为离散点。这种形式化方法导致根本性的维度失配:时域扩展区间和重叠事件在注意力机制中无法用数学表示。本文提出时间区间编码(Time Interval Encoding, TIE),这是一种基于原理的即插即用型区间感知旋转嵌入泛化方法,将时间区间提升为DiT交叉注意力中的一等公民。我们未引入另一种启发式区间嵌入,而是证明在兼容RoPE的双线性注意力中,TIE由两个基本原则刻画:时间可积性要求事件在其完整持续时间内聚合位置证据,以及时长不变性消除对较长区间的平凡偏差。在均匀核函数下,这一刻画导出了基于sinc函数的闭式高效解,该解保留标准注意力接口并通过区间积分自然抑制边界噪声。实验表明,TIE在保持基础DiT模型视觉质量的同时显著提升时间可控性。在OmniEvents数据集上的实验中,该方法将人工验证的时间约束满足率从77.34%提升至96.03%,将时间边界误差从0.261秒降低至0.073秒,同时改进了轨迹级时间对齐指标。代码和数据集详见https://github.com/MatrixTeam-AI/TIE。

0
下载
关闭预览

相关内容

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
【CVPR2023】SViTT:稀疏视频文本Transformers的时间学习
专知会员服务
24+阅读 · 2023年4月19日
【ICML2022】时序自监督视频transformer
专知会员服务
31+阅读 · 2022年7月28日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
如何用Python做舆情时间序列可视化?
CocoaChina
11+阅读 · 2017年7月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员