Most colorization models condition only on a single reference, typically the first frame of the scene. However, this approach ignores other sources of conditional data, such as character sheets, background images, or arbitrary colorized frames. We propose TimeColor, a sketch-based video colorization model that supports heterogeneous, variable-count references with the use of explicit per-reference region assignment. TimeColor encodes references as additional latent frames which are concatenated temporally, permitting them to be processed concurrently in each diffusion step while keeping the model's parameter count fixed. TimeColor also uses spatiotemporal correspondence-masked attention to enforce subject-reference binding in addition to modality-disjoint RoPE indexing. These mechanisms mitigate shortcutting and cross-identity palette leakage. Experiments on SAKUGA-42M under both single- and multi-reference protocols show that TimeColor improves color fidelity, identity consistency, and temporal stability over prior baselines.


翻译:大多数着色模型仅以单一参考(通常是场景的首帧)作为条件。然而,这种方法忽略了其他条件数据源,例如角色设定图、背景图像或任意已着色帧。我们提出TimeColor,一种基于线稿的视频着色模型,它通过显式的逐参考区域分配,支持异构且数量可变的参考。TimeColor将参考编码为额外的潜在帧,并在时间维度上进行拼接,使得它们能在每个扩散步骤中被并行处理,同时保持模型参数量不变。TimeColor还使用时空对应掩码注意力,并结合模态分离的RoPE索引,以加强主体与参考之间的绑定。这些机制缓解了捷径学习与跨身份调色板泄漏问题。在SAKUGA-42M数据集上进行的单参考与多参考协议实验表明,相较于现有基线方法,TimeColor在色彩保真度、身份一致性和时序稳定性方面均有提升。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员