Autoregressive (AR) architectures have achieved significant successes in LLMs, inspiring explorations for video generation. In LLMs, top-p/top-k sampling strategies work exceptionally well: language tokens have high semantic density and low redundancy, so a fixed size of token candidates already strikes a balance between semantic accuracy and generation diversity. In contrast, video tokens have low semantic density and high spatio-temporal redundancy. This mismatch makes static top-k/top-p strategies ineffective for video decoders: they either introduce unnecessary randomness for low-uncertainty regions (static backgrounds) or get stuck in early errors for high-uncertainty regions (foreground objects). Prediction errors will accumulate as more frames are generated and eventually severely degrade long-horizon quality. To address this, we propose Entropy-Guided k-Guard (ENkG) sampling, a simple yet effective strategy that adapts sampling to token-wise dispersion, quantified by the entropy of each token's predicted distribution. ENkG uses adaptive token candidate sizes: for low-entropy regions, it employs fewer candidates to suppress redundant noise and preserve structural integrity; for high-entropy regions, it uses more candidates to mitigate error compounding. ENkG is model-agnostic, training-free, and adds negligible overhead. Experiments demonstrate consistent improvements in perceptual quality and structural stability compared to static top-k/top-p strategies.


翻译:自回归(AR)架构在大型语言模型中取得了显著成功,这启发了其在视频生成领域的探索。在大型语言模型中,top-p/top-k采样策略表现优异:语言标记具有高语义密度和低冗余性,因此固定大小的候选标记集已能在语义准确性和生成多样性之间取得平衡。相比之下,视频标记具有低语义密度和高时空冗余性。这种不匹配使得静态的top-k/top-p策略对视频解码器效果不佳:它们要么在低不确定性区域(静态背景)引入不必要的随机性,要么在高不确定性区域(前景物体)陷入早期错误。随着生成帧数的增加,预测误差会不断累积,最终严重损害长序列生成质量。为解决这一问题,我们提出了熵引导的k-守卫(ENkG)采样策略,这是一种简单而有效的策略,它根据标记级离散度(通过每个标记预测分布的熵来量化)自适应调整采样。ENkG采用自适应候选标记数量:对于低熵区域,它使用较少的候选标记以抑制冗余噪声并保持结构完整性;对于高熵区域,它使用更多的候选标记以减轻误差累积。ENkG与模型无关,无需额外训练,且增加的开销可忽略不计。实验表明,与静态top-k/top-p策略相比,该方法在感知质量和结构稳定性方面均取得了持续改进。

0
下载
关闭预览

相关内容

探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
视觉自回归模型综述
专知会员服务
25+阅读 · 2024年11月14日
生成技术在时空数据挖掘中的应用
专知会员服务
39+阅读 · 2024年6月5日
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
Transformer的无限之路:位置编码视角下的长度外推综述
专知会员服务
44+阅读 · 2024年1月17日
【ICLR2022】序列生成的目标侧数据增强
专知会员服务
23+阅读 · 2022年2月14日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
视觉自回归模型综述
专知会员服务
25+阅读 · 2024年11月14日
生成技术在时空数据挖掘中的应用
专知会员服务
39+阅读 · 2024年6月5日
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
Transformer的无限之路:位置编码视角下的长度外推综述
专知会员服务
44+阅读 · 2024年1月17日
【ICLR2022】序列生成的目标侧数据增强
专知会员服务
23+阅读 · 2022年2月14日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员