Autoregressive (AR) architectures have achieved significant successes in LLMs, inspiring explorations for video generation. In LLMs, top-p/top-k sampling strategies work exceptionally well: language tokens have high semantic density and low redundancy, so a fixed size of token candidates already strikes a balance between semantic accuracy and generation diversity. In contrast, video tokens have low semantic density and high spatio-temporal redundancy. This mismatch makes static top-k/top-p strategies ineffective for video decoders: they either introduce unnecessary randomness for low-uncertainty regions (static backgrounds) or get stuck in early errors for high-uncertainty regions (foreground objects). Prediction errors will accumulate as more frames are generated and eventually severely degrade long-horizon quality. To address this, we propose Entropy-Guided k-Guard (ENkG) sampling, a simple yet effective strategy that adapts sampling to token-wise dispersion, quantified by the entropy of each token's predicted distribution. ENkG uses adaptive token candidate sizes: for low-entropy regions, it employs fewer candidates to suppress redundant noise and preserve structural integrity; for high-entropy regions, it uses more candidates to mitigate error compounding. ENkG is model-agnostic, training-free, and adds negligible overhead. Experiments demonstrate consistent improvements in perceptual quality and structural stability compared to static top-k/top-p strategies.


翻译:自回归架构在大型语言模型中取得了显著成功,这启发了其在视频生成领域的探索。在大型语言模型中,top-p/top-k采样策略表现优异:语言标记具有高语义密度和低冗余性,因此固定规模的候选标记集合已在语义准确性和生成多样性之间取得了平衡。相比之下,视频标记具有低语义密度和高时空冗余性。这种不匹配使得静态的top-k/top-p策略对视频解码器效果不佳:它们要么在低不确定性区域(静态背景)引入不必要的随机性,要么在高不确定性区域(前景物体)因早期错误而陷入困境。随着生成帧数的增加,预测误差会不断累积,最终严重损害长序列生成质量。为解决此问题,我们提出了熵引导的k-守卫采样,这是一种简单而有效的策略,它根据标记级分散度(通过每个标记预测分布的熵来量化)自适应调整采样。ENkG采用自适应的候选标记规模:对于低熵区域,它使用较少的候选以抑制冗余噪声并保持结构完整性;对于高熵区域,它使用更多的候选以减轻误差累积。ENkG与模型无关,无需额外训练,且增加的开销可忽略不计。实验表明,与静态top-k/top-p策略相比,该方法在感知质量和结构稳定性方面均取得了一致的提升。

0
下载
关闭预览

相关内容

探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
视觉自回归模型综述
专知会员服务
25+阅读 · 2024年11月14日
生成技术在时空数据挖掘中的应用
专知会员服务
39+阅读 · 2024年6月5日
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
【NTU博士论文】自然语言处理的自回归生成,173页pdf
专知会员服务
26+阅读 · 2024年2月18日
Transformer的无限之路:位置编码视角下的长度外推综述
专知会员服务
44+阅读 · 2024年1月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
视觉自回归模型综述
专知会员服务
25+阅读 · 2024年11月14日
生成技术在时空数据挖掘中的应用
专知会员服务
39+阅读 · 2024年6月5日
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
【NTU博士论文】自然语言处理的自回归生成,173页pdf
专知会员服务
26+阅读 · 2024年2月18日
Transformer的无限之路:位置编码视角下的长度外推综述
专知会员服务
44+阅读 · 2024年1月17日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员