We present Channel-wise Vector Quantization (CVQ), a novel image tokenization paradigm that replaces patch-wise tokens with channel-wise tokens. Unlike conventional vector quantization, which assigns a discrete token to each patch feature vector, CVQ quantizes each channel of the feature map. This formulation represents an image as discrete levels of visual details, rather than as a grid of spatial patches. Based on CVQ, we introduce a new visual autoregressive framework with "next-channel prediction". Instead of rendering images patch by patch in raster order, our Channel-wise Autoregressive (CAR) model predicts image channels sequentially, producing progressively enriched visual details. Specifically, it first sketches global structure and then refines fine-grained attributes, akin to a human artist's workflow. Empirically, we show that: (1) CVQ achieves 100% codebook utilization with a 16K+ codebook size without any bells and whistles, and substantially improves reconstruction quality over conventional VQ; and (2) CAR attains a DPG score of 86.7 and a GenEval score of 0.79, demonstrating strong effectiveness for text-to-image generation.


翻译:我们提出通道向矢量量化(Channel-wise Vector Quantization, CVQ),这是一种新颖的图像标记化范式,用通道向标记取代了分块向标记。与传统的矢量量化(为每个分块特征向量分配一个离散标记)不同,CVQ对特征图的每个通道进行量化。这种表述将图像表示为视觉细节的离散层次,而非空间分块的网格。基于CVQ,我们引入了一种新的视觉自回归框架,采用"下一通道预测"机制。我们的通道向自回归(Channel-wise Autoregressive, CAR)模型并非以光栅顺序逐块渲染图像,而是按顺序预测图像通道,逐步生成丰富的视觉细节。具体而言,它首先勾勒全局结构,然后细化细节属性,类似于人类艺术家的创作流程。实验表明:(1)CVQ在无需任何额外技巧的情况下,实现了16K以上码本大小的100%码本利用率,并在重建质量上显著优于传统VQ;(2)CAR在DPG指标上达到86.7分,在GenEval指标上达到0.79分,展示了其在文本到图像生成中的强大有效性。

0
下载
关闭预览

相关内容

深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
专知会员服务
37+阅读 · 2021年9月12日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
13+阅读 · 2020年3月30日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
超全总结:神经网络加速之量化模型 | 附带代码
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
综述 | 知识图谱向量化表示
开放知识图谱
33+阅读 · 2017年10月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
2+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
1+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员