Autoregressive large language models (LLMs) scale well by expressing diverse tasks as sequences of discrete natural-language tokens and training with next-token prediction, which unifies comprehension and generation under self-supervision. Extending this paradigm to multimodal data requires a shared, discrete representation across modalities. However, most vision-language models (VLMs) still rely on a hybrid interface: discrete text tokens paired with continuous Vision Transformer (ViT) features. Because supervision is largely text-driven, these models are often biased toward understanding and cannot fully leverage large-scale self-supervised learning on non-text data. Recent work has explored discrete visual tokenization to enable fully autoregressive multimodal modeling, showing promising progress toward unified understanding and generation. Yet existing discrete vision tokens frequently lose information due to limited code capacity, resulting in noticeably weaker understanding than continuous-feature VLMs. We present Kelix, a fully discrete autoregressive unified model that closes the understanding gap between discrete and continuous visual representations.


翻译:自回归大语言模型(LLMs)通过将多样化任务表达为离散自然语言标记序列,并基于下一标记预测进行训练,实现了良好的扩展性,从而在自监督框架下统一了理解与生成能力。将这一范式扩展至多模态数据,需要跨模态的共享离散表示。然而,当前大多数视觉语言模型(VLMs)仍依赖混合接口:离散的文本标记与连续的Vision Transformer(ViT)特征相结合。由于监督信号主要来自文本,这些模型往往偏向理解任务,难以充分利用非文本数据上的大规模自监督学习。近期研究探索了离散视觉标记化方法,以实现完全自回归的多模态建模,在统一理解与生成方面展现出潜力。然而,现有离散视觉标记常因编码容量有限而丢失信息,导致其理解能力明显弱于基于连续特征的VLMs。本文提出Kelix——一种完全离散的自回归统一模型,它显著缩小了离散与连续视觉表示之间的理解能力差距。

0
下载
关闭预览

相关内容

大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 2月17日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月11日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月5日
Arxiv
0+阅读 · 2月4日
Arxiv
0+阅读 · 1月21日
Arxiv
0+阅读 · 1月15日
VIP会员
相关VIP内容
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
相关资讯
相关论文
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 2月17日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月11日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月5日
Arxiv
0+阅读 · 2月4日
Arxiv
0+阅读 · 1月21日
Arxiv
0+阅读 · 1月15日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员