Foundation models in language and vision benefit from a unified discrete token interface that converts raw inputs into sequences for scalable pre-training and inference. For graphs, an effective tokenizer should yield reusable discrete codes that capture both node semantics and relational structure across scales, yet prior quantization-based graph tokenizers typically combine residual vector quantization (RVQ) levels with fixed rules and often focus on a single structural view, limiting cross-task transfer. We present a hierarchical quantized tokenization framework with task-conditioned routing and dual-view token streams. It produces multi-scale codes and two synchronized sequences: a local stream that preserves node-level information and a diffusion-style multi-hop stream that summarizes connectivity. A lightweight router learns task-dependent mixtures over RVQ depths to select an appropriate granularity, while a gated cross-attention module aligns and fuses the two streams into a single token sequence without altering the downstream backbone encoder. Experiments on node classification and link prediction show consistent gains over strong quantized baselines at matched compute, with ablations verifying contributions from hierarchical quantization, adaptive routing, and fusion.


翻译:语言与视觉领域的基础模型受益于统一的离散分词接口,该接口将原始输入转换为序列,从而实现可扩展的预训练与推理。对于图数据而言,有效的分词器应能生成可复用的离散编码,同时捕获多尺度的节点语义与关系结构;然而,现有的基于量化的图分词器通常将残差向量量化(RVQ)层级与固定规则相结合,且往往仅关注单一结构视角,限制了跨任务迁移能力。本文提出一种具备任务条件路由与双视图分词流的层次化量化分词框架。该框架生成多尺度编码及两条同步序列:一条保留节点级信息的局部流,以及一条通过扩散式多跳聚合总结连通性的扩散流。轻量级路由器学习基于任务的RVQ深度混合策略以选择合适的粒度,而门控交叉注意力模块则在不改变下游骨干编码器的前提下,将两条流对齐并融合为单一分词序列。在节点分类与链接预测任务上的实验表明,在相同计算成本下,本方法相较于强量化基线模型取得了一致的性能提升,消融实验验证了层次化量化、自适应路由与融合机制的有效贡献。

0
下载
关闭预览

相关内容

将一个汉字序列切分成一个一个单独的词
图分类:结合胶囊网络Capsule和图卷积GCN(附代码)
中国人工智能学会
36+阅读 · 2019年2月26日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
综述 | 知识图谱向量化表示
PaperWeekly
19+阅读 · 2017年10月25日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员