Semantic IDs represent items as shared discrete token sequences and have become a practical tool for recommendation and retrieval. Yet it remains difficult to tell why a tokenizer fails: poor quality may come from codebook underutilization, unstable decision boundaries, or geometric distortion of the embedding space. This paper develops a quantitative framework for diagnosing these failures through expected codeword overlap and effective codebook capacity. The former measures expected codeword confusion under retrieval-time perturbation, while the latter converts that confusion into an effective number of usable, well-separated codes. The framework links semantic boundary confusion to both code usage imbalance and Euclidean geometric constraints. As a proof of concept, we present Decoupled Residual Quantization (DRQ), which separates continuous geometry reconstruction from discrete distribution matching. Experiments on a large-scale industrial dataset show that Semantic ID quality is multi-objective: symbolic robustness, reconstruction fidelity, and behavior-aware soft matching each stress different aspects of a tokenizer. These downstream observations are based on one proprietary industrial dataset, so they should be read as a case study rather than a universal benchmark claim.


翻译:语义ID将项目表示为共享的离散令牌序列,已成为推荐与检索中的实用工具。然而,揭示分词器失效的根源仍具挑战性:低质量可能源于码本利用率不足、决策边界不稳定或嵌入空间的几何畸变。本文构建了一个定量诊断框架,通过期望码字重叠和有效码本容量来分析这些失效。前者度量检索扰动下码字的期望混淆度,后者则将这种混淆度转化为可用且可分离的码字有效数量。该框架将语义边界混淆同时归因于码字使用不均衡与欧氏几何约束。作为概念验证,我们提出了解耦残差量化(DRQ),该方法将连续几何重建与离散分布匹配分离。在工业级大规模数据集上的实验表明,语义ID质量具有多目标性:符号鲁棒性、重建保真度以及行为感知软匹配分别侧重分词器的不同维度。这些下游观测基于单一专有工业数据集,因此应视为案例研究而非通用基准结论。

0
下载
关闭预览

相关内容

大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
专知会员服务
58+阅读 · 2021年8月12日
用Attention玩转CV,一文总览自注意力语义分割进展
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
推荐系统算法合集,满满都是干货(建议收藏)
七月在线实验室
17+阅读 · 2018年7月23日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
专知会员服务
58+阅读 · 2021年8月12日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员