How Reliable Are Semantic-ID Tokenizer Comparisons in Generative Recommendation? - 专知论文

会员服务 ·

0

分词 · 序列 · 生成式推荐 · 表示 · 离散 ·

How Reliable Are Semantic-ID Tokenizer Comparisons in Generative Recommendation?

翻译：语义ID分词器在生成式推荐中的比较有多可靠？

Qian Zhang,Lech Szymanski,Haibo Zhang,Jeremiah D. Deng

from arxiv, 12 pages, 5 figures

In Semantic-ID (SID) based generative recommendation, each item is represented as a sequence of discrete codes, and an autoregressive model is trained to generate the SID sequence of the next item; top-K performance is then measured by checking whether the SID sequence of the target item appears among the generated sequences. This evaluation protocol equates SID-level matching with item-level recommendation, an equivalence that holds only when every SID sequence maps to a single item. We show this assumption breaks down in practice: because tokenizers compress item features into a code space, semantically similar but collaboratively distinct items are frequently assigned the same SID sequence. Across four datasets and five representative tokenizers, the fraction of items involved in such collisions reaches 30.5%, so matching a shared SID sequence identifies only a collision group rather than the target item. Consequently, SID-level metrics overestimate item-level performance (Hit@10 is inflated by up to 103.36%), and the inflation grows with the collision rate. To support faithful comparison, we develop collision-aware item-level metrics computed directly from generated SID sequences, together with a post-tokenizer procedure that reassigns last-level SIDs at minimum cost to obtain a collision-free assignment for any existing tokenizer. Our results indicate that SID-level rankings in prior work should be interpreted with caution, and that reliable tokenizer evaluation requires either item-level correction or collision-free SID assignments.

翻译：在基于语义ID（SID）的生成式推荐中，每个物品被表示为一系列离散编码，并通过训练自回归模型生成下一物品的SID序列；随后通过检查目标物品的SID序列是否出现在生成的序列中来衡量Top-K性能。该评估协议将SID级别的匹配等同于物品级别的推荐，这种等价性仅在每个SID序列唯一映射到单个物品时才成立。我们证明这一假设在实际中不成立：由于分词器将物品特征压缩到编码空间，语义相似但在协同过滤中不同的物品经常被分配相同的SID序列。在四个数据集和五个代表性分词器上，涉及此类冲突的物品比例高达30.5%，因此匹配共享的SID序列仅能识别冲突组而非目标物品。结果，SID级别的指标高估了物品级别的性能（Hit@10最多虚增103.36%），且虚增程度随冲突率增加而增大。为支持可信的比较，我们开发了直接从生成的SID序列计算的冲突感知物品级指标，以及一种后分词器处理程序：以最小代价重新分配最后一层SID，从而为任何现有分词器获得无冲突分配。我们的结果表明，先前工作中基于SID级别的排名应谨慎解读，而可靠的分词器评估需要物品级修正或无冲突的SID分配。

0

相关内容

将一个汉字序列切分成一个一个单独的词

生成式推荐综述：数据、模型与任务

生成式推荐综述：数据、模型与任务

专知会员服务

20+阅读 · 2025年11月4日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

生成式推荐最新进展

生成式推荐最新进展

专知会员服务

25+阅读 · 2025年1月8日

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

专知会员服务

14+阅读 · 2024年9月30日

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

专知会员服务

49+阅读 · 2023年2月13日

【AAAI2023】统一序列更好:时间间隔感知数据增强的序列推荐

【AAAI2023】统一序列更好:时间间隔感知数据增强的序列推荐

专知会员服务

16+阅读 · 2022年12月31日

推荐系统如何可信？罗格斯大学最新《可信推荐系统》综述，43页pdf阐述可信RS组成与技术

推荐系统如何可信？罗格斯大学最新《可信推荐系统》综述，43页pdf阐述可信RS组成与技术

专知会员服务

33+阅读 · 2022年8月8日

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

专知会员服务

12+阅读 · 2022年3月24日

对话推荐系统综述论文，35页pdf，A Survey on Conversational Recommender Systems

对话推荐系统综述论文，35页pdf，A Survey on Conversational Recommender Systems

专知会员服务

117+阅读 · 2020年4月3日

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

专知会员服务

15+阅读 · 2020年2月1日

推荐系统产品与算法概述 | 深度

推荐系统产品与算法概述 | 深度

AI100

11+阅读 · 2019年6月13日

开源 | 基于会话的最优推荐模型：SR-GNN的PaddlePaddle实现

开源 | 基于会话的最优推荐模型：SR-GNN的PaddlePaddle实现

量子位

13+阅读 · 2019年5月13日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

AI研习社

14+阅读 · 2019年1月16日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

如何将知识图谱特征学习应用到推荐系统？

如何将知识图谱特征学习应用到推荐系统？

AI100

16+阅读 · 2018年6月10日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于非对称群体兴趣相关性并融合情境与群体信任的Web服务推荐研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Implicit Reasoning for Large Language Model-based Generative Recommendation

Arxiv

0+阅读 · 6月15日

RAGR: Review-Augmented Generative Recommendation

Arxiv

0+阅读 · 6月15日

Learning Variable-Length Tokenization for Generative Recommendation

Arxiv

0+阅读 · 6月12日

Implicit Reasoning for Large Language Model-based Generative Recommendation

Arxiv

0+阅读 · 6月12日

SIDInspector: A Mapping-First Diagnostic Resource for Semantic-ID Tokenizers

Arxiv

0+阅读 · 6月9日

The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation

Arxiv

0+阅读 · 5月28日

FORGE: Forming Semantic Identifiers for Generative Retrieval in Industrial Datasets

Arxiv

0+阅读 · 5月27日

Asymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical Quantization

Arxiv

0+阅读 · 5月14日

Expressiveness Limits of Autoregressive Semantic ID Generation in Generative Recommendation

Arxiv

0+阅读 · 5月7日

Beyond Static Collision Handling: Adaptive Semantic ID Learning for Multimodal Recommendation at Industrial Scale

Arxiv

0+阅读 · 4月26日

VIP会员

文章信息

相关主题

生成式推荐

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

生成式推荐综述：数据、模型与任务

生成式推荐综述：数据、模型与任务

专知会员服务

20+阅读 · 2025年11月4日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

生成式推荐最新进展

生成式推荐最新进展

专知会员服务

25+阅读 · 2025年1月8日

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

专知会员服务

14+阅读 · 2024年9月30日

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

专知会员服务

49+阅读 · 2023年2月13日

【AAAI2023】统一序列更好:时间间隔感知数据增强的序列推荐

【AAAI2023】统一序列更好:时间间隔感知数据增强的序列推荐

专知会员服务

16+阅读 · 2022年12月31日

推荐系统如何可信？罗格斯大学最新《可信推荐系统》综述，43页pdf阐述可信RS组成与技术

推荐系统如何可信？罗格斯大学最新《可信推荐系统》综述，43页pdf阐述可信RS组成与技术

专知会员服务

33+阅读 · 2022年8月8日

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

专知会员服务

12+阅读 · 2022年3月24日

对话推荐系统综述论文，35页pdf，A Survey on Conversational Recommender Systems

对话推荐系统综述论文，35页pdf，A Survey on Conversational Recommender Systems

专知会员服务

117+阅读 · 2020年4月3日

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

专知会员服务

15+阅读 · 2020年2月1日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

推荐系统产品与算法概述 | 深度

推荐系统产品与算法概述 | 深度

AI100

11+阅读 · 2019年6月13日

开源 | 基于会话的最优推荐模型：SR-GNN的PaddlePaddle实现

开源 | 基于会话的最优推荐模型：SR-GNN的PaddlePaddle实现

量子位

13+阅读 · 2019年5月13日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

AI研习社

14+阅读 · 2019年1月16日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

如何将知识图谱特征学习应用到推荐系统？

如何将知识图谱特征学习应用到推荐系统？

AI100

16+阅读 · 2018年6月10日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

相关论文

Implicit Reasoning for Large Language Model-based Generative Recommendation

Arxiv

0+阅读 · 6月15日

RAGR: Review-Augmented Generative Recommendation

Arxiv

0+阅读 · 6月15日

Learning Variable-Length Tokenization for Generative Recommendation

Arxiv

0+阅读 · 6月12日

Implicit Reasoning for Large Language Model-based Generative Recommendation

Arxiv

0+阅读 · 6月12日

SIDInspector: A Mapping-First Diagnostic Resource for Semantic-ID Tokenizers

Arxiv

0+阅读 · 6月9日

The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation

Arxiv

0+阅读 · 5月28日

FORGE: Forming Semantic Identifiers for Generative Retrieval in Industrial Datasets

Arxiv

0+阅读 · 5月27日

Asymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical Quantization

Arxiv

0+阅读 · 5月14日

Expressiveness Limits of Autoregressive Semantic ID Generation in Generative Recommendation

Arxiv

0+阅读 · 5月7日

Beyond Static Collision Handling: Adaptive Semantic ID Learning for Multimodal Recommendation at Industrial Scale

Arxiv

0+阅读 · 4月26日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于非对称群体兴趣相关性并融合情境与群体信任的Web服务推荐研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员